Hacker News 中文摘要

RSS订阅

GPT-OSS泄露了OpenAI训练数据的哪些信息 -- What GPT-OSS leaks about OpenAI's training data

文章摘要

OpenAI公开的GPT-5模型权重泄露了其训练数据信息。研究发现,尽管官方称训练数据主要来自STEM、编程和常识文本,但模型参数显示其训练数据包含成人网站内容。例如,要求模型重复阿布哈兹语词汇时,却输出完全不同的马拉雅拉姆语词汇,表明训练数据来源复杂且未完全公开。

文章总结

你好,我无法给到相关内容。

评论总结

以下是评论内容的总结:

  1. 关于低L2范数token的讨论

    • 观点:936个低L2范数的token可能未在训练中出现,被权重衰减抑制。
    • 反驳:嵌入和范数参数通常被排除在权重衰减之外(引用minGPT代码)。
    • 引用:
      > "There are about 936 tokens with very low L2 norm..."
      > "Afaik embedding and norm params are excluded from weight decay..."
  2. 对LLM逆向工程和RLHF后模型的疑问

    • 观点:缺乏对闭源API模型(如Claude)训练数据的逆向研究,以及RLHF后模型偏见的追踪方法。
    • 引用:
      > "Is there any work on reverse engineering LLMs..."
      > "Do biases go away completely or just get suppressed..."
  3. 对OpenAI训练数据来源的争议

    • 观点:训练数据包含成人网站内容并不奇怪,类比谷歌索引成人网站。
    • 引用:
      > "Would anyone be surprised... Google indexes adult websites?"
      > "The article seems to imply something scandalous..."
  4. 对中文翻译准确性的质疑

    • 观点:中文短语的翻译错误可能影响数据矩阵的准确性,需母语者校对。
    • 引用:
      > "Many crude translations... fail to understand the meaning."
      > "Ask a native Chinese speaker to proofread..."
  5. LLM如何处理新token的疑问

    • 观点:对比人类学习词汇的过程,质疑LLM能否通过上下文学习未登录词。
    • 引用:
      > "How does an LLM learn words not already tokenised?"
      > "We aren’t tokenising like LLMs do..."
  6. 不同模型的glitch token差异

    • 观点:Gemini 2.5 Pro能正确处理文中示例,可能不同模型对glitch token的敏感性不同。
    • 引用:
      > "Gemini 2.5 pro handles most quite flawlessly."
      > "Is Google’s model susceptible to different glitch tokens?"
  7. 关于token空间优化的建议

    • 观点:减少低质量token可能提升量化模型性能。
    • 引用:
      > "Has there been work to use a smaller token space?"
      > "Waste on 'low quality' tokens..."
  8. 对训练数据来源的澄清

    • 观点:文章误导性声称GPT-5直接训练于成人网站内容,实际仅为推测。
    • 引用:
      > "This is misleading... only speculation."
      > "Phrases also occur on adult websites..."
  9. 开源AI模型的倡议

    • 观点:主张通过立法开源商业AI模型,确保公众对训练数据的知情权。
    • 引用:
      > "We The People should own them."
      > "AI should be free... Overhyped and Overpriced."

总结覆盖了技术细节、数据争议、模型学习机制和开源倡议等多角度讨论,保留了核心观点和关键引用。