Hacker News 中文摘要

RSS订阅

OpenAI新开源模型实为Phi-5 -- OpenAI's new open-source model is basically Phi-5

文章摘要

OpenAI发布了首个开源大语言模型gpt-oss-120b和gpt-oss-20b,虽然在部分基准测试中表现优异,但在SimpleQA等任务上表现不佳。这些模型在技术上胜任,但缺乏跨领域知识,尤其在流行文化方面。尽管有人对其评价积极,但预计这些模型在实际任务中的表现可能不如基准测试中出色。此外,文章提到微软的Phi系列模型,其核心思想是使用合成数据进行训练。

文章总结

OpenAI最近发布了其首个开源大语言模型,分别命名为gpt-oss-120b和gpt-oss-20b。这些模型在某些基准测试中表现出色,但在其他任务(如SimpleQA)中却表现不佳。尽管技术上具备竞争力,但它们在跨领域知识上存在明显不足,例如在科学知识方面表现广泛,但对流行文化了解有限。预计这些模型在实际应用中的表现可能不如基准测试中那么出色。

Phi模型与合成数据训练

2024年,Sebastien Bubeck领导开发了微软的开源Phi系列模型,其核心思想是仅使用合成数据进行训练,即由其他语言模型生成或手工编写的教科书内容。虽然合成数据比普通数据更昂贵,但它提供了对训练数据的完全控制。然而,这种训练方式导致模型在基准测试中表现优异,但在实际应用中却令人失望。

合成数据的安全性

OpenAI选择训练Phi风格模型的原因之一是安全性。开源模型的发布对大型组织来说是一个巨大的风险,因为一旦发布,模型将永远与组织名称相关联,且研究人员可能会尝试移除安全限制。通过使用合成数据或高度控制的训练数据,可以更容易地生成安全的模型,避免模型学习到不良行为。

OpenAI的选择

OpenAI选择合成数据训练路线,可能是为了在基准测试中超越中国的开源模型,同时避免因模型行为不当而引发丑闻。与Meta不同,OpenAI的主要业务是其闭源模型,因此其开源模型并不需要在实际应用中表现出色。

总的来说,OpenAI的新模型gpt-oss可能类似于Phi-5和Phi-5-mini,尽管它们在基准测试中表现优异,但在实际应用中的效果仍有待观察。

评论总结

评论内容总结:

  1. 关于模型开放性与开源定义的争议

    • NitpickLawyer指出,开放权重的模型(如gpt-oss、qwens等)实际上符合开源定义,因为Apache 2.0和MIT许可证允许修改和重新发布。他强调“开源”并不要求公开训练数据和代码,权重本身就是修改的首选形式。
    • 引用:“Models released under open source licenses are open source. gpt-oss, qwens and mistrals (apache2.0), deepseeks(MIT), etc.”
    • 引用:“The weights are the 'preferred form of making modifications'.”
  2. 企业对模型安全性与自由度的需求

    • NitpickLawyer提到,企业更倾向于使用安全但功能有限的模型,而非可能失控的开放模型。本地LLM社区追求自由和个性化,而企业则注重模型的稳定性和安全性。
    • 引用:“Businesses absolutely do not want that. And in fact they spend a lot of effort into implementing guardrails.”
    • 引用:“Businesses will always prefer something that errs on the side of less than useful but 'safe'.”
  3. 模型性能与实用性

    • magicalhippo对GPT-OSS 20B的表现表示赞赏,特别是在处理复杂SQL问题和代码解释方面,认为其优于其他类似规模的模型。
    • 引用:“GPT-OSS picked up on it, and made a reasonable assumption.”
    • 引用:“It’s also much more thorough at explaining code compared to the other models.”
  4. 模型训练数据与生成方式

    • tarruda和lifis讨论了合成数据的生成方式及其对模型输出的影响,质疑仅使用合成数据训练的模型是否仍会输出不当内容。
    • 引用:“If a model is trained only on synthetic data, is it still possible it will output things like this?”
    • 引用:“Do they just sample the model randomly starting from an empty state, perhaps with some filtering?”
  5. 模型的知识广度与工具使用能力

    • diggan认为模型应专注于通用知识和工具使用能力,而非易变的流行文化细节,这样可以减少频繁重新训练的需求。
    • 引用:“Train the models to have good general knowledge, and be really good at using tools.”
    • 引用:“You won’t have to re-train models from scratch just because some JS library now has a different API.”
  6. 模型定制化与用户需求

    • wmf指出,许多人对GPT-OSS的批评缺乏具体目标,并提到小语言模型的主要定制需求来自色情角色扮演领域。
    • 引用:“The main use-case for fine-tuning small language models is for erotic role-play, and there’s a serious demand.”
    • 引用:“None of them said what they were trying to accomplish.”