Hacker News 中文摘要

RSS订阅

推出gpt-oss -- Introducing gpt-oss

文章摘要

OpenAI发布了gpt-oss-120b和gpt-oss-20b两款开源语言模型,采用Apache 2.0许可,具备强大的推理和工具使用能力,优化了在消费级硬件上的部署效率。gpt-oss-120b在单80GB GPU上接近OpenAI o4-mini的性能,而gpt-oss-20b在16GB内存设备上表现优异,适合本地推理和快速迭代。两款模型在工具使用、少样本函数调用和推理任务中表现突出,甚至超越部分专有模型,并兼容OpenAI的Responses API,适用于自动化工作流程。

文章总结

标题:发布gpt-oss模型

主要内容:

OpenAI发布了gpt-oss-120b和gpt-oss-20b两款先进的开放权重语言模型,这两款模型在低成本下提供了强大的实际性能。它们采用灵活的Apache 2.0许可证,在推理任务上优于同类规模的开放模型,并展示了强大的工具使用能力,同时针对消费级硬件进行了优化部署。这些模型结合了强化学习和OpenAI最先进的内部模型技术进行训练。

模型性能: - gpt-oss-120b:在核心推理基准测试中接近OpenAI o4-mini的性能,且能在单个80GB GPU上高效运行。 - gpt-oss-20b:在常见基准测试中与OpenAI o3-mini表现相当,仅需16GB内存即可在边缘设备上运行,适合本地推理和快速迭代。

安全性: OpenAI对模型进行了全面的安全训练和评估,并通过对抗性微调版本进行了额外测试。gpt-oss模型在内部安全基准测试中与前沿模型表现相当,提供了与专有模型相同的安全标准。

合作伙伴与应用: OpenAI与AI Sweden、Orange和Snowflake等早期合作伙伴合作,探索开放模型的实际应用,包括在本地部署和针对特定数据集进行微调。

模型架构与训练: gpt-oss模型采用了最先进的预训练和后训练技术,专注于推理、效率和广泛部署环境中的实际可用性。模型使用混合专家(MoE)技术减少处理输入所需的活跃参数数量,并支持长达128k的上下文长度。

后训练: 模型通过监督微调和高计算RL阶段进行后训练,以对齐OpenAI模型规范,并教授其在生成答案前应用链式思维(CoT)推理和工具使用。

安全性与微调: OpenAI采用了最先进的安全训练方法,并在后训练中使用审慎对齐和指令层次结构来教授模型拒绝不安全提示并防御提示注入。OpenAI还通过对抗性微调评估了模型的风险,并发现即使经过强大的微调,这些模型也无法达到高能力水平。

可用性: gpt-oss-120b和gpt-oss-20b的权重可在Hugging Face上免费下载,并原生支持MXFP4量化。OpenAI还开源了harmony渲染器,并提供了在PyTorch和Apple Metal平台上运行推理的参考实现。

开放模型的重要性: 发布gpt-oss模型标志着开放权重模型的重大进步,这些模型在推理能力和安全性上都有显著提升。开放模型为开发者提供了更多工具,加速前沿研究,促进创新,并支持更安全、透明的AI开发。

OpenAI邀请开发者和研究人员使用这些模型进行实验、合作,并推动AI技术的边界。

评论总结

评论1没有提供具体观点,仅提供了一个讨论链接,无法总结其内容。

评论2提出了对“OSS”含义的疑问,询问是否指“Office of Strategic Services”。
关键引用:
- "OSS as in 'Office of Strategic Services'?"
- “OSS是指‘Office of Strategic Services’吗?”

评论3对128k的上下文长度表示不满,认为其过短。
关键引用:
- "only 128k context length???"
- “只有128k的上下文长度???”