文章摘要
OpenAI近期发布了gpt-oss-120b和gpt-oss-20b,这是自2019年GPT-2以来首次公开的开放权重大模型。新模型通过优化可在本地运行,并展示了Transformer架构的扩展性。文章详细分析了gpt-oss与GPT-2的架构对比、MXFP4优化、宽度与深度权衡、注意力偏差及性能基准测试等内容,同时提及了GPT-5的发布。
文章总结
标题:从GPT-2到GPT-OSS:架构演进分析
OpenAI最近发布了其新的开源大语言模型(LLM)——GPT-OSS-120B和GPT-OSS-20B,这是自2019年GPT-2以来首次发布的开源权重模型。通过一些巧妙的优化,这些模型可以在本地运行。
自GPT-2以来,OpenAI首次分享了完全开源权重的大型模型。早期的GPT模型展示了Transformer架构的扩展性,而2022年发布的ChatGPT则通过展示其在写作、知识(以及后来的编码)任务中的实用性,使这些模型成为主流。现在,OpenAI发布了期待已久的权重模型,其架构中有一些有趣的细节。
本文将对GPT-OSS的架构进行详细分析,并与GPT-2及其他现代LLM进行比较。以下是文章的主要内容:
- 模型架构与GPT-2的对比:GPT-OSS与GPT-2都是基于Transformer架构的解码器模型,但GPT-OSS在细节上进行了多项优化。
- MXFP4优化:通过MXFP4量化技术,GPT-OSS模型可以适配到单个GPU上运行。
- 宽度与深度的权衡:GPT-OSS与Qwen3在模型宽度和深度上的设计差异。
- 注意力机制与滑动窗口:GPT-OSS在部分层中使用了滑动窗口注意力机制,以减少内存和计算成本。
- 基准测试与GPT-5的对比:GPT-OSS在基准测试中的表现与GPT-5相当,尽管其规模较小。
架构细节: - Dropout的弃用:现代LLM中很少使用Dropout,因为LLM通常在大规模数据集上只训练一个周期,过拟合的风险较低。 - 位置编码:GPT-OSS采用了RoPE(旋转位置编码),而不是传统的绝对位置嵌入。 - 激活函数:GPT-OSS使用Swish替代了GELU,Swish在计算上更为高效。 - 混合专家模型(MoE):GPT-OSS采用了MoE架构,通过稀疏激活的方式增加模型容量,同时保持推理效率。 - 分组查询注意力(GQA):GQA通过共享键值投影,减少了内存使用并提高了效率。
与Qwen3的对比: - 深度与宽度:Qwen3的架构更深,而GPT-OSS则更宽。深度模型在灵活性上更强,但训练难度较大;宽度模型在推理速度上更快,但内存消耗更高。 - 专家数量:GPT-OSS的专家数量较少,但每个专家的规模更大。
训练与推理: - 训练时间:GPT-OSS的训练时间与DeepSeek V3相当,但GPT-OSS的训练包括了监督学习和强化学习阶段。 - 推理控制:GPT-OSS允许用户通过系统提示控制推理的深度,从而在成本、计算和准确性之间进行权衡。
量化与硬件支持: - MXFP4量化:GPT-OSS支持MXFP4量化,使得120B模型可以在单个80GB H100 GPU上运行,而20B模型则可以在16GB显存的RTX 50系列GPU上运行。
总结: GPT-OSS的发布标志着OpenAI在开源LLM领域的重要进展。尽管在基准测试中表现优异,但其在实际使用中的表现仍需进一步验证。随着工具集成的发展,推理能力可能比记忆能力更为重要。总的来说,GPT-OSS为开源和本地模型的使用者提供了强大的新选择。
评论总结
评论主要围绕GPT-OSS和Qwen3的性能对比展开,观点多样且各有支持。
支持Qwen3的观点: 1. 性能优越:多位用户表示Qwen3在本地测试中表现更好,尤其是在遵循提示和生成自然语言方面。例如,7moritz7提到:“Qwen3 substantially better in my local testing... adheres to the prompt better and is more organic sounding.”(Qwen3在我的本地测试中表现显著更好... 更准确地遵循提示,且生成的语言更自然。) 2. 速度与效率:roscas指出Qwen3在处理任务时速度更快:“qwen3 just works in a few seconds, while gpt-oss was cancelled after 5 minutes... doing nothing.”(Qwen3几秒钟就完成了任务,而gpt-oss在5分钟后被取消... 什么都没做。)
支持GPT-OSS的观点: 1. 数学问题解决能力:storus认为GPT-OSS在解决高级数学问题时表现接近更大型模型,且速度更快:“GPT-OSS-120B Q8 was close to DeepSeek R1 671B Q16 in solving graduate-level math but much faster with way fewer thinking tokens.”(GPT-OSS-120B Q8在解决研究生级别数学问题时接近DeepSeek R1 671B Q16,但速度更快,且使用的思考标记更少。) 2. 上下文处理:marklwatson提到GPT-OSS在提供更多上下文信息时表现良好:“I get very good results with get-oss when I 'over prompt,' that is, I specify a larger amount of context information than I usually do.”(当我“过度提示”时,即提供比平时更多的上下文信息时,GPT-OSS表现非常好。)
其他观点: 1. 架构与训练:Scene_Cast2指出,现代开源大模型的架构相似,创新更多体现在训练方法上:“most innovation seems to be happening on the training (data, RL) front.”(大多数创新似乎发生在训练(数据、强化学习)方面。) 2. 本地模型的应用:pryelluw强调Qwen3在本地应用中的潜力:“Mods like these will revolutionize local knowledge and automation.”(像这样的模型将彻底改变本地知识和自动化。)
总结来看,Qwen3在性能和速度上更受用户青睐,而GPT-OSS在处理复杂任务和上下文理解方面也有其优势。同时,用户普遍认为训练方法的创新是当前大模型发展的关键。