Hacker News 中文摘要

文章摘要

自GPT架构问世七年来，尽管在位置编码、注意力机制和激活函数等方面有所改进，但大型语言模型（LLM）的核心结构仍保持相似。尽管数据集、训练技术和超参数等因素对模型性能影响显著且难以比较，但通过分析2025年LLM架构的细微变化，仍能洞察开发者的创新方向。

文章总结

大模型架构对比：2025年的LLM发展

自最初的GPT架构问世以来，已经过去了七年。回顾GPT-2（2019年）并展望DeepSeek-V3和Llama 4（2024-2025年），人们可能会惊讶地发现，这些模型在结构上仍然非常相似。尽管位置编码从绝对编码演变为旋转编码（RoPE），多头注意力机制（MHA）逐渐被分组查询注意力（GQA）取代，激活函数也从GELU转向了更高效的SwiGLU，但这些改进是否真正带来了突破性的变化，还是仅仅在原有架构基础上进行了优化？

比较不同大语言模型（LLM）以确定其性能优劣的关键因素是非常困难的，因为数据集、训练技术和超参数差异巨大，且往往缺乏详细记录。然而，通过分析这些模型的结构变化，我们仍然可以洞察2025年LLM开发者的创新方向。

DeepSeek-V3与R1的架构创新

DeepSeek R1在2025年1月发布时引起了广泛关注。它基于2024年12月推出的DeepSeek V3架构，专注于推理任务。尽管本文主要讨论2025年的架构，但由于DeepSeek V3在R1发布后才获得广泛关注，因此将其纳入讨论是合理的。

DeepSeek V3引入了两项关键架构技术，显著提升了计算效率：

多头潜在注意力（MLA）：与GQA不同，MLA通过将键和值张量压缩到低维空间来减少内存使用，推理时再将其投影回原始大小。这种方法在减少内存使用的同时，甚至略微提升了模型性能。
专家混合（MoE）：MoE通过将每个前馈模块替换为多个专家层，增加了模型的总参数量，但每个推理步骤只激活少量专家，从而保持推理效率。DeepSeek V3的MoE设计还引入了共享专家，进一步提升了模型性能。

OLMo 2的透明性与架构选择

OLMo系列模型由非营利组织Allen Institute for AI开发，以其训练数据和代码的透明度著称。尽管OLMo模型在基准测试中表现并不突出，但其透明性为LLM开发提供了宝贵的参考。

OLMo 2的架构设计主要围绕归一化层的放置，采用了RMSNorm，并将其放置在注意力模块和前馈模块之后，这种“后归一化”设计有助于提高训练稳定性。此外，OLMo 2还在注意力机制中引入了QK归一化，进一步稳定了训练过程。

Gemma 3的滑动窗口注意力

Gemma 3通过使用滑动窗口注意力机制，显著减少了KV缓存的内存需求。滑动窗口注意力是一种局部注意力机制，限制了每个查询的上下文范围，从而提高了计算效率。Gemma 3还采用了混合的归一化层放置策略，结合了“前归一化”和“后归一化”的优点。

Kimi 2的Muon优化器与大规模架构

Kimi 2是2025年最引人注目的开源模型之一，其性能与谷歌的Gemini、Anthropic的Claude和OpenAI的ChatGPT等专有模型不相上下。Kimi 2采用了Muon优化器，取代了传统的AdamW，训练损失曲线非常平滑，帮助其在基准测试中取得了优异成绩。Kimi 2的架构基于DeepSeek V3，但增加了MoE模块中的专家数量，并减少了MLA模块中的头数。

总结

2025年的大模型架构发展表明，尽管许多模型在结构上仍然相似，但通过引入MLA、MoE、滑动窗口注意力等创新技术，开发者们在提升计算效率和模型性能方面取得了显著进展。未来，随着这些技术的进一步优化和结合，LLM的性能和应用范围将继续扩展。

（本文为简化版，删除了部分与主题无关的细节和代码示例。）

评论总结

对文章内容的认可
- 评论1认为文章对未持续关注相关领域的人来说是一个很好的总结。
  引用: "This is a nice catchup for some who hasn't been keeping up like me"
- 评论4赞赏文章中的图表，认为其对介于新手和专家之间的读者非常有帮助。
  引用: "The diagrams in this article are amazing if you are somewhere in between a novice and expert."
对技术发展的反思
- 评论2指出，尽管架构创新提升了准确性和速度，但生成事实信息的基本问题仍然存在，并提到RAG和Agents等方法有助于缓解这一问题。
  引用: "While all these architectures are innovative... the same fundamental problem of generating factual information still exists."
- 评论3感叹自GPT-2以来的技术进步，并特别提到DeepSeek V3在计算效率上的突破性贡献。
  引用: "Honestly its crazy to think how far we’ve come since GPT-2... DeepSeek was mentioned here, bc the key architectural techniques it introduced in V3... was really transformational."

总结：评论普遍认可文章的内容和图表对读者的帮助，同时反思了技术发展中的挑战和突破，特别是生成事实信息的问题以及DeepSeek V3的创新贡献。

大型语言模型架构对比 -- The Big LLM Architecture Comparison

文章摘要

文章总结

评论总结