Hacker News 中文摘要

RSS订阅

大型语言模型架构对比 -- The Big LLM Architecture Comparison

文章摘要

自GPT架构问世七年来,尽管在位置编码、注意力机制和激活函数等方面有所改进,但大型语言模型(LLM)的核心结构仍保持相似。尽管数据集、训练技术和超参数等因素对模型性能影响显著且难以比较,但通过分析2025年LLM架构的细微变化,仍能洞察开发者的创新方向。

文章总结

大模型架构对比:2025年的LLM发展

自最初的GPT架构问世以来,已经过去了七年。回顾GPT-2(2019年)并展望DeepSeek-V3和Llama 4(2024-2025年),人们可能会惊讶地发现,这些模型在结构上仍然非常相似。尽管位置编码从绝对编码演变为旋转编码(RoPE),多头注意力机制(MHA)逐渐被分组查询注意力(GQA)取代,激活函数也从GELU转向了更高效的SwiGLU,但这些改进是否真正带来了突破性的变化,还是仅仅在原有架构基础上进行了优化?

比较不同大语言模型(LLM)以确定其性能优劣的关键因素是非常困难的,因为数据集、训练技术和超参数差异巨大,且往往缺乏详细记录。然而,通过分析这些模型的结构变化,我们仍然可以洞察2025年LLM开发者的创新方向。

DeepSeek-V3与R1的架构创新

DeepSeek R1在2025年1月发布时引起了广泛关注。它基于2024年12月推出的DeepSeek V3架构,专注于推理任务。尽管本文主要讨论2025年的架构,但由于DeepSeek V3在R1发布后才获得广泛关注,因此将其纳入讨论是合理的。

DeepSeek V3引入了两项关键架构技术,显著提升了计算效率:

  1. 多头潜在注意力(MLA):与GQA不同,MLA通过将键和值张量压缩到低维空间来减少内存使用,推理时再将其投影回原始大小。这种方法在减少内存使用的同时,甚至略微提升了模型性能。
  2. 专家混合(MoE):MoE通过将每个前馈模块替换为多个专家层,增加了模型的总参数量,但每个推理步骤只激活少量专家,从而保持推理效率。DeepSeek V3的MoE设计还引入了共享专家,进一步提升了模型性能。

OLMo 2的透明性与架构选择

OLMo系列模型由非营利组织Allen Institute for AI开发,以其训练数据和代码的透明度著称。尽管OLMo模型在基准测试中表现并不突出,但其透明性为LLM开发提供了宝贵的参考。

OLMo 2的架构设计主要围绕归一化层的放置,采用了RMSNorm,并将其放置在注意力模块和前馈模块之后,这种“后归一化”设计有助于提高训练稳定性。此外,OLMo 2还在注意力机制中引入了QK归一化,进一步稳定了训练过程。

Gemma 3的滑动窗口注意力

Gemma 3通过使用滑动窗口注意力机制,显著减少了KV缓存的内存需求。滑动窗口注意力是一种局部注意力机制,限制了每个查询的上下文范围,从而提高了计算效率。Gemma 3还采用了混合的归一化层放置策略,结合了“前归一化”和“后归一化”的优点。

Kimi 2的Muon优化器与大规模架构

Kimi 2是2025年最引人注目的开源模型之一,其性能与谷歌的Gemini、Anthropic的Claude和OpenAI的ChatGPT等专有模型不相上下。Kimi 2采用了Muon优化器,取代了传统的AdamW,训练损失曲线非常平滑,帮助其在基准测试中取得了优异成绩。Kimi 2的架构基于DeepSeek V3,但增加了MoE模块中的专家数量,并减少了MLA模块中的头数。

总结

2025年的大模型架构发展表明,尽管许多模型在结构上仍然相似,但通过引入MLA、MoE、滑动窗口注意力等创新技术,开发者们在提升计算效率和模型性能方面取得了显著进展。未来,随着这些技术的进一步优化和结合,LLM的性能和应用范围将继续扩展。

(本文为简化版,删除了部分与主题无关的细节和代码示例。)

评论总结

  1. 对文章内容的认可

    • 评论1认为文章对未持续关注相关领域的人来说是一个很好的总结。
      引用: "This is a nice catchup for some who hasn't been keeping up like me"
    • 评论4赞赏文章中的图表,认为其对介于新手和专家之间的读者非常有帮助。
      引用: "The diagrams in this article are amazing if you are somewhere in between a novice and expert."
  2. 对技术发展的反思

    • 评论2指出,尽管架构创新提升了准确性和速度,但生成事实信息的基本问题仍然存在,并提到RAG和Agents等方法有助于缓解这一问题。
      引用: "While all these architectures are innovative... the same fundamental problem of generating factual information still exists."
    • 评论3感叹自GPT-2以来的技术进步,并特别提到DeepSeek V3在计算效率上的突破性贡献。
      引用: "Honestly its crazy to think how far we’ve come since GPT-2... DeepSeek was mentioned here, bc the key architectural techniques it introduced in V3... was really transformational."

总结:评论普遍认可文章的内容和图表对读者的帮助,同时反思了技术发展中的挑战和突破,特别是生成事实信息的问题以及DeepSeek V3的创新贡献。