Hacker News 中文摘要

RSS订阅

大型语言模型的规模有多大? -- How large are large language models?

文章摘要

文章探讨了大型语言模型的规模演变,重点介绍了GPT系列模型的发展历程。从2019年的GPT-2(137M到1.61B参数)到2020年的GPT-3(175B参数),模型规模显著增长。文章强调这些信息基于公开数据,未涉及泄露或传闻,专注于基础模型而非聊天助手等应用。

文章总结

主要内容总结

本文详细介绍了大型语言模型(LLM)的发展历程和当前趋势,重点关注基础模型(即原始的文本生成引擎,而非“助手型”聊天机器人)。以下是主要内容:

1. 历史回顾

  • GPT系列

    • GPT-2(2019):包含137M、380M、812M、1.61B参数,训练数据为40GB的互联网文本,估计约100亿个token。
    • GPT-3(2020):175B参数,训练数据包括CommonCrawl、WebText2、Books1、Books2和Wikipedia,约4000亿个token。
    • GPT-3.5和GPT-4(2022, 2023):官方未公布架构和训练数据信息。
  • Llama系列

    • Llama 7B, 13B, 33B, 65B:65B模型在1.4万亿个token的数据集上预训练。
    • Llama-3.1 405B(2024):405B参数,预训练使用了3.67万亿个token,引入了“退火”技术以提升模型性能。
    • Llama-4(2025):包含2T参数的MoE模型,但未发布,且因学术不端行为导致信任危机。

2. MoE模型的兴起

  • Mistral:2023年发布Mixtral 8x7B,2024年发布Mixtral-8x22B(141B参数),推动了MoE模型的普及。
  • Deepseek V3 Base(2024):671B MoE参数,37B激活参数,训练数据为14.8万亿个token,标志着模型规模的巨大飞跃。
  • Databricks DBRX(2024):132B参数,36B激活参数,采用细粒度MoE架构。
  • Minimax(2025):456B参数,45.9B激活参数,结合了Attention和MoE技术。
  • Dots(2025):143B参数,14B激活参数,11.2万亿个token训练数据,支持32,768个token的上下文长度。
  • Hunyuan(2025):80B参数,13B激活参数,20万亿个token训练数据,支持256K上下文长度。
  • Ernie(2025):424B参数,47B激活参数,训练数据为“数万亿”个token。

3. 当前趋势与挑战

  • MoE模型的普及:MoE架构使得更大规模的模型能够被更多人使用,尤其是在中国,推动了多模态和多语言模型的发展。
  • 模型比较的复杂性:MoE模型与密集模型的比较尚不明确,可能某些LLM智能特性需要足够的深度/密度才能实现。
  • 未来发展方向:新架构(如RWKV、byte-latent、bitnet)和合成数据生成技术可能会被用于训练新模型,但其对基础文本生成引擎的重要性尚不明确。

4. 结论

  • 长期以来,可下载的LLM规模远不及GPT-3,405B是目前已知的最大密集基础模型,但其退火处理使其更接近“助手”型模型。
  • 当前的趋势是开发角色扮演的AI助手,但作者希望更多人探索其他可能性,以推动LLM的进一步发展。

图片

评论总结

  1. 关于文章标题和内容的质疑

    • 评论1指出标题中的年份(2025)显得奇怪,让人感到困惑。
      引用:Meta: The inclusion of the current year ("(2025)") in the title is strange.
    • 评论5批评文章信息错误且缺乏上下文,例如错误地合并了Llama 4 Maverick和Behemoth的版本,并忽略了Mistral large模型。
      引用:This is a bad article. Some of the information is wrong, and it's missing lots of context.
  2. 关于模型规模和硬件需求的讨论

    • 评论2询问模型在磁盘和显存上的大小,并希望了解运行这些模型所需的硬件规格。
      引用:How big are those in terms of size on disk and VRAM size?
    • 评论4提到Deepseek v1模型约为6700亿参数,物理大小为1.4TB,并讨论了推理时计算资源的边际效益递减问题。
      引用:Deepseek v1 is ~670Bn which is ~1.4TB physical.
  3. 关于模型训练和推理的优化

    • 评论6指出,只有在大规模密集模型(如405B参数)或高激活MoE模型(如DeepSeek V3)发布后,才在封闭实验室外看到GPT-4级别的推理能力。
      引用:Only with the release of truly massive dense (405B) or high-activation MoE models did we start seeing GPT-4-level reasoning emerge outside closed labs.
    • 评论13提到,最大的语言模型可能并不是最有趣的,OpenAI曾构建了一个更大的模型,但结果令人失望。
      引用:The most powerful frontier reasoning models may actually be smaller than the largest publicly available models.
  4. 关于模型压缩和信息存储的讨论

    • 评论8感叹模型压缩了大量数据,尽管有损,但将人类知识压缩到一个小文件中令人惊叹。
      引用:The breadth of information that is embedded in an 8.1 GB file is incredible!
    • 评论11反驳了LLM是有损压缩的观点,指出LLM也可以是无损压缩算法。
      引用:There is kind of a vague sense in which this metaphor holds, but there is a much more interesting and rigorous fact about LLMs which is that they are also lossless compression algorithms.
  5. 关于文章遗漏的模型和历史的批评

    • 评论12指出文章忽略了Google的Gemma和Gemini系列模型,以及T5系列模型在迁移学习中的开创性作用。
      引用:This is somehow missing the Gemma and Gemini series of models from Google.
    • 评论14提到仍有大量未数字化的书籍可以作为训练数据。
      引用:There's got to be tons of books that remain undigitized that can be mined for training data.

总结:评论主要围绕文章标题、模型规模、硬件需求、训练优化、压缩技术以及遗漏的模型和历史展开,既有对文章内容的批评,也有对模型技术和未来发展的深入讨论。