Hacker News 中文摘要

文章摘要

文章探讨了大型语言模型的规模演变，重点介绍了GPT系列模型的发展历程。从2019年的GPT-2（137M到1.61B参数）到2020年的GPT-3（175B参数），模型规模显著增长。文章强调这些信息基于公开数据，未涉及泄露或传闻，专注于基础模型而非聊天助手等应用。

文章总结

主要内容总结

本文详细介绍了大型语言模型（LLM）的发展历程和当前趋势，重点关注基础模型（即原始的文本生成引擎，而非“助手型”聊天机器人）。以下是主要内容：

1. 历史回顾

GPT系列：
- GPT-2（2019）：包含137M、380M、812M、1.61B参数，训练数据为40GB的互联网文本，估计约100亿个token。
- GPT-3（2020）：175B参数，训练数据包括CommonCrawl、WebText2、Books1、Books2和Wikipedia，约4000亿个token。
- GPT-3.5和GPT-4（2022, 2023）：官方未公布架构和训练数据信息。
Llama系列：
- Llama 7B, 13B, 33B, 65B：65B模型在1.4万亿个token的数据集上预训练。
- Llama-3.1 405B（2024）：405B参数，预训练使用了3.67万亿个token，引入了“退火”技术以提升模型性能。
- Llama-4（2025）：包含2T参数的MoE模型，但未发布，且因学术不端行为导致信任危机。

2. MoE模型的兴起

Mistral：2023年发布Mixtral 8x7B，2024年发布Mixtral-8x22B（141B参数），推动了MoE模型的普及。
Deepseek V3 Base（2024）：671B MoE参数，37B激活参数，训练数据为14.8万亿个token，标志着模型规模的巨大飞跃。
Databricks DBRX（2024）：132B参数，36B激活参数，采用细粒度MoE架构。
Minimax（2025）：456B参数，45.9B激活参数，结合了Attention和MoE技术。
Dots（2025）：143B参数，14B激活参数，11.2万亿个token训练数据，支持32,768个token的上下文长度。
Hunyuan（2025）：80B参数，13B激活参数，20万亿个token训练数据，支持256K上下文长度。
Ernie（2025）：424B参数，47B激活参数，训练数据为“数万亿”个token。

3. 当前趋势与挑战

MoE模型的普及：MoE架构使得更大规模的模型能够被更多人使用，尤其是在中国，推动了多模态和多语言模型的发展。
模型比较的复杂性：MoE模型与密集模型的比较尚不明确，可能某些LLM智能特性需要足够的深度/密度才能实现。
未来发展方向：新架构（如RWKV、byte-latent、bitnet）和合成数据生成技术可能会被用于训练新模型，但其对基础文本生成引擎的重要性尚不明确。

4. 结论

长期以来，可下载的LLM规模远不及GPT-3，405B是目前已知的最大密集基础模型，但其退火处理使其更接近“助手”型模型。
当前的趋势是开发角色扮演的AI助手，但作者希望更多人探索其他可能性，以推动LLM的进一步发展。

评论总结

关于文章标题和内容的质疑
- 评论1指出标题中的年份（2025）显得奇怪，让人感到困惑。
  引用：Meta: The inclusion of the current year ("(2025)") in the title is strange.
- 评论5批评文章信息错误且缺乏上下文，例如错误地合并了Llama 4 Maverick和Behemoth的版本，并忽略了Mistral large模型。
  引用：This is a bad article. Some of the information is wrong, and it's missing lots of context.
关于模型规模和硬件需求的讨论
- 评论2询问模型在磁盘和显存上的大小，并希望了解运行这些模型所需的硬件规格。
  引用：How big are those in terms of size on disk and VRAM size?
- 评论4提到Deepseek v1模型约为6700亿参数，物理大小为1.4TB，并讨论了推理时计算资源的边际效益递减问题。
  引用：Deepseek v1 is ~670Bn which is ~1.4TB physical.
关于模型训练和推理的优化
- 评论6指出，只有在大规模密集模型（如405B参数）或高激活MoE模型（如DeepSeek V3）发布后，才在封闭实验室外看到GPT-4级别的推理能力。
  引用：Only with the release of truly massive dense (405B) or high-activation MoE models did we start seeing GPT-4-level reasoning emerge outside closed labs.
- 评论13提到，最大的语言模型可能并不是最有趣的，OpenAI曾构建了一个更大的模型，但结果令人失望。
  引用：The most powerful frontier reasoning models may actually be smaller than the largest publicly available models.
关于模型压缩和信息存储的讨论
- 评论8感叹模型压缩了大量数据，尽管有损，但将人类知识压缩到一个小文件中令人惊叹。
  引用：The breadth of information that is embedded in an 8.1 GB file is incredible!
- 评论11反驳了LLM是有损压缩的观点，指出LLM也可以是无损压缩算法。
  引用：There is kind of a vague sense in which this metaphor holds, but there is a much more interesting and rigorous fact about LLMs which is that they are also lossless compression algorithms.
关于文章遗漏的模型和历史的批评
- 评论12指出文章忽略了Google的Gemma和Gemini系列模型，以及T5系列模型在迁移学习中的开创性作用。
  引用：This is somehow missing the Gemma and Gemini series of models from Google.
- 评论14提到仍有大量未数字化的书籍可以作为训练数据。
  引用：There's got to be tons of books that remain undigitized that can be mined for training data.

总结：评论主要围绕文章标题、模型规模、硬件需求、训练优化、压缩技术以及遗漏的模型和历史展开，既有对文章内容的批评，也有对模型技术和未来发展的深入讨论。

大型语言模型的规模有多大？ -- How large are large language models?