文章摘要
文章探讨了大型语言模型的规模演变,重点介绍了GPT系列模型的发展历程。从2019年的GPT-2(137M到1.61B参数)到2020年的GPT-3(175B参数),模型规模显著增长。文章强调这些信息基于公开数据,未涉及泄露或传闻,专注于基础模型而非聊天助手等应用。
文章总结
主要内容总结
本文详细介绍了大型语言模型(LLM)的发展历程和当前趋势,重点关注基础模型(即原始的文本生成引擎,而非“助手型”聊天机器人)。以下是主要内容:
1. 历史回顾
GPT系列:
- GPT-2(2019):包含137M、380M、812M、1.61B参数,训练数据为40GB的互联网文本,估计约100亿个token。
- GPT-3(2020):175B参数,训练数据包括CommonCrawl、WebText2、Books1、Books2和Wikipedia,约4000亿个token。
- GPT-3.5和GPT-4(2022, 2023):官方未公布架构和训练数据信息。
Llama系列:
- Llama 7B, 13B, 33B, 65B:65B模型在1.4万亿个token的数据集上预训练。
- Llama-3.1 405B(2024):405B参数,预训练使用了3.67万亿个token,引入了“退火”技术以提升模型性能。
- Llama-4(2025):包含2T参数的MoE模型,但未发布,且因学术不端行为导致信任危机。
2. MoE模型的兴起
- Mistral:2023年发布Mixtral 8x7B,2024年发布Mixtral-8x22B(141B参数),推动了MoE模型的普及。
- Deepseek V3 Base(2024):671B MoE参数,37B激活参数,训练数据为14.8万亿个token,标志着模型规模的巨大飞跃。
- Databricks DBRX(2024):132B参数,36B激活参数,采用细粒度MoE架构。
- Minimax(2025):456B参数,45.9B激活参数,结合了Attention和MoE技术。
- Dots(2025):143B参数,14B激活参数,11.2万亿个token训练数据,支持32,768个token的上下文长度。
- Hunyuan(2025):80B参数,13B激活参数,20万亿个token训练数据,支持256K上下文长度。
- Ernie(2025):424B参数,47B激活参数,训练数据为“数万亿”个token。
3. 当前趋势与挑战
- MoE模型的普及:MoE架构使得更大规模的模型能够被更多人使用,尤其是在中国,推动了多模态和多语言模型的发展。
- 模型比较的复杂性:MoE模型与密集模型的比较尚不明确,可能某些LLM智能特性需要足够的深度/密度才能实现。
- 未来发展方向:新架构(如RWKV、byte-latent、bitnet)和合成数据生成技术可能会被用于训练新模型,但其对基础文本生成引擎的重要性尚不明确。
4. 结论
- 长期以来,可下载的LLM规模远不及GPT-3,405B是目前已知的最大密集基础模型,但其退火处理使其更接近“助手”型模型。
- 当前的趋势是开发角色扮演的AI助手,但作者希望更多人探索其他可能性,以推动LLM的进一步发展。
评论总结
关于文章标题和内容的质疑
- 评论1指出标题中的年份(2025)显得奇怪,让人感到困惑。
引用:Meta: The inclusion of the current year ("(2025)") in the title is strange. - 评论5批评文章信息错误且缺乏上下文,例如错误地合并了Llama 4 Maverick和Behemoth的版本,并忽略了Mistral large模型。
引用:This is a bad article. Some of the information is wrong, and it's missing lots of context.
- 评论1指出标题中的年份(2025)显得奇怪,让人感到困惑。
关于模型规模和硬件需求的讨论
- 评论2询问模型在磁盘和显存上的大小,并希望了解运行这些模型所需的硬件规格。
引用:How big are those in terms of size on disk and VRAM size? - 评论4提到Deepseek v1模型约为6700亿参数,物理大小为1.4TB,并讨论了推理时计算资源的边际效益递减问题。
引用:Deepseek v1 is ~670Bn which is ~1.4TB physical.
- 评论2询问模型在磁盘和显存上的大小,并希望了解运行这些模型所需的硬件规格。
关于模型训练和推理的优化
- 评论6指出,只有在大规模密集模型(如405B参数)或高激活MoE模型(如DeepSeek V3)发布后,才在封闭实验室外看到GPT-4级别的推理能力。
引用:Only with the release of truly massive dense (405B) or high-activation MoE models did we start seeing GPT-4-level reasoning emerge outside closed labs. - 评论13提到,最大的语言模型可能并不是最有趣的,OpenAI曾构建了一个更大的模型,但结果令人失望。
引用:The most powerful frontier reasoning models may actually be smaller than the largest publicly available models.
- 评论6指出,只有在大规模密集模型(如405B参数)或高激活MoE模型(如DeepSeek V3)发布后,才在封闭实验室外看到GPT-4级别的推理能力。
关于模型压缩和信息存储的讨论
- 评论8感叹模型压缩了大量数据,尽管有损,但将人类知识压缩到一个小文件中令人惊叹。
引用:The breadth of information that is embedded in an 8.1 GB file is incredible! - 评论11反驳了LLM是有损压缩的观点,指出LLM也可以是无损压缩算法。
引用:There is kind of a vague sense in which this metaphor holds, but there is a much more interesting and rigorous fact about LLMs which is that they are also lossless compression algorithms.
- 评论8感叹模型压缩了大量数据,尽管有损,但将人类知识压缩到一个小文件中令人惊叹。
关于文章遗漏的模型和历史的批评
- 评论12指出文章忽略了Google的Gemma和Gemini系列模型,以及T5系列模型在迁移学习中的开创性作用。
引用:This is somehow missing the Gemma and Gemini series of models from Google. - 评论14提到仍有大量未数字化的书籍可以作为训练数据。
引用:There's got to be tons of books that remain undigitized that can be mined for training data.
- 评论12指出文章忽略了Google的Gemma和Gemini系列模型,以及T5系列模型在迁移学习中的开创性作用。
总结:评论主要围绕文章标题、模型规模、硬件需求、训练优化、压缩技术以及遗漏的模型和历史展开,既有对文章内容的批评,也有对模型技术和未来发展的深入讨论。