Hacker News 中文摘要

这篇文章介绍了Sebastian Raschka博士创建的"LLM架构图库"，主要展示和比较不同大型语言模型(如Llama 3 8B等)的架构设计，为研究者和开发者提供参考。该图库是Raschka博士AI研究资源的一部分，与其博客、书籍和课程内容相关联。

本文是Sebastian Raschka博士整理的《大型语言模型架构图鉴》，汇集了40余种前沿LLM的架构图示与技术参数表。内容源自两篇核心文章：《大型LLM架构对比》和《开源权重LLM的春天》，聚焦于模型架构的视觉化呈现与关键设计比较。

模型覆盖范围
- 收录Llama 3 8B、DeepSeek V3、Gemma 3 27B、Mistral Small 3.1等经典模型
- 包含Kimi K2（1万亿参数）、GLM-5 744B等超大规模MoE架构
- 新增2026年发布的MiniMax M2.5、Qwen3.5、Ling 2.5等开源模型
架构特色分类
- 注意力机制：GQA（分组查询）、MLA（多级）、滑动窗口、线性注意力等变体
- 归一化技术：QK-Norm、后置归一化、层间混合归一化等
- 稀疏架构：DeepSeek V3的共享专家设计、Moonshot的万亿级MoE路由
关键对比维度
- 参数量级（3B至1T）与激活参数比例
- 解码器类型（密集/稀疏/混合）
- 长上下文处理方案（RoPE、NoPE、YaRN）
- 推理优化技术（多令牌预测、潜在专家）

（注：原文中的导航菜单、社交媒体链接等非核心内容已精简，完整架构图请查看原页面）

最后更新：2026年3月14日
数据来源：HuggingFace模型库、官方技术报告、GitHub实现

评论总结：

多位用户表达了对内容的喜爱和感谢 "Thanks! This is cool." (评论1) "Lovely!" (评论2) "What a great idea and nice execution." (评论3)

希望了解模型发展的时间顺序和演进关系 "Would be so nice to understand the threads of evolutions and revolution in the progression." (评论2)
建议添加比例尺以展示规模变化 "It would also be nice to have a scaled view so you can sense the difference in sizes over time." (评论2)

LLM架构图鉴 -- LLM Architecture Gallery