文章摘要
这篇文章通过可视化方式深入解析了大语言模型(如ChatGPT)的工作原理,从互联网原始文本收集、数据清洗、分词处理,到模型训练和推理的完整流程。重点强调了高质量、多样化的训练数据(约44TB文本、15万亿token)对模型性能的决定性影响,并指出数据质量比模型规模更重要。文章基于Andrej Karpathy的技术分析,展示了从基础模型到对话助手的完整构建过程。
文章总结
大型语言模型工作原理图解
概述
本文通过可视化方式深入解析了ChatGPT等大型语言模型(LLM)的构建全过程,从原始网络文本到对话助手的完整流程。内容基于Andrej Karpathy的技术深度讲解。
核心数据指标
- 训练token数量:15万亿
- 模型参数:4050亿
- 文本数据量:44TB
- token词汇表:10万个
预训练阶段
1. 数据收集
- 来源:Common Crawl等组织自2007年起爬取的27亿网页
- 处理流程:
- URL过滤(恶意软件/垃圾邮件/成人内容)
- 文本提取(去除HTML标签)
- 语言过滤(保留65%以上英文内容)
- 去重处理
- 个人身份信息移除
- 最终获得44TB高质量数据集(FineWeb)
关键点:训练数据的质量和多样性对最终模型效果影响最大
2. Token化处理
- 方法:字节对编码(BPE)算法
- GPT-4词汇表:100,277个token
- 优势:能有效处理新词、拼写错误和多语言
3. 神经网络训练
- 架构:Transformer
- 训练过程:通过预测下一个token来调整数十亿参数
- 训练规模:
- GPT-2(2019):16亿参数,1000亿token
- Llama 3:4050亿参数,15万亿token
4. 推理与token采样
- 生成方式:自回归式(逐个token预测)
- 温度参数:控制输出随机性(0.7-1.0为理想范围)
基础模型特性
- 本质:互联网文档模拟器
- 能力:
- 记忆性:能准确回忆训练数据
- 幻觉:对未知信息会生成看似合理的内容
- 上下文学习:通过示例提示完成任务
后训练阶段
1. 监督微调(SFT)
- 方法:在人类标注的理想对话数据上继续训练
- 现代数据集:数百万条合成+人工审核对话
2. 基于人类反馈的强化学习(RLHF)
- 流程:
- 人类评估员对回答进行排序
- 奖励模型学习人类偏好
- 语言模型优化以获得更高评分
- 效果:使回答更有帮助、结构更好、更真实
LLM心理学特征
- 幻觉:因训练数据总是包含确定答案而产生
- 记忆类型:
- 参数=长期记忆(模糊)
- 上下文窗口=工作记忆(精确)
- 工具使用:通过特殊token触发外部工具
- 无持久自我:每次对话都是新的开始
检索增强生成(RAG)
- 作用:解决知识截断问题
- 流程:
- 文档嵌入为向量
- 查询嵌入并搜索相似内容
- 将检索结果注入上下文
- 效果:大幅减少知识密集型任务中的幻觉
完整流程
- 数据收集 → 2. Token化 → 3. 预训练 → 4. 基础模型 → 5. 监督微调 → 6. RLHF → 7. 最终助手
核心观点:每个生成词都是概率性采样结果——在10万个可能中选择,重复数十亿次。
评论总结
以下是评论内容的总结,平衡呈现不同观点并保留关键引用:
内容质量认可
- 认为解释清晰,建议补充嵌入数据对预测结果的影响细节
- "very well explained! If you ever want to expand it..." (learningToFly33)
- "currently working on somewhat same thing myself" (PeakScripter)
技术细节疑问
- 提出LLM输入结构、上下文处理及词嵌入等核心问题
- "How does embedding treat tokens that can have vastly different meanings..." (gushogg-blake)
- "How does it handle inputs that are shorter than the context size?" (gushogg-blake)
AI生成内容批评
- 强烈反对AI生成内容,指出存在事实错误(如44TB硬盘)和缺乏校对
- "44 terabytes — roughly what fits on a single hard drive...No normal person would think..." (PetitPrince)
- "Hard pass on AI slop...LLMs are particularly prone to make mistakes" (hansmayer)
界面体验问题
- 指出iOS Safari滚动异常和标签重叠问题
- "Page keeps annoyingly scroll-jumping on iOS safari" (lukeholder)
- "Lefthand labels can overlap over main text content" (Barbing)
设计风格争议
- 批评默认AI设计风格缺乏原创性
- "those gradients + quirks...put no effort into finding your own style" (endymion-light)
- "dark mode slopsite...'flag as slop' button coming?" (arcza)
伦理质疑
- 质疑基于检索的生成技术本质是剽窃
- "So plagiarism is even explicit now...stolen database" (5asHajh)
- "Why doesn't The Pirate Bay have a $1 trillion valuation?" (5asHajh)