Hacker News 中文摘要

RSS订阅

展示HN:AI时间线——从Transformer(2017)到GPT-5.3(2026)的171个大型语言模型 -- Show HN: AI Timeline – 171 LLMs from Transformer (2017) to GPT-5.3 (2026)

文章摘要

这篇文章梳理了2017-2020年间大型语言模型的发展历程,重点介绍了Transformer架构的诞生及其后续重要模型。2017年Transformer论文奠定基础;2018年出现ELMo、GPT-1和革命性的BERT;2019年GPT-2因生成能力引发争议,XLNet、RoBERTa和T5等模型不断突破;2020年GPT-3以1750亿参数实现少样本学习,开启了现代大语言模型的新时代。

文章总结

《AI发展时间轴:194+个大语言模型全记录》

本文系统梳理了2017-2026年间人工智能领域重要语言模型的发展历程,重点呈现了各年度具有里程碑意义的模型突破:

2017年奠基之年 • Transformer架构诞生(谷歌) - 论文《Attention Is All You Need》提出革命性架构 - 成为现代所有大语言模型的基础

2018年三足鼎立 • ELMo(艾伦AI) - 首个上下文词向量模型 • GPT-1(OpenAI) - 开创生成式预训练范式 • BERT(谷歌) - 双向Transformer架构 - 奠定搜索引擎技术基础

2019年规模突破 • GPT-2(OpenAI) - 因生成能力过强暂缓开源 • T5(谷歌) - 统一文本到文本框架 - 参数量突破110亿

2020年分水岭 • GPT-3(OpenAI) - 1750亿参数 - 展示小样本学习能力 • GShard(谷歌) - 首个6000亿参数混合专家模型

2021年开源浪潮 • Switch Transformer(谷歌) - 1.6万亿参数稀疏模型 • BLOOM(BigScience) - 首个千亿级开源多语言模型 - 覆盖46种语言

2022年应用爆发 • ChatGPT(OpenAI) - 基于GPT-3.5的对话系统 - 2个月用户破亿 • BLOOM(BigScience) - 1760亿参数开源模型

2023年生态成型 • LLaMA(Meta) - 开源模型引发社区创新 • GPT-4(OpenAI) - 多模态能力突破 - 律师考试达前10%水平 • Claude(Anthropic) - 宪法AI安全框架

2024年技术深化 • Gemini 1.5(谷歌) - 百万token上下文窗口 • Mixtral 8x7B(Mistral) - 开源MoE架构标杆 • DeepSeek V3 - 6710亿参数开源模型 - 训练成本仅550万美元

2025年前沿探索 • GPT-5(OpenAI) - 专业级智能体支持 • Claude 4.5(Anthropic) - 复杂任务规划突破 • Kimi K2(月之暗面) - 万亿参数开源MoE模型

2026年最新进展 • Gemini 3.1(谷歌) - 推理性能翻倍提升 • GLM-5(智谱AI) - 面向系统工程优化 • Qwen3.5(阿里) - 支持百万级上下文

注:本时间轴持续更新至2026年2月,包含参数量、开源状态等关键信息,完整版可访问llm-timeline.com获取。

评论总结

以下是评论内容的总结:

  1. 模型遗漏问题

    • 多位用户指出该网站遗漏了重要的AI模型里程碑,如GPT-J、GPT-NeoX、T5和Mistral系列模型。
    • 引用:"Misses a few interesting early models: GPT-J... was the first-ish model runnable on consumer hardware."
    • 引用:"It misses almost every milestones, and lists Llama 3.1 as milestone. T5 was much bigger milestone..."
  2. 可视化与交互建议

    • 有用户建议增加模型的高层次可视化对比,如动态展示网络结构的变化。
    • 引用:"This would be interesting if each of them had a high-level picture of the NN, 'to scale'..."
    • 引用:"Would be nice to see some charts and perhaps an average of the cycles..."
  3. 内容准确性争议

    • 部分用户认为标题“AI完整历史”不准确,因为LLM不能代表全部AI,且AI历史更悠久。
    • 引用:"Calling this 'The complete history of AI' seems wrong. LLM's are not all AI there is..."
  4. 用户体验反馈

    • 包括对暗黑模式的抱怨、工具提示显示问题以及描述信息不足的批评。
    • 引用:"Why is it hard... to add a light mode to those blacks websites!?"
    • 引用:"Some of the descriptions are quite thin on details, like 'new model by x'..."
  5. 模型行为疑问

    • 有用户质疑AI模型是否故意模仿人类的错误行为,导致需要多次迭代修正。
    • 引用:"...are they designed to mimic human behaviour - as in they deliberately create errors in code..."
  6. 个人反思与未来展望

    • 一位用户分享了对AI时代育儿的思考,表达了对技术快速变化的复杂感受。
    • 引用:"I have no idea what to say about 'AI' and the rapid reconfiguration of our relationship with the world..."
  7. 补充资源推荐

    • 用户提供了其他相关资源链接,如更全面的模型列表和类似的模型树可视化。
    • 引用:"750+ here: https://lifearchitect.ai/models-table/"
    • 引用:"Shameless plug but made a similar tree here: https://sajarin.com/blog/modeltree/"

总结:评论主要围绕内容完整性、可视化改进、标题准确性、用户体验和技术伦理展开,同时包含个人观点和外部资源推荐。