Hacker News 中文摘要

RSS订阅

五分钟速览过去六个月的大语言模型进展 -- The last six months in LLMs in five minutes

文章摘要

这篇文章是作者在PyCon US 2026会议上做的5分钟闪电演讲,总结了近6个月(2025年11月至2026年5月)大语言模型(LLMs)领域的关键发展。重点提到2025年11月是一个重要转折点,特别是在编程应用方面,期间Anthropic、OpenAI和谷歌等公司的最佳模型排名多次更迭。演讲使用了作者开发的注释演示工具来呈现内容。

文章总结

文章改写:《五分钟速览过去六个月大语言模型发展》

核心内容概述

  1. PyCon US 2026闪电演讲
    作者通过5分钟的演讲,总结了过去六个月(2025年11月至2026年4月)大语言模型(LLMs)的关键进展,演讲幻灯片采用注释工具制作。

  2. 2025年11月转折点

    • 模型性能竞争:Claude Sonnet 4.5、GPT-5.1、Gemini 3、GPT-5.1 Codex Max和Claude Opus 4.5相继成为“最佳模型”,其中Opus 4.5保持领先优势较久。
    • 编码代理突破:通过强化学习优化,模型生成代码的质量显著提升,达到可日常使用的实用水平。
  3. OpenClaw的崛起

    • 一个名为Warelay的项目在三个月内迅速走红,最终以OpenClaw命名,成为流行的个人AI助手(俗称“Claws”)。
    • 用户甚至购买Mac Mini作为运行Claws的“数字宠物饲养箱”。
  4. 模型能力展示

    • 趣味测试:作者用“生成鹈鹕骑自行车SVG”对比模型能力,Gemini 3.1 Pro表现最佳。
    • 中国模型进展:GLM-5.1推出1.5TB参数的开放权重模型,虽需高性能硬件支持,但效果显著。
    • 本地化模型:如Qwen3.6-35B等可在笔记本电脑运行的模型表现超预期。
  5. 其他亮点

    • 谷歌Gemini 3.1 Pro生成动画鹈鹕骑自行车视频,展现多模态能力。
    • 社区互动:网友提议生成“北美负鼠骑电动滑板车”图像,GLM-5.1成功实现并配文“自黄昏起巡航联邦”。

删减说明

  • 移除重复的图片链接及技术细节(如具体commit记录、文件大小)。
  • 简化模型迭代过程,保留关键竞争节点。
  • 省略作者个人实验项目(如微JavaScript库)的非核心描述。

改写后的内容聚焦行业动态与技术突破,保留幽默案例(如鹈鹕测试)以体现模型进步,同时确保行文简洁。

评论总结

以下是评论内容的总结,按主要观点分类呈现:

  1. 模型进步与评估
  • 支持者认为模型有明显进步,应关注可衡量的产出 "It's good to see dates being hard coded...show me the money baby" (评论1) "December 2025 was the breakthrough for me...May GPT 5.5 is just pure bliss" (评论5)
  • 怀疑者认为进步被夸大,实际能力有限 "I wonder how much the 'inflection point' is a thing vs marketing...they really do struggle" (评论7) "Am I crazy, or are these differences...so marginal" (评论8)
  1. AI能力本质争议
  • 认为AI只是模式合成,缺乏真正理解 "the AI doesn't really understand what a Duck is...it's 'synthesizing' from patterns" (评论9)
  • 承认局限性但仍看好发展潜力 "the AI will unlock a lot more as it gets better...creep up the layers of abstraction" (评论9)
  1. 实际应用评价
  • 安全领域取得突破 "there's a big inflection point from Spring of this year" (评论14)
  • 代理应用存在信任问题 "openclaw...279 commits in 24 hours...how could you trust it" (评论15)
  • 代码生成存在局限 "Producing Images...is misleading...fails at documentation" (评论9)
  1. 行业影响
  • 已出现岗位替代 "My team has seen reductions...Scared for the future" (评论16)
  • 存在过度宣传现象 "LinkedIn wars...claim throne as most AI-pilled" (评论17)
  1. 中国模型发展
  • 关注中国模型进展 "Chinese models...Kimi K2.6, Xiaomi MiMo V2.5 Pro" (评论10)
  1. 技术突破点
  • 讨论RLVR的作用 "Is RLVR the key breakthrough...only for verifiable things?" (评论11)
  • 上下文缓存进步 "DeepSeek has made context caching virtually free" (评论19)
  1. 文档价值
  • 肯定长期记录意义 "I'm so glad Simon is documenting...see the changes over time" (评论6)
  1. 幽默观察
  • 调侃训练数据 "human artist...drawing pelicans riding bicycles" (评论3)
  • 网络迷因速朽 "The claw thing really came and went fast" (评论12)