文章摘要
这篇文章是作者在PyCon US 2026会议上做的5分钟闪电演讲,总结了近6个月(2025年11月至2026年5月)大语言模型(LLMs)领域的关键发展。重点提到2025年11月是一个重要转折点,特别是在编程应用方面,期间Anthropic、OpenAI和谷歌等公司的最佳模型排名多次更迭。演讲使用了作者开发的注释演示工具来呈现内容。
文章总结
文章改写:《五分钟速览过去六个月大语言模型发展》
核心内容概述
PyCon US 2026闪电演讲
作者通过5分钟的演讲,总结了过去六个月(2025年11月至2026年4月)大语言模型(LLMs)的关键进展,演讲幻灯片采用注释工具制作。2025年11月转折点
- 模型性能竞争:Claude Sonnet 4.5、GPT-5.1、Gemini 3、GPT-5.1 Codex Max和Claude Opus 4.5相继成为“最佳模型”,其中Opus 4.5保持领先优势较久。
- 编码代理突破:通过强化学习优化,模型生成代码的质量显著提升,达到可日常使用的实用水平。
OpenClaw的崛起
- 一个名为Warelay的项目在三个月内迅速走红,最终以OpenClaw命名,成为流行的个人AI助手(俗称“Claws”)。
- 用户甚至购买Mac Mini作为运行Claws的“数字宠物饲养箱”。
模型能力展示
- 趣味测试:作者用“生成鹈鹕骑自行车SVG”对比模型能力,Gemini 3.1 Pro表现最佳。
- 中国模型进展:GLM-5.1推出1.5TB参数的开放权重模型,虽需高性能硬件支持,但效果显著。
- 本地化模型:如Qwen3.6-35B等可在笔记本电脑运行的模型表现超预期。
其他亮点
- 谷歌Gemini 3.1 Pro生成动画鹈鹕骑自行车视频,展现多模态能力。
- 社区互动:网友提议生成“北美负鼠骑电动滑板车”图像,GLM-5.1成功实现并配文“自黄昏起巡航联邦”。
删减说明
- 移除重复的图片链接及技术细节(如具体commit记录、文件大小)。
- 简化模型迭代过程,保留关键竞争节点。
- 省略作者个人实验项目(如微JavaScript库)的非核心描述。
改写后的内容聚焦行业动态与技术突破,保留幽默案例(如鹈鹕测试)以体现模型进步,同时确保行文简洁。
评论总结
以下是评论内容的总结,按主要观点分类呈现:
- 模型进步与评估
- 支持者认为模型有明显进步,应关注可衡量的产出 "It's good to see dates being hard coded...show me the money baby" (评论1) "December 2025 was the breakthrough for me...May GPT 5.5 is just pure bliss" (评论5)
- 怀疑者认为进步被夸大,实际能力有限 "I wonder how much the 'inflection point' is a thing vs marketing...they really do struggle" (评论7) "Am I crazy, or are these differences...so marginal" (评论8)
- AI能力本质争议
- 认为AI只是模式合成,缺乏真正理解 "the AI doesn't really understand what a Duck is...it's 'synthesizing' from patterns" (评论9)
- 承认局限性但仍看好发展潜力 "the AI will unlock a lot more as it gets better...creep up the layers of abstraction" (评论9)
- 实际应用评价
- 安全领域取得突破 "there's a big inflection point from Spring of this year" (评论14)
- 代理应用存在信任问题 "openclaw...279 commits in 24 hours...how could you trust it" (评论15)
- 代码生成存在局限 "Producing Images...is misleading...fails at documentation" (评论9)
- 行业影响
- 已出现岗位替代 "My team has seen reductions...Scared for the future" (评论16)
- 存在过度宣传现象 "LinkedIn wars...claim throne as most AI-pilled" (评论17)
- 中国模型发展
- 关注中国模型进展 "Chinese models...Kimi K2.6, Xiaomi MiMo V2.5 Pro" (评论10)
- 技术突破点
- 讨论RLVR的作用 "Is RLVR the key breakthrough...only for verifiable things?" (评论11)
- 上下文缓存进步 "DeepSeek has made context caching virtually free" (评论19)
- 文档价值
- 肯定长期记录意义 "I'm so glad Simon is documenting...see the changes over time" (评论6)
- 幽默观察
- 调侃训练数据 "human artist...drawing pelicans riding bicycles" (评论3)
- 网络迷因速朽 "The claw thing really came and went fast" (评论12)