文章摘要
2025年大语言模型领域取得显著进展,最突出的突破是"可验证奖励强化学习"(RLVR)的引入。这一新方法通过让模型在数学/编程等可验证环境中学习,使其自发形成了类似人类推理的问题解决策略,取代了传统的RLHF方法,成为大模型训练流程中的关键新环节。
文章总结
2025年大语言模型发展回顾
作者:karpathy 发布日期:2025年12月19日
2025年是大语言模型(LLM)取得重大突破的一年。以下是本年度最具变革性的六大发展趋势:
可验证奖励强化学习(RLVR) 传统LLM开发流程包含预训练、监督微调和人类反馈强化学习(RLHF)三个阶段。2025年,RLVR成为新的核心环节——通过数学/编程题等可验证环境进行训练,模型自发形成了类似人类"推理"的能力。这种训练方式性价比极高,使得各大实验室将原本用于预训练的计算资源转向RLVR。OpenAI的o3模型(2025年初发布)成为这一技术的里程碑。
幽灵vs动物:锯齿状智能 我们逐渐意识到LLM智能的本质更接近"召唤幽灵"而非"培育动物"。由于训练目标和环境不同,LLM展现出极不均衡的能力分布:既是博学天才,又是容易被越狱攻击欺骗的"小学生"。这种特性使得传统基准测试的可靠性受到质疑,因为模型会针对测试环境进行针对性优化。
Cursor引领的LLM应用新范式 Cursor的崛起展示了一种新型LLM应用模式:通过上下文工程、多LLM调用编排、垂直领域GUI界面和"自主性调节"等功能,将基础模型转化为专业工具。这预示着未来可能出现"XX领域的Cursor"生态。
Claude Code:本地化AI代理 Anthropic推出的Claude Code首次实现了真正意义上的LLM代理——直接在开发者电脑上运行,利用本地环境和数据进行持续问题解决。这种低延迟、高隐私的交互模式,与云端部署形成鲜明对比,开创了AI应用新范式。
氛围编程(Vibe Coding) 2025年AI达到了仅通过自然语言就能开发复杂程序的门槛。这种被称为"氛围编程"的方式不仅让普通人也能编程,更让专业人士可以快速实现原本不会开发的小型工具。代码变得可随意修改、使用即弃,这将彻底改变软件开发模式。
Nano Banana:LLM的GUI革命 谷歌Gemini Nano Banana模型预示着LLM交互方式的革新。就像计算机从命令行发展到图形界面,未来LLM也将通过图像、信息图、动画等视觉化方式与人类交互,而不仅是文本对话。
展望: LLM正在演变成一种新型智能体,其能力分布既超出又低于预期。当前行业仅开发了不到10%的潜力,未来发展空间依然广阔。正如作者在Dwarkesh播客中所说:我们既将见证持续快速进步,又面临大量待探索的领域。这场变革才刚刚开始。
评论总结
以下是评论内容的总结,平衡呈现不同观点并保留关键引用:
AI行业优先问题探讨
- 认为应关注UI生成、持续学习和减少幻觉等核心问题
- 引用:"what are the highest priority AI-related problems" (TheAceOfHearts)
- 引用:"reducing hallucinations and increasing reliability" (TheAceOfHearts)
对行业发展的关切
- 希望了解权力集中、开源生态和硬件限制等问题
- 引用:"how 2025 changed the concentration of power in the industry" (thoughtpeddler)
- 引用:"what's happening with open-source, local inference" (thoughtpeddler)
对"碎片化智能"的讨论
- 认为不同智能体的互补可能最终形成全面智能
- 引用:"the sum of the splats may eventually become well rounded" (delichon)
- 引用:"making AI less jagged it might return the favor" (delichon)
产品成熟度评价
- 特别肯定Claude Code的编码能力接近人类水平
- 引用:"looks almost exactly like the code I would write myself" (socketcluster)
- 引用:"no surprises...writes it a lot faster" (socketcluster)
潜在问题警示
- 担忧LLM生成自定义UI带来的混乱
- 引用:"wait until LLMs are generating their own custom UX" (jkubicek)
- 讽刺性指出数据污染问题:"ghosts started haunting the training data" (victorbuilds)
技术突破观察
- 注意到快速模型(Gemini 3等)的性价比突破被忽视
- 引用:"no business being as good + cheap + fast" (mips_avatar)
- 提及nano banana作为LLM图像生成的早期迹象(mvkel)