文章摘要
文章介绍了METR机构研究如何评估AI完成复杂长任务的能力,通过线性与对数两种测量尺度展示AI成功率(50%和80%),并公开了分析代码和原始数据。
文章总结
评估AI完成长时任务的能力
核心发现
衡量标准创新
研究提出以"人类专家完成时长"作为AI任务能力的量化指标。数据显示,当前前沿模型(如Claude 3.7 Sonnet)能100%完成人类4分钟内完成的任务,但对耗时4小时以上的任务成功率不足10%。指数级进步趋势
- 过去6年间,AI完成50%成功率任务的时长每7个月翻倍(如图表所示)
- 线性推算显示,若趋势持续,未来2-4年AI将能处理耗时数周的复杂任务
- 即使测量误差达10倍,预测时间点仅偏差约2年
现实意义
该指标有效解释了AI在考试类任务中的超人表现与实际工作场景应用的差距:当前AI可断续完成专家级数小时任务,但仅能可靠处理几分钟级别的任务。
方法论要点
- 数据来源:涵盖多步骤软件工程与推理任务,记录人类专家实际耗时
- 验证方式:
- 在SWE-Bench等独立数据集复现(显示更快增速:3个月/倍)
- 通过任务复杂度、领域差异等维度进行鲁棒性检验
- 可视化工具:采用逻辑曲线拟合模型成功率与任务时长的关系
研究意义
图表关键
- 图3/8:对数坐标下清晰的7个月倍增规律
- 图6:不同模型50%成功率对应任务时长对比
- 图9:SWE-Bench数据验证加速趋势
(注:编辑过程中已剔除网站导航、作者列表等非核心内容,保留关键数据点及方法论说明。完整论文参见arXiv链接)
评论总结
以下是评论内容的总结:
1. 对LLM进步的认可
认为当前指标能有效衡量LLM进步,符合个人使用体验(评论1) "This seems like a good way to measure LLM improvement" "It matches my personal feeling when using progressively better models"
实际案例展示Opus的高效性(评论3) "It set up manticore...built the front end" "It ran in 15 minutes while I played Kirby Air Riders"
2. 模型性能比较
不同模型在不同指标下的表现差异(评论6) "when you switch to '80%', GPT 5.1 still leads" "choose Opus if you're trying to push the frontier in task length"
建议增加Gemini 3.0 Pro的基准测试(评论4) "Would be interesting to see Gemini 3.0 Pro benchmarked"
3. 长期任务的争议
对长时间任务有效性的质疑(评论7) "the software architecture would have become schizophrenic" "The success of one 'long task' is not necessarily a good thing"
50%成功率带来的成本问题(评论8) "the cost of bad luck is very high" "50%^4 -> 6.25%"
4. 技术发展可持续性
- 质疑进步是否真实可持续(评论10) "Genuine technical advancement or shoveling trillions of dollars" "an 'improvement' that is more akin to a mirage"
5. 测量方法问题
- 建议改进测量方式(评论9,12) "Why measure in minutes and not tokens?"(评论9) "They should do a 95% and 99% version of the graphs"(评论12)
6. 实际使用体验
- 不同模型的主观使用感受(评论11) "I noticed more of a difference trying Opus 4.5" "Haiku 4.5 with reasoning on is usable"
其他
- 命名冲突问题(评论2) "Opus is already the name of an audio codec"
总结显示评论主要围绕模型性能评估、长期任务有效性、技术进步真实性等核心议题展开,既有实际案例支持也有方法论质疑,反映了对LLM发展的多元视角。