Hacker News 中文摘要

RSS订阅

衡量AI完成长任务能力:Opus 4.5视野达4小时49分钟占50% -- Measuring AI Ability to Complete Long Tasks: Opus 4.5 has 50% horizon of 4h49M

文章摘要

文章介绍了METR机构研究如何评估AI完成复杂长任务的能力,通过线性与对数两种测量尺度展示AI成功率(50%和80%),并公开了分析代码和原始数据。

文章总结

评估AI完成长时任务的能力

核心发现

  1. 衡量标准创新
    研究提出以"人类专家完成时长"作为AI任务能力的量化指标。数据显示,当前前沿模型(如Claude 3.7 Sonnet)能100%完成人类4分钟内完成的任务,但对耗时4小时以上的任务成功率不足10%。

  2. 指数级进步趋势

    • 过去6年间,AI完成50%成功率任务的时长每7个月翻倍(如图表所示)
    • 线性推算显示,若趋势持续,未来2-4年AI将能处理耗时数周的复杂任务
    • 即使测量误差达10倍,预测时间点仅偏差约2年
  3. 现实意义
    该指标有效解释了AI在考试类任务中的超人表现与实际工作场景应用的差距:当前AI可断续完成专家级数小时任务,但仅能可靠处理几分钟级别的任务。

方法论要点

  • 数据来源:涵盖多步骤软件工程与推理任务,记录人类专家实际耗时
  • 验证方式
    • 在SWE-Bench等独立数据集复现(显示更快增速:3个月/倍)
    • 通过任务复杂度、领域差异等维度进行鲁棒性检验
  • 可视化工具:采用逻辑曲线拟合模型成功率与任务时长的关系

研究意义

  1. 基准测试革新:将绝对任务时长纳入评估体系,超越传统相对性能比较
  2. 风险预警:若当前趋势延续,十年内可能出现能自主完成月量级项目的AI系统
  3. 开源协作:公开分析代码原始数据促进学术共建

图表关键

  • 图3/8:对数坐标下清晰的7个月倍增规律
  • 图6:不同模型50%成功率对应任务时长对比
  • 图9:SWE-Bench数据验证加速趋势

(注:编辑过程中已剔除网站导航、作者列表等非核心内容,保留关键数据点及方法论说明。完整论文参见arXiv链接

评论总结

以下是评论内容的总结:

1. 对LLM进步的认可

  • 认为当前指标能有效衡量LLM进步,符合个人使用体验(评论1) "This seems like a good way to measure LLM improvement" "It matches my personal feeling when using progressively better models"

  • 实际案例展示Opus的高效性(评论3) "It set up manticore...built the front end" "It ran in 15 minutes while I played Kirby Air Riders"

2. 模型性能比较

  • 不同模型在不同指标下的表现差异(评论6) "when you switch to '80%', GPT 5.1 still leads" "choose Opus if you're trying to push the frontier in task length"

  • 建议增加Gemini 3.0 Pro的基准测试(评论4) "Would be interesting to see Gemini 3.0 Pro benchmarked"

3. 长期任务的争议

  • 对长时间任务有效性的质疑(评论7) "the software architecture would have become schizophrenic" "The success of one 'long task' is not necessarily a good thing"

  • 50%成功率带来的成本问题(评论8) "the cost of bad luck is very high" "50%^4 -> 6.25%"

4. 技术发展可持续性

  • 质疑进步是否真实可持续(评论10) "Genuine technical advancement or shoveling trillions of dollars" "an 'improvement' that is more akin to a mirage"

5. 测量方法问题

  • 建议改进测量方式(评论9,12) "Why measure in minutes and not tokens?"(评论9) "They should do a 95% and 99% version of the graphs"(评论12)

6. 实际使用体验

  • 不同模型的主观使用感受(评论11) "I noticed more of a difference trying Opus 4.5" "Haiku 4.5 with reasoning on is usable"

其他

  • 命名冲突问题(评论2) "Opus is already the name of an audio codec"

总结显示评论主要围绕模型性能评估、长期任务有效性、技术进步真实性等核心议题展开,既有实际案例支持也有方法论质疑,反映了对LLM发展的多元视角。