文章摘要
研究发现,2024-2025年间通过SWE-bench测试的约半数PR在实际中不会被项目维护者合并。这表明仅凭基准测试分数可能高估AI开发代理的实际效用,因为测试环境缺乏人类开发者可获得的迭代反馈机会,无法完全模拟真实开发场景。研究提醒我们需审慎解读AI基准测试结果。
文章总结
研究揭示:过半通过SWE-bench测试的AI生成PR未获实际合并
核心发现
一项针对2024年中至2025年末AI生成代码的研究显示,即使通过SWE-bench自动化测试的PR(拉取请求),仍有约50%未通过仓库维护者的实际审核标准。这一差距在调整维护者决策噪声(以人类合并率为基准)后依然显著存在。
关键差异
1. 自动化测试 vs. 人工审核
- SWE-bench采用自动化评分(通过测试即视为成功),而实际开发中PR需通过维护者的代码质量、功能完整性等综合评估。
- 研究邀请3个开源项目(scikit-learn/Sphinx/pytest)的4位现任维护者盲审296个AI生成PR,发现自动化评分平均高估实际合并率24.2个百分点(p<0.05)。
- 拒绝原因分析
- 功能缺陷(29%):虽通过测试但未完全解决问题
- 代码破坏(18%:修改引发其他功能异常
- 代码质量(37%):风格不符、冗余等问题
- 典型案例显示,AI会生成多余变量(图4)、误用API(图6)或破坏向后兼容性(图7)。
方法论创新
- 基准校正:以人类真实合并率(68%)为基准,将模型得分标准化(如模型得分34%则校正为50%)。
- 动态评估:除"合并与否"外,增设"完成度≥80%"的宽松标准,结果仍显示相似差距。
- 趋势监测:发现自动化评分年提升速度比实际合并率高9.6个百分点(p=0.1)。
研究局限
1. 未模拟真实开发中的人类-AI协作迭代过程
2. 评审缺少CI工具支持,可能影响评估准确性
3. 仅覆盖SWE-bench中19%的任务(95/500)
行业启示
- 当前AI代码能力被自动化测试高估,实际效用需结合人工反馈
- 代码质量(非功能性需求)成为AI落地的关键瓶颈
- 基准测试设计需更贴近真实工作流评估
(注:本文基于METR 2026年研究,保留核心数据及结论,删减了技术附录及部分重复性图表说明)
评论总结
这篇评论总结如下:
- 对AI测试基准的质疑
- varispeed指出高分模型实际表现不佳:"MiniMax-M2.5...completely unusable"
- languid-photic认为测试评估存在局限:"miss...spec/intent alignment, scope creep...should be relied upon as weak priors"
- AI能力发展的积极看法
- AndrewHampton承认局限但看好趋势:"important caveat...but AI becoming more capable"
- 人类心理偏见问题
- stevefan1999指出开发者对AI代码的偏见:"oh my god is it another LLM slop"
- 同时批评维护者的消极态度:"silent treatment tactics...biggest dick move"
- 其他观点
- nubg对讨论时间线提出疑问:"Is this a post about AI archeology?"
- love2read撤回原始评论:"Edit: Nevermind"
注:所有评论均未显示评分(None),主要讨论围绕AI评估方法的局限性和人类接受度问题展开。