Hacker News 中文摘要

文章摘要

研究发现，2024-2025年间通过SWE-bench测试的约半数PR在实际中不会被项目维护者合并。这表明仅凭基准测试分数可能高估AI开发代理的实际效用，因为测试环境缺乏人类开发者可获得的迭代反馈机会，无法完全模拟真实开发场景。研究提醒我们需审慎解读AI基准测试结果。

文章总结

研究揭示：过半通过SWE-bench测试的AI生成PR未获实际合并

核心发现
一项针对2024年中至2025年末AI生成代码的研究显示，即使通过SWE-bench自动化测试的PR（拉取请求），仍有约50%未通过仓库维护者的实际审核标准。这一差距在调整维护者决策噪声（以人类合并率为基准）后依然显著存在。

关键差异
1. 自动化测试 vs. 人工审核
- SWE-bench采用自动化评分（通过测试即视为成功），而实际开发中PR需通过维护者的代码质量、功能完整性等综合评估。 - 研究邀请3个开源项目（scikit-learn/Sphinx/pytest）的4位现任维护者盲审296个AI生成PR，发现自动化评分平均高估实际合并率24.2个百分点（p<0.05）。

拒绝原因分析
- 功能缺陷（29%）：虽通过测试但未完全解决问题
- 代码破坏（18%：修改引发其他功能异常
- 代码质量（37%）：风格不符、冗余等问题
- 典型案例显示，AI会生成多余变量（图4）、误用API（图6）或破坏向后兼容性（图7）。

方法论创新
- 基准校正：以人类真实合并率（68%）为基准，将模型得分标准化（如模型得分34%则校正为50%）。
- 动态评估：除"合并与否"外，增设"完成度≥80%"的宽松标准，结果仍显示相似差距。
- 趋势监测：发现自动化评分年提升速度比实际合并率高9.6个百分点（p=0.1）。

研究局限
1. 未模拟真实开发中的人类-AI协作迭代过程
2. 评审缺少CI工具支持，可能影响评估准确性
3. 仅覆盖SWE-bench中19%的任务（95/500）

行业启示
- 当前AI代码能力被自动化测试高估，实际效用需结合人工反馈
- 代码质量（非功能性需求）成为AI落地的关键瓶颈
- 基准测试设计需更贴近真实工作流评估

（注：本文基于METR 2026年研究，保留核心数据及结论，删减了技术附录及部分重复性图表说明）

评论总结

这篇评论总结如下：

对AI测试基准的质疑

varispeed指出高分模型实际表现不佳："MiniMax-M2.5...completely unusable"
languid-photic认为测试评估存在局限："miss...spec/intent alignment, scope creep...should be relied upon as weak priors"

AI能力发展的积极看法

AndrewHampton承认局限但看好趋势："important caveat...but AI becoming more capable"

人类心理偏见问题

stevefan1999指出开发者对AI代码的偏见："oh my god is it another LLM slop"
同时批评维护者的消极态度："silent treatment tactics...biggest dick move"

其他观点

nubg对讨论时间线提出疑问："Is this a post about AI archeology?"
love2read撤回原始评论："Edit: Nevermind"

注：所有评论均未显示评分（None），主要讨论围绕AI评估方法的局限性和人类接受度问题展开。

许多通过SWE-bench测试的PR不会被合并 -- Many SWE-bench-Passing PRs would not be merged

文章摘要

文章总结

研究揭示：过半通过SWE-bench测试的AI生成PR未获实际合并

评论总结