文章摘要
OpenAI宣布不再使用SWE-bench Verified评估AI编程能力,认为该测试范围过窄且存在污染问题,无法准确衡量前沿编码能力。同时提到GPT-5.2和Claude Opus 4.5等新模型的进展已超出该测试范围。
文章总结
为什么SWE-bench Verified不再适用于衡量前沿编码能力
背景
SWE-bench Verified自2024年8月发布以来,被广泛用于评估模型在自主软件工程任务上的进展。然而,随着时间推移,该基准测试逐渐暴露出两大核心问题,导致其无法准确反映模型的实际能力提升:
测试设计缺陷
- 在审核的138个模型常失败的任务中,59.4%存在测试用例问题:
- 过度严格测试(35.5%):测试强制要求特定实现细节,导致功能正确的解决方案被错误拒绝。
- 范围过宽测试(18.8%):测试检查了问题描述中未声明的额外功能。
- 典型案例:
- pylint-dev/pylint-4551:测试要求实现未在问题中提及的
get_annotation函数。 - sympy/sympy-18199:测试覆盖了三个问题,但任务描述仅包含其中一个。
- pylint-dev/pylint-4551:测试要求实现未在问题中提及的
- 在审核的138个模型常失败的任务中,59.4%存在测试用例问题:
训练数据污染
- 由于基准测试的问题和解决方案来自开源仓库(如GitHub),前沿模型可能在训练中接触过这些内容。实验发现:
- GPT-5.2、Claude Opus 4.5和Gemini 3 Flash等模型能复现原始的人类修复补丁(gold patch)。
- 例如,GPT-5.2在解决django/django-14725时,直接引用了未在问题中说明的
edit_only参数(来自Django 4.1的发布说明)。
- 由于基准测试的问题和解决方案来自开源仓库(如GitHub),前沿模型可能在训练中接触过这些内容。实验发现:
影响与建议
- 当前问题:基准测试分数更多反映模型对训练数据的接触程度,而非真实能力提升。
- 解决方案:
- 推荐改用SWE-bench Pro(污染较少)。
- 未来将开发私有基准测试(如GDPVal),通过专家编写任务和人工评估减少污染风险。
经验教训
- 公开数据的局限性:使用开源数据构建基准需严格检测污染(如设置密码保护、过滤训练数据)。
- 测试设计的复杂性:理想的测试需平衡功能验证与实现灵活性,这需要大量人工审核。
OpenAI已停止报告SWE-bench Verified分数,并呼吁行业共同转向更可靠的评估方法。
注:原文中的导航菜单、作者信息、延伸阅读等非核心内容已省略,保留关键分析和案例细节。
评论总结
以下是评论内容的总结,涵盖主要观点和论据:
对强制翻译的不满
- 有用户批评网站强制翻译内容,且缺乏关闭选项。
- 引用:
- "I don't understand these websites which force translation to my native language."
- ""codage de pointe" sounds so weird and cringe in French."
对SWE-bench基准的质疑
- 用户指出基准测试中存在大量有缺陷的测试用例(59.4%),质疑其有效性。
- 引用:
- "Is this saying a quarter* of the questions and answers were wrong, this whole time?!"
- "That’s a measurement system never validated against ground truth before being adopted industry-wide."
模型训练数据污染问题
- 评论认为模型可能因训练数据中包含基准问题而表现失真。
- 引用:
- "No shit, Sherlock!"(回应模型因见过问题而表现更好)
- "this statement alone seems to invalidate the SWE-bench tests."
基准测试的普遍问题
- 用户指出基准容易被优化或过时,且存在商业利益驱动的“作弊”行为。
- 引用:
- "It’s very hard to encode the properties that matter most in code in tests."
- "It’s really naïve to think any of the big AI companies won’t cheat."
对替代方案的讨论
- 建议采用动态生成的基准(如奥林匹克形式)或封闭测试集。
- 引用:
- "Why don’t they ask their premier model to generate a bench for them?"
- "A better benchmark needs to be objectively scored, have multi-disciplinary, breadth, and be scalable."
对模型实际性能的怀疑
- 用户质疑某些模型的高分是否真实,或是否因测试缺陷导致。
- 引用:
- "So Opus 4.7 and Mythos are solving problems that are impossible to solve?"
- "My experience with Anthropic is that despite using Opus 4.6 and 4.7, most of the time the performance is matching low B parameter Qwen."
行业历史与教训
- 评论提到数据库行业的“基准营销”历史,认为当前AI行业在重复类似错误。
- 引用:
- "Benchmarks/evals are really hard and they become harder when there’s huge incentive to game them."
- "the benchmark has structural issues that biased results."
总结:评论普遍对现有基准(如SWE-bench)的有效性表示怀疑,主要问题包括测试缺陷、数据污染和商业利益干扰。用户呼吁更透明、动态或封闭的评估方法,并对模型宣传中的基准分数持批判态度。