Hacker News 中文摘要

文章摘要

OpenAI宣布不再使用SWE-bench Verified评估AI编程能力，认为该测试范围过窄且存在污染问题，无法准确衡量前沿编码能力。同时提到GPT-5.2和Claude Opus 4.5等新模型的进展已超出该测试范围。

文章总结

为什么SWE-bench Verified不再适用于衡量前沿编码能力

背景

SWE-bench Verified自2024年8月发布以来，被广泛用于评估模型在自主软件工程任务上的进展。然而，随着时间推移，该基准测试逐渐暴露出两大核心问题，导致其无法准确反映模型的实际能力提升：

测试设计缺陷
- 在审核的138个模型常失败的任务中，59.4%存在测试用例问题：
  - 过度严格测试（35.5%）：测试强制要求特定实现细节，导致功能正确的解决方案被错误拒绝。
  - 范围过宽测试（18.8%）：测试检查了问题描述中未声明的额外功能。
- 典型案例：
  - pylint-dev/pylint-4551：测试要求实现未在问题中提及的get_annotation函数。
  - sympy/sympy-18199：测试覆盖了三个问题，但任务描述仅包含其中一个。
训练数据污染
- 由于基准测试的问题和解决方案来自开源仓库（如GitHub），前沿模型可能在训练中接触过这些内容。实验发现：
  - GPT-5.2、Claude Opus 4.5和Gemini 3 Flash等模型能复现原始的人类修复补丁（gold patch）。
  - 例如，GPT-5.2在解决django/django-14725时，直接引用了未在问题中说明的edit_only参数（来自Django 4.1的发布说明）。

影响与建议

当前问题：基准测试分数更多反映模型对训练数据的接触程度，而非真实能力提升。
解决方案：
- 推荐改用SWE-bench Pro（污染较少）。
- 未来将开发私有基准测试（如GDPVal），通过专家编写任务和人工评估减少污染风险。

经验教训

公开数据的局限性：使用开源数据构建基准需严格检测污染（如设置密码保护、过滤训练数据）。
测试设计的复杂性：理想的测试需平衡功能验证与实现灵活性，这需要大量人工审核。

OpenAI已停止报告SWE-bench Verified分数，并呼吁行业共同转向更可靠的评估方法。

注：原文中的导航菜单、作者信息、延伸阅读等非核心内容已省略，保留关键分析和案例细节。

评论总结

以下是评论内容的总结，涵盖主要观点和论据：

对强制翻译的不满
- 有用户批评网站强制翻译内容，且缺乏关闭选项。
- 引用：
  - "I don't understand these websites which force translation to my native language."
  - ""codage de pointe" sounds so weird and cringe in French."
对SWE-bench基准的质疑
- 用户指出基准测试中存在大量有缺陷的测试用例（59.4%），质疑其有效性。
- 引用：
  - "Is this saying a quarter* of the questions and answers were wrong, this whole time?!"
  - "That’s a measurement system never validated against ground truth before being adopted industry-wide."
模型训练数据污染问题
- 评论认为模型可能因训练数据中包含基准问题而表现失真。
- 引用：
  - "No shit, Sherlock!"（回应模型因见过问题而表现更好）
  - "this statement alone seems to invalidate the SWE-bench tests."
基准测试的普遍问题
- 用户指出基准容易被优化或过时，且存在商业利益驱动的“作弊”行为。
- 引用：
  - "It’s very hard to encode the properties that matter most in code in tests."
  - "It’s really naïve to think any of the big AI companies won’t cheat."
对替代方案的讨论
- 建议采用动态生成的基准（如奥林匹克形式）或封闭测试集。
- 引用：
  - "Why don’t they ask their premier model to generate a bench for them?"
  - "A better benchmark needs to be objectively scored, have multi-disciplinary, breadth, and be scalable."
对模型实际性能的怀疑
- 用户质疑某些模型的高分是否真实，或是否因测试缺陷导致。
- 引用：
  - "So Opus 4.7 and Mythos are solving problems that are impossible to solve?"
  - "My experience with Anthropic is that despite using Opus 4.6 and 4.7, most of the time the performance is matching low B parameter Qwen."
行业历史与教训
- 评论提到数据库行业的“基准营销”历史，认为当前AI行业在重复类似错误。
- 引用：
  - "Benchmarks/evals are really hard and they become harder when there’s huge incentive to game them."
  - "the benchmark has structural issues that biased results."

总结：评论普遍对现有基准（如SWE-bench）的有效性表示怀疑，主要问题包括测试缺陷、数据污染和商业利益干扰。用户呼吁更透明、动态或封闭的评估方法，并对模型宣传中的基准分数持批判态度。