Hacker News 中文摘要

文章摘要

当前的人工智能代理基准测试存在严重问题，尽管它们在评估AI系统的能力和局限性方面至关重要，但其复杂性和可靠性远不及传统AI基准测试。例如，WebArena等基准测试在任务制定和评估上要求更高，但实际效果却不可靠，导致其在关键应用中的有效性受到质疑。

文章总结

文章总结：AI Agent 基准测试的缺陷

标题：AI Agent 基准测试的缺陷
来源：https://ddkang.substack.com/p/ai-agent-benchmarks-are-broken
发布时间：2025年7月8日

主要内容：

基准测试的重要性
基准测试是评估AI系统优势和局限性的基础，对研究和行业发展至关重要。随着AI代理从研究演示转向关键任务应用，研究人员和从业者正在构建基准测试来评估其能力和局限性。AI代理基准测试在任务制定（如需要模拟现实场景）和评估（如没有标准答案）方面比传统AI基准测试复杂得多，确保其可靠性需要更多努力。
当前基准测试的缺陷
许多当前的AI代理基准测试并不可靠。例如，WebArena基准测试在计算路线时，AI代理回答“45 + 8分钟”被标记为正确，而正确答案应为“63分钟”。在10个流行的AI代理基准测试中，8个存在严重问题，导致在某些情况下对代理能力的误估高达100%。
构建可信基准测试的挑战
AI代理基准测试面临两个主要挑战：
- 脆弱的模拟器：任务通常在模拟/容器化的网站、计算机或数据库中运行，如果这些模拟环境存在错误或过时，代理可能会找到捷径或无法完成任务。
- 没有标准答案：任务解决方案可能是代码、API调用或段落长度的计划，无法用固定的答案键评估。
有效性的标准
文章提出了两个对AI代理基准测试特别重要的有效性标准：
- 任务有效性：任务是否仅在代理具备目标能力时才能解决？
- 结果有效性：评估结果（如测试或检查）是否真正表明任务成功？
AI代理基准测试清单（ABC）
文章介绍了AI代理基准测试清单（ABC），这是一个基于17个领先AI提供商使用的基准测试的43项清单，包括结果有效性检查、任务有效性检查和基准报告指南。ABC已应用于10个流行的AI代理基准测试，发现其中7个存在捷径或不可能的任务，7个未能满足结果有效性，8个未能披露已知问题。
具体基准测试的问题
- SWE-bench和SWE-bench Verified：使用手动编写的单元测试评估代理生成的代码补丁，但代理生成的代码补丁可能存在未被单元测试捕获的错误。
- KernelBench：使用随机值的张量评估代理生成的CUDA内核代码，但可能无法捕获内存或形状相关的问题。
- τ-bench：使用子字符串匹配和数据库状态匹配评估代理，导致“无所作为”的代理通过38%的任务。
- WebArena：使用严格的字符串匹配和简单的LLM-judge评估代理的行动和输出，导致对代理性能的误估为1.6-5.2%。
- OSWorld：部分基于过时的网站进行代理评估，导致对代理性能的低估为28%。
- SWE-Lancer：未能安全存储测试文件，允许代理覆盖测试并通过所有测试。
ABC的用途
ABC作为一个可操作的框架，帮助基准测试开发者排查潜在问题或展示其工作，帮助代理/模型开发者深入了解基准测试，而不仅仅是报告一个“最先进”的数字。
呼吁贡献
文章邀请贡献、问题报告和拉取请求，鼓励有兴趣使用或迭代ABC的人联系他们。

图片： -
-
-
-
-

评论总结

评论总结：

对当前AI基准测试的质疑
- anupj：AI基准测试像2016年的自动驾驶演示，表面光鲜，实则测试环境过于理想化。
  引用："AI agent benchmarks are starting to feel like the self-driving car demos of 2016: impressive until you realize the test track has speed bumps labeled 'success'"
- deepdarkforest：AI基准测试缺乏通用性，因为AI系统过于复杂，难以用单一标准衡量。
  引用："It's all just vibes, there is no good general benchmark for agents and i think it's just impossible"
对基准测试的改进建议
- RansomStark：CMU Agents Company的模拟真实环境方法更接近实际应用，尽管不完美。
  引用："I really like the CMU Agents Company approach of simulating a real world environment"
- jerf：基准测试应减少使用LLM评估LLM，避免盲点重复，建议引入人类评估。
  引用："using LLMs to evaluate the output of LLMs... maximizes the probability of fundamental failure of the benchmark"
对基准测试的乐观态度
- greatpostman：基准测试没有问题，模型可以通过真实数据学习，未来将实现通用人工智能。
  引用："Benchmarks aren’t broken, the models can learn anything... We are going to see artificial general intelligence in our lifetime"
- camdenreslink：当前基准测试适合模型间比较，但不适合衡量绝对能力。
  引用："The current benchmarks are good for comparing between models, but not for measuring absolute ability"
对基准测试的批判性观点
- xnx：所有基准测试都有缺陷，但有些仍然有用。
  引用："All benchmarks are flawed. Some benchmarks are useful"
- ttoinou：LLM的强大之处在于模糊输入输出，难以通过基准测试衡量，过度优化可能削弱其能力。
  引用："What makes LLMs amazing (fuzzy input, fuzzy output) is exactly why they are hard to benchmark"
对基准测试的另类视角
- mycall：SnitchBench展示了模型在特定情境下的“告密”能力，这是一种新兴能力。
  引用："SnitchBench... shows how aggressively models will snitch on you via email and CLI tools"
- beebmam：基准测试可能不适合分析AI，就像人类智力的复杂性难以通过测试衡量。
  引用："I don't think 'Benchmarks' are the right way to analyze AI-related processes"

总结：

评论中对AI基准测试的看法分歧较大，既有对其局限性和理想化环境的批评，也有对改进方法和未来潜力的乐观态度。部分评论者认为基准测试难以全面衡量AI的能力，尤其是LLM的模糊性使其难以通过传统测试评估，而另一些评论者则认为基准测试在模型比较和特定任务中仍有价值。