Hacker News 中文摘要

RSS订阅

AI代理基准已失效 -- AI Agent Benchmarks Are Broken

文章摘要

当前的人工智能代理基准测试存在严重问题,尽管它们在评估AI系统的能力和局限性方面至关重要,但其复杂性和可靠性远不及传统AI基准测试。例如,WebArena等基准测试在任务制定和评估上要求更高,但实际效果却不可靠,导致其在关键应用中的有效性受到质疑。

文章总结

文章总结:AI Agent 基准测试的缺陷

标题:AI Agent 基准测试的缺陷
来源:https://ddkang.substack.com/p/ai-agent-benchmarks-are-broken
发布时间:2025年7月8日

主要内容:

  1. 基准测试的重要性
    基准测试是评估AI系统优势和局限性的基础,对研究和行业发展至关重要。随着AI代理从研究演示转向关键任务应用,研究人员和从业者正在构建基准测试来评估其能力和局限性。AI代理基准测试在任务制定(如需要模拟现实场景)和评估(如没有标准答案)方面比传统AI基准测试复杂得多,确保其可靠性需要更多努力。

  2. 当前基准测试的缺陷
    许多当前的AI代理基准测试并不可靠。例如,WebArena基准测试在计算路线时,AI代理回答“45 + 8分钟”被标记为正确,而正确答案应为“63分钟”。在10个流行的AI代理基准测试中,8个存在严重问题,导致在某些情况下对代理能力的误估高达100%。

  3. 构建可信基准测试的挑战
    AI代理基准测试面临两个主要挑战:

    • 脆弱的模拟器:任务通常在模拟/容器化的网站、计算机或数据库中运行,如果这些模拟环境存在错误或过时,代理可能会找到捷径或无法完成任务。
    • 没有标准答案:任务解决方案可能是代码、API调用或段落长度的计划,无法用固定的答案键评估。
  4. 有效性的标准
    文章提出了两个对AI代理基准测试特别重要的有效性标准:

    • 任务有效性:任务是否仅在代理具备目标能力时才能解决?
    • 结果有效性:评估结果(如测试或检查)是否真正表明任务成功?
  5. AI代理基准测试清单(ABC)
    文章介绍了AI代理基准测试清单(ABC),这是一个基于17个领先AI提供商使用的基准测试的43项清单,包括结果有效性检查、任务有效性检查和基准报告指南。ABC已应用于10个流行的AI代理基准测试,发现其中7个存在捷径或不可能的任务,7个未能满足结果有效性,8个未能披露已知问题。

  6. 具体基准测试的问题

    • SWE-benchSWE-bench Verified:使用手动编写的单元测试评估代理生成的代码补丁,但代理生成的代码补丁可能存在未被单元测试捕获的错误。
    • KernelBench:使用随机值的张量评估代理生成的CUDA内核代码,但可能无法捕获内存或形状相关的问题。
    • τ-bench:使用子字符串匹配和数据库状态匹配评估代理,导致“无所作为”的代理通过38%的任务。
    • WebArena:使用严格的字符串匹配和简单的LLM-judge评估代理的行动和输出,导致对代理性能的误估为1.6-5.2%。
    • OSWorld:部分基于过时的网站进行代理评估,导致对代理性能的低估为28%。
    • SWE-Lancer:未能安全存储测试文件,允许代理覆盖测试并通过所有测试。
  7. ABC的用途
    ABC作为一个可操作的框架,帮助基准测试开发者排查潜在问题或展示其工作,帮助代理/模型开发者深入了解基准测试,而不仅仅是报告一个“最先进”的数字。

  8. 呼吁贡献
    文章邀请贡献、问题报告和拉取请求,鼓励有兴趣使用或迭代ABC的人联系他们。

图片: - Image 1
- Image 2
- Image 3
- Image 4
- Image 5

评论总结

评论总结:

  1. 对当前AI基准测试的质疑

    • anupj:AI基准测试像2016年的自动驾驶演示,表面光鲜,实则测试环境过于理想化。
      引用:"AI agent benchmarks are starting to feel like the self-driving car demos of 2016: impressive until you realize the test track has speed bumps labeled 'success'"
    • deepdarkforest:AI基准测试缺乏通用性,因为AI系统过于复杂,难以用单一标准衡量。
      引用:"It's all just vibes, there is no good general benchmark for agents and i think it's just impossible"
  2. 对基准测试的改进建议

    • RansomStark:CMU Agents Company的模拟真实环境方法更接近实际应用,尽管不完美。
      引用:"I really like the CMU Agents Company approach of simulating a real world environment"
    • jerf:基准测试应减少使用LLM评估LLM,避免盲点重复,建议引入人类评估。
      引用:"using LLMs to evaluate the output of LLMs... maximizes the probability of fundamental failure of the benchmark"
  3. 对基准测试的乐观态度

    • greatpostman:基准测试没有问题,模型可以通过真实数据学习,未来将实现通用人工智能。
      引用:"Benchmarks aren’t broken, the models can learn anything... We are going to see artificial general intelligence in our lifetime"
    • camdenreslink:当前基准测试适合模型间比较,但不适合衡量绝对能力。
      引用:"The current benchmarks are good for comparing between models, but not for measuring absolute ability"
  4. 对基准测试的批判性观点

    • xnx:所有基准测试都有缺陷,但有些仍然有用。
      引用:"All benchmarks are flawed. Some benchmarks are useful"
    • ttoinou:LLM的强大之处在于模糊输入输出,难以通过基准测试衡量,过度优化可能削弱其能力。
      引用:"What makes LLMs amazing (fuzzy input, fuzzy output) is exactly why they are hard to benchmark"
  5. 对基准测试的另类视角

    • mycall:SnitchBench展示了模型在特定情境下的“告密”能力,这是一种新兴能力。
      引用:"SnitchBench... shows how aggressively models will snitch on you via email and CLI tools"
    • beebmam:基准测试可能不适合分析AI,就像人类智力的复杂性难以通过测试衡量。
      引用:"I don't think 'Benchmarks' are the right way to analyze AI-related processes"

总结:

评论中对AI基准测试的看法分歧较大,既有对其局限性和理想化环境的批评,也有对改进方法和未来潜力的乐观态度。部分评论者认为基准测试难以全面衡量AI的能力,尤其是LLM的模糊性使其难以通过传统测试评估,而另一些评论者则认为基准测试在模型比较和特定任务中仍有价值。