Hacker News 中文摘要

RSS订阅

AI基准测试是个糟糕的笑话——而大型语言模型制造商才是笑到最后的人 -- AI benchmarks are a bad joke – and LLM makers are the ones laughing

文章摘要

文章批评当前AI基准测试存在严重缺陷,认为这些测试方法不科学,更像是大型语言模型制造商自娱自乐的工具,无法真实反映AI模型的性能水平。

文章总结

AI基准测试沦为笑柄:大模型厂商的狂欢

牛津大学互联网研究所(OII)联合多所高校发布的研究报告显示,在评估自然语言处理和机器学习的445项大语言模型基准测试中,仅16%采用严谨的科学方法进行模型性能比较。约半数测试声称评估"推理能力"或"无害性"等抽象概念,却未提供明确定义和测量方法。

研究指出,27%的基准测试采用"便利抽样"方法,样本数据仅因获取方便而被选用,而非随机抽样或分层抽样等科学方法。例如数学测试AIME 2025仅选用适合心算的题目,无法反映模型处理大数运算的真实能力。

该现象导致AI公司可选择性展示有利数据。如OpenAI宣称GPT-5在多项测试中创下纪录,包括AIME 2025数学测试94.6%准确率,但这些成绩的科学性存疑。研究团队已制定包含8项改进建议的清单,包括明确定义测量对象、预防数据污染等。

值得注意的是,微软与OpenAI内部采用"年创收100亿美元"作为通用人工智能(AGI)的衡量标准,这种商业化指标反而比学术测试更具可操作性。该研究揭示了AI行业普遍存在的"基准测试游戏化"现象,呼吁建立更科学的评估体系。

评论总结

评论总结:

  1. 对当前LLM基准测试的质疑

    • 观点:现有基准测试存在伪科学问题,难以客观比较不同模型或版本。
    • 引用:
      • "Comparing models... is a pseudo-scientific mess." (calpaterson)
      • "LLM benchmarks have been obvious bullshit for at least the last year and a half." (jennyholzer)
  2. 基准测试的实用性问题

    • 观点:基准测试更偏向融资需求而非实际用户体验,且不同模型在特定场景下表现差异大。
    • 引用:
      • "Benchmarks optimize for fundraising, not users." (SurceBeats)
      • "The quality of responses 'off the beaten track' varies widely." (pahae)
  3. 基准测试的局限性

    • 观点:基准测试仅能反映特定场景下的表现,无法覆盖所有实际应用。
    • 引用:
      • "Benchmarks are nothing more than highly contextual specs." (SkyPuncher)
      • "Claiming 'X% accuracy in reasoning' is hard to take seriously." (moritzwarhier)
  4. 解决方案建议

    • 观点:开发者应自定义基准测试,或通过实际试用评估模型。
    • 引用:
      • "Write your own benchmark for code problems you’ve solved." (shanev)
      • "Offer trial periods to evaluate models in realistic settings." (pahae)
  5. 对数学基准的争议

    • 观点:数学类基准的批判可能脱离实际需求,LLM的优势在于人类式推理而非计算。
    • 引用:
      • "Exploiting effects like college students should count as a win." (bee_rider)
      • "Critique ignores if random sampling of natural numbers is possible." (bbor)
  6. 对未来基准的期待

    • 观点:需要更贴近真实任务的基准(如视频生成),即使当前模型表现不佳。
    • 引用:
      • "Benchmark for generating POV footage of household tasks." (wolttam)

总结:

评论普遍批评当前LLM基准测试的科学性和实用性,认为其受融资驱动且脱离实际需求,同时呼吁开发者自定义测试或通过试用评估模型。部分用户强调基准应聚焦人类式推理能力,而非传统计算任务,并期待更贴近现实场景的新基准。