Hacker News 中文摘要

文章摘要

文章批评当前AI基准测试存在严重缺陷，认为这些测试方法不科学，更像是大型语言模型制造商自娱自乐的工具，无法真实反映AI模型的性能水平。

文章总结

AI基准测试沦为笑柄：大模型厂商的狂欢

牛津大学互联网研究所(OII)联合多所高校发布的研究报告显示，在评估自然语言处理和机器学习的445项大语言模型基准测试中，仅16%采用严谨的科学方法进行模型性能比较。约半数测试声称评估"推理能力"或"无害性"等抽象概念，却未提供明确定义和测量方法。

研究指出，27%的基准测试采用"便利抽样"方法，样本数据仅因获取方便而被选用，而非随机抽样或分层抽样等科学方法。例如数学测试AIME 2025仅选用适合心算的题目，无法反映模型处理大数运算的真实能力。

该现象导致AI公司可选择性展示有利数据。如OpenAI宣称GPT-5在多项测试中创下纪录，包括AIME 2025数学测试94.6%准确率，但这些成绩的科学性存疑。研究团队已制定包含8项改进建议的清单，包括明确定义测量对象、预防数据污染等。

值得注意的是，微软与OpenAI内部采用"年创收100亿美元"作为通用人工智能(AGI)的衡量标准，这种商业化指标反而比学术测试更具可操作性。该研究揭示了AI行业普遍存在的"基准测试游戏化"现象，呼吁建立更科学的评估体系。

评论总结

评论总结：

对当前LLM基准测试的质疑
- 观点：现有基准测试存在伪科学问题，难以客观比较不同模型或版本。
- 引用：
  - "Comparing models... is a pseudo-scientific mess." (calpaterson)
  - "LLM benchmarks have been obvious bullshit for at least the last year and a half." (jennyholzer)
基准测试的实用性问题
- 观点：基准测试更偏向融资需求而非实际用户体验，且不同模型在特定场景下表现差异大。
- 引用：
  - "Benchmarks optimize for fundraising, not users." (SurceBeats)
  - "The quality of responses 'off the beaten track' varies widely." (pahae)
基准测试的局限性
- 观点：基准测试仅能反映特定场景下的表现，无法覆盖所有实际应用。
- 引用：
  - "Benchmarks are nothing more than highly contextual specs." (SkyPuncher)
  - "Claiming 'X% accuracy in reasoning' is hard to take seriously." (moritzwarhier)
解决方案建议
- 观点：开发者应自定义基准测试，或通过实际试用评估模型。
- 引用：
  - "Write your own benchmark for code problems you’ve solved." (shanev)
  - "Offer trial periods to evaluate models in realistic settings." (pahae)
对数学基准的争议
- 观点：数学类基准的批判可能脱离实际需求，LLM的优势在于人类式推理而非计算。
- 引用：
  - "Exploiting effects like college students should count as a win." (bee_rider)
  - "Critique ignores if random sampling of natural numbers is possible." (bbor)
对未来基准的期待
- 观点：需要更贴近真实任务的基准（如视频生成），即使当前模型表现不佳。
- 引用：
  - "Benchmark for generating POV footage of household tasks." (wolttam)

总结：

评论普遍批评当前LLM基准测试的科学性和实用性，认为其受融资驱动且脱离实际需求，同时呼吁开发者自定义测试或通过试用评估模型。部分用户强调基准应聚焦人类式推理能力，而非传统计算任务，并期待更贴近现实场景的新基准。

AI基准测试是个糟糕的笑话——而大型语言模型制造商才是笑到最后的人 -- AI benchmarks are a bad joke – and LLM makers are the ones laughing

文章摘要

文章总结

评论总结

评论总结：

总结：