文章摘要
文章批评当前AI基准测试存在严重缺陷,认为这些测试方法不科学,更像是大型语言模型制造商自娱自乐的工具,无法真实反映AI模型的性能水平。
文章总结
AI基准测试沦为笑柄:大模型厂商的狂欢
牛津大学互联网研究所(OII)联合多所高校发布的研究报告显示,在评估自然语言处理和机器学习的445项大语言模型基准测试中,仅16%采用严谨的科学方法进行模型性能比较。约半数测试声称评估"推理能力"或"无害性"等抽象概念,却未提供明确定义和测量方法。
研究指出,27%的基准测试采用"便利抽样"方法,样本数据仅因获取方便而被选用,而非随机抽样或分层抽样等科学方法。例如数学测试AIME 2025仅选用适合心算的题目,无法反映模型处理大数运算的真实能力。
该现象导致AI公司可选择性展示有利数据。如OpenAI宣称GPT-5在多项测试中创下纪录,包括AIME 2025数学测试94.6%准确率,但这些成绩的科学性存疑。研究团队已制定包含8项改进建议的清单,包括明确定义测量对象、预防数据污染等。
值得注意的是,微软与OpenAI内部采用"年创收100亿美元"作为通用人工智能(AGI)的衡量标准,这种商业化指标反而比学术测试更具可操作性。该研究揭示了AI行业普遍存在的"基准测试游戏化"现象,呼吁建立更科学的评估体系。
评论总结
评论总结:
对当前LLM基准测试的质疑
- 观点:现有基准测试存在伪科学问题,难以客观比较不同模型或版本。
- 引用:
- "Comparing models... is a pseudo-scientific mess." (calpaterson)
- "LLM benchmarks have been obvious bullshit for at least the last year and a half." (jennyholzer)
基准测试的实用性问题
- 观点:基准测试更偏向融资需求而非实际用户体验,且不同模型在特定场景下表现差异大。
- 引用:
- "Benchmarks optimize for fundraising, not users." (SurceBeats)
- "The quality of responses 'off the beaten track' varies widely." (pahae)
基准测试的局限性
- 观点:基准测试仅能反映特定场景下的表现,无法覆盖所有实际应用。
- 引用:
- "Benchmarks are nothing more than highly contextual specs." (SkyPuncher)
- "Claiming 'X% accuracy in reasoning' is hard to take seriously." (moritzwarhier)
解决方案建议
- 观点:开发者应自定义基准测试,或通过实际试用评估模型。
- 引用:
- "Write your own benchmark for code problems you’ve solved." (shanev)
- "Offer trial periods to evaluate models in realistic settings." (pahae)
对数学基准的争议
- 观点:数学类基准的批判可能脱离实际需求,LLM的优势在于人类式推理而非计算。
- 引用:
- "Exploiting effects like college students should count as a win." (bee_rider)
- "Critique ignores if random sampling of natural numbers is possible." (bbor)
对未来基准的期待
- 观点:需要更贴近真实任务的基准(如视频生成),即使当前模型表现不佳。
- 引用:
- "Benchmark for generating POV footage of household tasks." (wolttam)
总结:
评论普遍批评当前LLM基准测试的科学性和实用性,认为其受融资驱动且脱离实际需求,同时呼吁开发者自定义测试或通过试用评估模型。部分用户强调基准应聚焦人类式推理能力,而非传统计算任务,并期待更贴近现实场景的新基准。