文章摘要
该文章比较了6个AI模型在俄罗斯方块游戏中的对战表现,共进行了449场比赛。结果显示,Gemini 3 Flash胜率最高(66%),其次是Gemini 3 Pro(64%),GPT-5.2和Claude Opus 4.5分别以54%和52%的胜率紧随其后,而Grok 4.1 Fast Reasoning表现最差,胜率仅19%。数据以胜负平记录呈现,展示了各模型间的对战结果。
文章总结
AI模型《俄罗斯方块》对战性能评测报告
本次测试共进行了449场对战,评测了6款主流AI模型的表现。测试采用胜负平(W-L-D)记录方式,各模型对战结果如下:
- 胜率排名:
- 🤖Gemini 3 Flash:66%胜率(99胜48负2平)
- 🤖Gemini 3 Pro:64%胜率(95胜50负3平)
- 🤖GPT-5.2:54%胜率(82胜68负1平)
- 🤖Claude Opus 4.5:52%胜率(78胜73负)
- 🤖Claude Sonnet 4:41%胜率(62胜87负1平)
- 🤖Grok 4.1:19%胜率(29胜119负1平)
- 亮点表现:
- Gemini 3 Flash对阵Claude Opus 4.5取得24胜6负
- Grok 4.1表现欠佳,对阵Gemini 3 Flash仅获4胜26负
- Claude Sonnet 4在与同系列Opus 4.5的对战中9胜21负
- 测试说明: 所有对战均采用相同版本的《俄罗斯方块》游戏 每个模型组合进行约30场对战 平局场次较少,多数对战能分出胜负
(注:原文中的具体日期版本号等细节已简化处理,保留核心对比数据)
评论总结
以下是评论内容的总结:
对Tetris游戏设计的建议
- 建议改进随机化系统和旋转机制(评论3)
"Use a different randomization system... Piece rotation feels left-biased"
"建议使用不同的随机化系统... 方块旋转感觉偏左"
- 建议改进随机化系统和旋转机制(评论3)
对LLM性能的评价
- 认为Gemini 3 Flash在性价比上表现良好(评论2)
"Gemini 3 Flash is at a very nice point along the price-performance curve"
"Gemini 3 Flash在性价比曲线上处于很好的位置" - 指出Tetris可能不是评估LLM的最佳方式(评论4,12)
"LLMs are not built for such tasks... what does this prove?"
"LLM不是为这类任务设计的... 这能证明什么?"
- 认为Gemini 3 Flash在性价比上表现良好(评论2)
技术实现细节的疑问
- 要求澄清模型如何玩Tetris(评论7,9)
"How exactly are the models playing?... The model generates updated code"
"模型具体如何操作?... 模型生成更新的代码"
- 要求澄清模型如何玩Tetris(评论7,9)
对测试意义的质疑
- 认为Tetris测试不能反映LLM的核心能力(评论15)
"feels like testing a calculator's ability to write poetry"
"就像测试计算器写诗的能力" - 指出Tetris无需LLM即可解决(评论10)
"Tetris can be solved without LLM"
"Tetris无需LLM就能解决"
- 认为Tetris测试不能反映LLM的核心能力(评论15)
其他建议
- 提议测试其他游戏如国际象棋或NetHack(评论1,8)
"make it build a chess engine... I'd like to see a nethackbench"
"让它构建国际象棋引擎... 我想看NetHack测试" - 提醒注意商标问题(评论14)
"Tetris Holdings is extremely aggressive with their trademark enforcement"
"Tetris控股公司对商标保护极其严格"
- 提议测试其他游戏如国际象棋或NetHack(评论1,8)