Hacker News 中文摘要

文章摘要

该文章比较了6个AI模型在俄罗斯方块游戏中的对战表现，共进行了449场比赛。结果显示，Gemini 3 Flash胜率最高(66%)，其次是Gemini 3 Pro(64%)，GPT-5.2和Claude Opus 4.5分别以54%和52%的胜率紧随其后，而Grok 4.1 Fast Reasoning表现最差，胜率仅19%。数据以胜负平记录呈现，展示了各模型间的对战结果。

文章总结

AI模型《俄罗斯方块》对战性能评测报告

本次测试共进行了449场对战，评测了6款主流AI模型的表现。测试采用胜负平（W-L-D）记录方式，各模型对战结果如下：

胜率排名：

🤖Gemini 3 Flash：66%胜率（99胜48负2平）
🤖Gemini 3 Pro：64%胜率（95胜50负3平）
🤖GPT-5.2：54%胜率（82胜68负1平）
🤖Claude Opus 4.5：52%胜率（78胜73负）
🤖Claude Sonnet 4：41%胜率（62胜87负1平）
🤖Grok 4.1：19%胜率（29胜119负1平）

亮点表现：

Gemini 3 Flash对阵Claude Opus 4.5取得24胜6负
Grok 4.1表现欠佳，对阵Gemini 3 Flash仅获4胜26负
Claude Sonnet 4在与同系列Opus 4.5的对战中9胜21负

测试说明：所有对战均采用相同版本的《俄罗斯方块》游戏每个模型组合进行约30场对战平局场次较少，多数对战能分出胜负

（注：原文中的具体日期版本号等细节已简化处理，保留核心对比数据）

评论总结

以下是评论内容的总结：

对Tetris游戏设计的建议
- 建议改进随机化系统和旋转机制（评论3）
  "Use a different randomization system... Piece rotation feels left-biased"
  "建议使用不同的随机化系统... 方块旋转感觉偏左"
对LLM性能的评价
- 认为Gemini 3 Flash在性价比上表现良好（评论2）
  "Gemini 3 Flash is at a very nice point along the price-performance curve"
  "Gemini 3 Flash在性价比曲线上处于很好的位置"
- 指出Tetris可能不是评估LLM的最佳方式（评论4,12）
  "LLMs are not built for such tasks... what does this prove?"
  "LLM不是为这类任务设计的... 这能证明什么？"
技术实现细节的疑问
- 要求澄清模型如何玩Tetris（评论7,9）
  "How exactly are the models playing?... The model generates updated code"
  "模型具体如何操作？... 模型生成更新的代码"
对测试意义的质疑
- 认为Tetris测试不能反映LLM的核心能力（评论15）
  "feels like testing a calculator's ability to write poetry"
  "就像测试计算器写诗的能力"
- 指出Tetris无需LLM即可解决（评论10）
  "Tetris can be solved without LLM"
  "Tetris无需LLM就能解决"
其他建议
- 提议测试其他游戏如国际象棋或NetHack（评论1,8）
  "make it build a chess engine... I'd like to see a nethackbench"
  "让它构建国际象棋引擎... 我想看NetHack测试"
- 提醒注意商标问题（评论14）
  "Tetris Holdings is extremely aggressive with their trademark enforcement"
  "Tetris控股公司对商标保护极其严格"

显示HN：TetrisBench——Gemini Flash在俄罗斯方块对战Opus中胜率达66% -- Show HN: TetrisBench – Gemini Flash reaches 66% win rate on Tetris against Opus

文章摘要

文章总结

评论总结