Hacker News 中文摘要

RSS订阅

显示HN:TetrisBench——Gemini Flash在俄罗斯方块对战Opus中胜率达66% -- Show HN: TetrisBench – Gemini Flash reaches 66% win rate on Tetris against Opus

文章摘要

该文章比较了6个AI模型在俄罗斯方块游戏中的对战表现,共进行了449场比赛。结果显示,Gemini 3 Flash胜率最高(66%),其次是Gemini 3 Pro(64%),GPT-5.2和Claude Opus 4.5分别以54%和52%的胜率紧随其后,而Grok 4.1 Fast Reasoning表现最差,胜率仅19%。数据以胜负平记录呈现,展示了各模型间的对战结果。

文章总结

AI模型《俄罗斯方块》对战性能评测报告

本次测试共进行了449场对战,评测了6款主流AI模型的表现。测试采用胜负平(W-L-D)记录方式,各模型对战结果如下:

  1. 胜率排名:
  • 🤖Gemini 3 Flash:66%胜率(99胜48负2平)
  • 🤖Gemini 3 Pro:64%胜率(95胜50负3平)
  • 🤖GPT-5.2:54%胜率(82胜68负1平)
  • 🤖Claude Opus 4.5:52%胜率(78胜73负)
  • 🤖Claude Sonnet 4:41%胜率(62胜87负1平)
  • 🤖Grok 4.1:19%胜率(29胜119负1平)
  1. 亮点表现:
  • Gemini 3 Flash对阵Claude Opus 4.5取得24胜6负
  • Grok 4.1表现欠佳,对阵Gemini 3 Flash仅获4胜26负
  • Claude Sonnet 4在与同系列Opus 4.5的对战中9胜21负
  1. 测试说明: 所有对战均采用相同版本的《俄罗斯方块》游戏 每个模型组合进行约30场对战 平局场次较少,多数对战能分出胜负

(注:原文中的具体日期版本号等细节已简化处理,保留核心对比数据)

评论总结

以下是评论内容的总结:

  1. 对Tetris游戏设计的建议

    • 建议改进随机化系统和旋转机制(评论3)
      "Use a different randomization system... Piece rotation feels left-biased"
      "建议使用不同的随机化系统... 方块旋转感觉偏左"
  2. 对LLM性能的评价

    • 认为Gemini 3 Flash在性价比上表现良好(评论2)
      "Gemini 3 Flash is at a very nice point along the price-performance curve"
      "Gemini 3 Flash在性价比曲线上处于很好的位置"
    • 指出Tetris可能不是评估LLM的最佳方式(评论4,12)
      "LLMs are not built for such tasks... what does this prove?"
      "LLM不是为这类任务设计的... 这能证明什么?"
  3. 技术实现细节的疑问

    • 要求澄清模型如何玩Tetris(评论7,9)
      "How exactly are the models playing?... The model generates updated code"
      "模型具体如何操作?... 模型生成更新的代码"
  4. 对测试意义的质疑

    • 认为Tetris测试不能反映LLM的核心能力(评论15)
      "feels like testing a calculator's ability to write poetry"
      "就像测试计算器写诗的能力"
    • 指出Tetris无需LLM即可解决(评论10)
      "Tetris can be solved without LLM"
      "Tetris无需LLM就能解决"
  5. 其他建议

    • 提议测试其他游戏如国际象棋或NetHack(评论1,8)
      "make it build a chess engine... I'd like to see a nethackbench"
      "让它构建国际象棋引擎... 我想看NetHack测试"
    • 提醒注意商标问题(评论14)
      "Tetris Holdings is extremely aggressive with their trademark enforcement"
      "Tetris控股公司对商标保护极其严格"