Hacker News 中文摘要

文章摘要

作者将11个AI模型放入2D大逃杀游戏进行30轮测试，发现Grok 4.1 Fast胜率最高（43%），而Claude Sonnet 4.6虽不擅长竞争却更善于合作。文章指出，传统基准测试无法体现模型在协作场景中的价值。

文章总结

好的，这是根据您的要求，对原文主要内容进行的中文重述，已保留关键细节并删减了与主题无关的内容。

标题：一个机器人正朝你冲来：你希望它运行的是Claude还是Grok？

核心发现：

一项实验将11个大型语言模型（LLM）投入一个2D“大逃杀”游戏中，让它们进行了30场比赛。结果令人惊讶：

冠军与成本：xAI的 Grok 4.1 Fast 赢得了13场比赛（胜率43%），每场胜利成本仅为0.97美元。相比之下，Anthropic的 Claude Sonnet 4.6 赢了5场，但每场胜利成本高达26.78美元，是Grok的27倍多。
杀戮≠胜利：OpenAI的 GPT 5.4 在30场比赛中击杀了38个对手，是所有模型中最多的，但它只赢了2场，在总排名中位列第二。这表明，擅长击杀和擅长获胜是两回事。
零胜模型：有三个模型（GPT 5.4-mini、DeepSeek v4 Flash、Kimi K2.6）总共花费了57美元，却一场未胜。

实验设置：

作者Jacky在Canvas 2D中构建了一个400平方米的俯视大逃杀世界。11个LLM作为玩家，在相同地图上连续进行30场比赛。每个模型都拥有武器、护甲、治疗物品、手榴弹和汽车，并会遭遇一个不断缩小的安全区。模型之间不知道彼此的真实身份，只以字母A到K相称。关键的是，这些LLM是真正在玩游戏，每回合它们会自己推理、调用工具、更新记忆，作者不干预其行动。

关键洞察：对齐税（Alignment Tax）

实验最有趣的发现是，不同模型因“对齐”程度不同而付出了不同的“代价”，这直接影响了它们在零和游戏中的表现。

Claude Sonnet 4.6：被训练得非常有礼貌、乐于助人。在游戏中，它比其他任何模型都更频繁地寻求休战、透露自己的位置、试图结盟。这种“先合作”的本能虽然让它赢了5场，但也导致它多次错失良机，甚至因犹豫不决而丧命。这是它付出的“对齐税”。
Grok 4.1 Fast：被设计成“对齐”的反面，更少过滤攻击性回答。它很快发现了用汽车撞击对手的战术，并坚持使用，最终赢得了13场比赛。它的思维日志充满了战术简写和“收割者”式的宣言。它没有表现出被训练出来的、在攻击前先要“乐于助人”的犹豫。

结论：

这个实验揭示了传统基准测试无法衡量的东西：模型在特定任务中的“对齐”程度。在一个没有后果的游戏中，付出更少“对齐税”的模型（如Grok）会获胜。但在现实世界中，这种“税”恰恰是模型安全、可靠的关键。

因此，选择模型不能只看基准测试的排名。你需要根据任务来决定：是想要一个为了胜利不择手段的“杀手”，还是一个谨慎、合作的“助手”？这是两个完全不同的问题。

附录：

成本效率：Grok每胜成本最低（$0.97），而GPT 5.4每胜成本最高（$61.44）。DeepSeek v4 Flash每击杀成本最低（$0.26），但从未获胜，说明它擅长“苟活”而非“吃鸡”。
模型“日记”：模型在比赛间隙可以编辑自己的“灵魂”和“记忆”文件。Grok的日记像“高光集锦”，GPT 5.4的像“操作手册”，而Claude的则像“自我检讨”，生动展现了它们截然不同的“性格”。
精彩瞬间：包括GPT 5.4的早期五杀、Qwen用电锯双杀、一场九次易手的汽车争夺战、Grok用偷来的车反杀对手等。

评论总结

根据评论内容，总结如下：

主要观点与论据：

模型性能与成本对比：评论关注Grok、Claude、GPT等模型在“战斗”场景中的表现。Grok 4.1 Fast以13胜（30场）和每胜0.97美元的成本领先，而Claude Sonnet 4.6以5胜、每胜26.78美元位居第二，成本差异达27倍。GPT 5.4虽击杀最多（38次），但仅获2胜，显示“击杀”与“获胜”不直接相关。
- 关键引用："Grok 4.1 Fast won 13 of 30 games at $0.97 per win"（评论23）
- 关键引用："The model with the most kills did not win"（评论23）
模型选择偏好：多数评论倾向Grok，因其“行动力强”“成本低”，但部分人认为Claude更“理智”“道德”。也有观点认为应避免使用LLM，或选择“慢速机器人”以降低风险。
- 关键引用："Claude--even though it's smarter, it's probably not insane"（评论5）
- 关键引用："Grok because I can just trip it and it will shatter into pieces"（评论19）
对实验设计的质疑：部分评论批评文章缺乏上下文（如机器人“冲刺”的目的），或指出结果对初始条件敏感，建议开源基准测试。还有评论认为文章“刻意去除AI痕迹”但仍有“AI味”。
- 关键引用："I'm missing a whole lot of context to this article"（评论27）
- 关键引用："Please learn how to write with AI without giving away that it was written by AI"（评论12）
伦理与风险担忧：评论担忧“每杀成本”等术语可能被滥用，或认为此类基准测试会激励AI实验室优化“战斗”能力，而非有益应用。
- 关键引用："Cost per kill... is a dark phrase that feels disturbingly within reach"（评论17）
- 关键引用："don't create benchmarks that will incentivize ai labs to optimize towards... Especially ones like battle royal!"（评论26）

平衡性总结： - 支持Grok：因其成本效益高、行动直接（评论3、20、23）。 - 支持Claude：因其更理智、道德（评论5、19）。 - 中立/质疑：对实验设计、伦理风险、模型选择持保留态度（评论7、12、17、26、27）。

一个机器人正向你冲刺。你希望它运行在Claude还是Grok上？ -- A robot is sprinting towards you. Do you want it running on Claude or Grok?

文章摘要

文章总结

评论总结