文章摘要
作者将11个AI模型放入2D大逃杀游戏进行30轮测试,发现Grok 4.1 Fast胜率最高(43%),而Claude Sonnet 4.6虽不擅长竞争却更善于合作。文章指出,传统基准测试无法体现模型在协作场景中的价值。
文章总结
好的,这是根据您的要求,对原文主要内容进行的中文重述,已保留关键细节并删减了与主题无关的内容。
标题:一个机器人正朝你冲来:你希望它运行的是Claude还是Grok?
核心发现:
一项实验将11个大型语言模型(LLM)投入一个2D“大逃杀”游戏中,让它们进行了30场比赛。结果令人惊讶:
- 冠军与成本:xAI的 Grok 4.1 Fast 赢得了13场比赛(胜率43%),每场胜利成本仅为0.97美元。相比之下,Anthropic的 Claude Sonnet 4.6 赢了5场,但每场胜利成本高达26.78美元,是Grok的27倍多。
- 杀戮≠胜利:OpenAI的 GPT 5.4 在30场比赛中击杀了38个对手,是所有模型中最多的,但它只赢了2场,在总排名中位列第二。这表明,擅长击杀和擅长获胜是两回事。
- 零胜模型:有三个模型(GPT 5.4-mini、DeepSeek v4 Flash、Kimi K2.6)总共花费了57美元,却一场未胜。
实验设置:
作者Jacky在Canvas 2D中构建了一个400平方米的俯视大逃杀世界。11个LLM作为玩家,在相同地图上连续进行30场比赛。每个模型都拥有武器、护甲、治疗物品、手榴弹和汽车,并会遭遇一个不断缩小的安全区。模型之间不知道彼此的真实身份,只以字母A到K相称。关键的是,这些LLM是真正在玩游戏,每回合它们会自己推理、调用工具、更新记忆,作者不干预其行动。
关键洞察:对齐税(Alignment Tax)
实验最有趣的发现是,不同模型因“对齐”程度不同而付出了不同的“代价”,这直接影响了它们在零和游戏中的表现。
- Claude Sonnet 4.6:被训练得非常有礼貌、乐于助人。在游戏中,它比其他任何模型都更频繁地寻求休战、透露自己的位置、试图结盟。这种“先合作”的本能虽然让它赢了5场,但也导致它多次错失良机,甚至因犹豫不决而丧命。这是它付出的“对齐税”。
- Grok 4.1 Fast:被设计成“对齐”的反面,更少过滤攻击性回答。它很快发现了用汽车撞击对手的战术,并坚持使用,最终赢得了13场比赛。它的思维日志充满了战术简写和“收割者”式的宣言。它没有表现出被训练出来的、在攻击前先要“乐于助人”的犹豫。
结论:
这个实验揭示了传统基准测试无法衡量的东西:模型在特定任务中的“对齐”程度。在一个没有后果的游戏中,付出更少“对齐税”的模型(如Grok)会获胜。但在现实世界中,这种“税”恰恰是模型安全、可靠的关键。
因此,选择模型不能只看基准测试的排名。你需要根据任务来决定:是想要一个为了胜利不择手段的“杀手”,还是一个谨慎、合作的“助手”?这是两个完全不同的问题。
附录:
- 成本效率:Grok每胜成本最低($0.97),而GPT 5.4每胜成本最高($61.44)。DeepSeek v4 Flash每击杀成本最低($0.26),但从未获胜,说明它擅长“苟活”而非“吃鸡”。
- 模型“日记”:模型在比赛间隙可以编辑自己的“灵魂”和“记忆”文件。Grok的日记像“高光集锦”,GPT 5.4的像“操作手册”,而Claude的则像“自我检讨”,生动展现了它们截然不同的“性格”。
- 精彩瞬间:包括GPT 5.4的早期五杀、Qwen用电锯双杀、一场九次易手的汽车争夺战、Grok用偷来的车反杀对手等。
评论总结
根据评论内容,总结如下:
主要观点与论据:
模型性能与成本对比:评论关注Grok、Claude、GPT等模型在“战斗”场景中的表现。Grok 4.1 Fast以13胜(30场)和每胜0.97美元的成本领先,而Claude Sonnet 4.6以5胜、每胜26.78美元位居第二,成本差异达27倍。GPT 5.4虽击杀最多(38次),但仅获2胜,显示“击杀”与“获胜”不直接相关。
- 关键引用:"Grok 4.1 Fast won 13 of 30 games at $0.97 per win"(评论23)
- 关键引用:"The model with the most kills did not win"(评论23)
模型选择偏好:多数评论倾向Grok,因其“行动力强”“成本低”,但部分人认为Claude更“理智”“道德”。也有观点认为应避免使用LLM,或选择“慢速机器人”以降低风险。
- 关键引用:"Claude--even though it's smarter, it's probably not insane"(评论5)
- 关键引用:"Grok because I can just trip it and it will shatter into pieces"(评论19)
对实验设计的质疑:部分评论批评文章缺乏上下文(如机器人“冲刺”的目的),或指出结果对初始条件敏感,建议开源基准测试。还有评论认为文章“刻意去除AI痕迹”但仍有“AI味”。
- 关键引用:"I'm missing a whole lot of context to this article"(评论27)
- 关键引用:"Please learn how to write with AI without giving away that it was written by AI"(评论12)
伦理与风险担忧:评论担忧“每杀成本”等术语可能被滥用,或认为此类基准测试会激励AI实验室优化“战斗”能力,而非有益应用。
- 关键引用:"Cost per kill... is a dark phrase that feels disturbingly within reach"(评论17)
- 关键引用:"don't create benchmarks that will incentivize ai labs to optimize towards... Especially ones like battle royal!"(评论26)
平衡性总结: - 支持Grok:因其成本效益高、行动直接(评论3、20、23)。 - 支持Claude:因其更理智、道德(评论5、19)。 - 中立/质疑:对实验设计、伦理风险、模型选择持保留态度(评论7、12、17、26、27)。