Hacker News 中文摘要

RSS订阅

评估LLM在文字冒险游戏中的表现 -- Evaluating LLMs playing text adventures

文章摘要

文章探讨了如何评估大型语言模型(LLMs)在文本冒险游戏中的表现。作者提出了一种新的评估方法,即设定一个较低的回合限制,观察模型在该时间内能完成多少任务。这种方法虽然对玩家自由度较高的文本冒险游戏来说具有挑战性,但在资源有限的情况下可能是最佳选择。此外,作者还提到另一种方法,即设定一个远距离目标,并记录模型在达到目标前需要多少提示。

文章总结

评估大型语言模型在文字冒险游戏中的表现

在之前的研究中,我们发现现有的语言模型在玩文字冒险游戏时表现不佳。为了比较不同模型的表现,我们提出了一种新的评估方法:设定一个较低的回合限制,观察模型在有限时间内能完成多少任务。这种方法虽然对玩家来说可能具有挑战性,但在资源有限的情况下,这可能是最有效的评估方式。

我们为游戏定义了一系列成就,这些成就主要集中在游戏的前几回合,因为模型只有有限的回合数来完成它们。例如,在游戏《9:05》中,我们设定了40个回合的限制,并列出了一些具体的成就,如“接电话”、“起床”等。模型在游戏过程中并不知道这些成就的存在,我们通过后台记录它们完成了多少成就来评估其表现。

需要注意的是,由于游戏在开始时就有多个分支,模型无法在有限的回合内完成所有分支的成就。因此,我们确保每个分支的成就数量大致相同,以避免模型因选择成就较多的分支而获得更高的分数。这种评估方法主要用于模型之间的相对比较,而不是绝对衡量它们在文字冒险游戏中的表现。

我们通过OpenRouter平台访问了多个模型,并使用Perl脚本进行测试。测试结果显示,不同模型在不同游戏中的表现差异较大。例如,Grok 4在《9:05》中表现最佳,得分为86%,而在《Lockout》中仅得15%。Claude 4 Sonnet和Gemini 2.5 Flash在多个游戏中表现稳定,得分较高。

为了更准确地评估模型的表现,我们进行了线性回归分析,调整了游戏难度对模型得分的影响。结果显示,Claude 4 Opus和Gemini 2.5 Pro等高端模型的表现并不显著优于它们的廉价版本,如Claude 4 Sonnet和Gemini 2.5 Flash。特别是Gemini 2.5 Flash,在低成本的情况下表现优异,成为运行文字冒险游戏的理想选择。

我们还对Gemini 2.5 Flash进行了多次测试,以评估其在不同游戏中的得分波动。结果显示,某些游戏(如《So Far》)的得分波动较大,而其他游戏(如《Lost Pig》)的得分相对稳定。这表明,选择线性开局的游戏进行模型评估更为合适。

结论: 1. 通过Perl脚本驱动文字冒险游戏,可以有效地将语言模型与游戏连接起来,尽管这一过程比预想的复杂。 2. 语言模型在玩文字冒险游戏时表现仍然不佳,但通过引导性问题可以显著提高其表现,而提示的帮助则相对有限。 3. 在某些细节丰富的游戏中,模型的表现波动较大,而线性开局的游戏更适合用于评估。 4. Gemini 2.5 Flash是当前性价比最高的模型,适合用于文字冒险游戏。其他廉价模型的表现可能不如GPT-5 Chat或Gemini 2.5 Flash。 5. 在代理类应用中运行语言模型会消耗大量API资源,进一步的分析需要更多的资金支持。

评论总结

评论主要围绕大语言模型(LLMs)在文本冒险游戏中的表现展开,观点多样,既有批评也有对未来的期待。

1. LLMs在文本冒险游戏中的表现不佳
多位评论者指出,LLMs在处理文本冒险游戏时表现较差,尤其是在需要推理、探索和情感体验的游戏中。
- "LLMs are not great at text adventures, even when those text adventures are decades old and have multiple walkthroughs available on the Internet." (评论1)
- "You cannot automate (via LLM) 'playing' them, because they are all about the thoughts and emotions (and maybe shocked laughter) they elicit in human players." (评论3)

2. LLMs缺乏真正的智能
一些评论者认为,LLMs的表现验证了它们并非真正的智能,而是依赖于模式匹配和大量训练数据。
- "This is another great example of how LLMs are not really any sort of AI, or even proper knowledge representation." (评论9)
- "real intelligence isn’t just about having seen the answers before, it’s about being good at games and specifically new situations where you can’t just pattern match your way out." (评论10)

3. 提示词和实验设计的影响
部分评论者提到,提示词的设计和实验方法可能影响LLMs的表现,建议改进实验设计。
- "It is difficult here to separate out how much of this could be fixed or improved by better prompting." (评论8)
- "testing prompt (were llms instructed to progress in game, as opposed to just explore — the author said smarter llms were more likely to explore)." (评论20)

4. 对LLMs未来表现的期待
也有评论者认为,随着技术的进步,LLMs在文本冒险游戏中的表现可能会有所提升。
- "I won’t be surprised when LLMs get good at puzzle-heavy text adventures if there was more attention turned to this." (评论13)
- "So it feels like most of the parts are already there to me, and it’s more about getting the right prompts and presenting the world in the right format." (评论13)

5. LLMs在开放角色扮演中的潜力
一些评论者指出,LLMs在开放角色扮演中表现较好,但在规则严格的游戏中表现不佳。
- "LLMs work really well for open-ended role-playing sessions, but not so much games with strict rules." (评论14)
- "It’s a configurable pipeline for generative dungeon master role play content with a zork-like UI." (评论15)

6. 对游戏本质的反思
部分评论者反思了游戏的目的,认为让机器代替人类玩游戏可能失去了游戏的意义。
- "Why design a machine to do what we should be enjoying? This goes for writing, creating Art, coding." (评论16)
- "The point of these things (growth and achievement) is lost when done by a machine." (评论16)

总结来看,评论者对LLMs在文本冒险游戏中的表现持不同态度,既有对其当前能力的批评,也有对未来改进的期待,同时反思了游戏和智能的本质。