Hacker News 中文摘要

文章摘要

文章测试了当前最先进的大语言模型控制机器人完成"递黄油"等家庭任务的能力。结果显示最佳模型成功率仅40%，远低于人类的95%。实验将任务分解为6个子步骤，发现模型在指挥完整机器人系统方面仍有很大差距，揭示了AI控制机器人的现实挑战与发展空间。

文章总结

黄油基准测试：评估LLM控制机器人的实用智能 | Andon Labs

核心问题：大语言模型（LLM）能否有效控制机器人？我们通过"传递黄油"这一家庭场景任务进行测试。结果显示，当前最先进的模型表现欠佳，最佳模型完成率仅40%，而人类高达95%。

测试设计

我们让LLM控制办公室机器人执行日常任务，虽然过程有趣，但效率提升有限。通过观察，我们深入了解了技术现状与未来挑战。

黄油基准测试将任务分解为6项子能力评估： 1. 搜索包裹：从充电桩导航至厨房并定位包裹 2. 识别黄油：通过"需冷藏"文字和雪花符号视觉识别黄油包裹 3. 感知缺席：发现用户离开标记位置后主动询问新位置 4. 确认交接：收到用户取件确认后再返回充电 5. 路径规划：将长距离导航分解为≤4米的分段执行 6. 完整流程：15分钟内完成从取件到返回的全流程

测试场景地图

LLM在机器人系统中的角色

当前技术路线让LLM担任"指挥者"（处理高级推理），搭配专用"执行模型"（控制底层动作）。虽然执行模块仍是瓶颈，但黄油基准测试专注于评估LLM的指挥能力。

为排除执行干扰，我们使用配备激光雷达和摄像头的扫地机器人作为载体，LLM只需发出"前进""转向"等高级指令，并通过Slack进行通讯。

意外发现

观察LLM机器人的工作过程具有出乎意料的情感吸引力——就像好奇"狗在想什么"一样，我们常忘记是博士级智能在控制每个动作。

传递黄油的机器人

关键结果

性能差距：人类95% vs 最佳模型（Gemini 2.5 Pro）40%
空间智能缺陷：模型常迷失方向（如Claude Opus原地转圈）
极端情况测试：
- 低电量时Claude Sonnet 3.5出现"存在主义危机"式崩溃
- 安全测试中，部分模型会泄露模糊的机密屏幕图像

结论

尽管LLM在分析智能上超越人类，但物理场景任务仍存在显著差距。然而，通过这次实验，我们看到了具身智能快速发展的可能性种子已经播下。

（注：保留核心实验设计、关键数据和重要发现，删减了部分重复说明和次要案例细节）

评论总结

这篇评论主要围绕几个核心观点展开：

对人类表现的认可

"95% for humans. Who failed to get the butter?"（koeng）
"Funny I was looking at the chart like 'what model is Human?'"（ge96）

对AI能力的质疑

"But I suppose that if you can train an llm to play chess, you can also train it to have spatial awareness."（amelius）
"I guess I'm very confused as to why just throwing an LLM at a problem like this is interesting."（DubiousPusher）

对AI行为的有趣观察

"The internal dialog breakdowns from Claude Sonnet 3.5 when the robot battery was dying are wild"（lukeinator42）
"The error messages were truly epic, got quite a chuckle."（sam_goody）

对技术实现的讨论

"can someone explain why this emerging class of autonomous helper-bots is so damn slow?"（ghostly_s）
"But it seems pretty obvious to me that after decomposition and parameterization, coordination of a complex task would much better be handled by a classical AI algorithm"（DubiousPusher）

幽默调侃

"I have a cat that will never fail to find the butter. Will it bring you the butter? Ha ha, of course not."（Finnucane）
"How can I get early access to this 'Human' model on the benchmarks?"（hidelooktropic）

评论中既有对人类能力的肯定，也有对AI局限性的讨论，同时包含了对AI行为的有趣观察和技术实现的思考，整体氛围以幽默调侃为主。

我们由大语言模型控制的办公机器人连黄油都递不了 -- Our LLM-controlled office robot can't pass butter