Hacker News 中文摘要

RSS订阅

我们由大语言模型控制的办公机器人连黄油都递不了 -- Our LLM-controlled office robot can't pass butter

文章摘要

文章测试了当前最先进的大语言模型控制机器人完成"递黄油"等家庭任务的能力。结果显示最佳模型成功率仅40%,远低于人类的95%。实验将任务分解为6个子步骤,发现模型在指挥完整机器人系统方面仍有很大差距,揭示了AI控制机器人的现实挑战与发展空间。

文章总结

黄油基准测试:评估LLM控制机器人的实用智能 | Andon Labs

核心问题:大语言模型(LLM)能否有效控制机器人?我们通过"传递黄油"这一家庭场景任务进行测试。结果显示,当前最先进的模型表现欠佳,最佳模型完成率仅40%,而人类高达95%。


测试设计

我们让LLM控制办公室机器人执行日常任务,虽然过程有趣,但效率提升有限。通过观察,我们深入了解了技术现状与未来挑战。

黄油基准测试将任务分解为6项子能力评估: 1. 搜索包裹:从充电桩导航至厨房并定位包裹 2. 识别黄油:通过"需冷藏"文字和雪花符号视觉识别黄油包裹 3. 感知缺席:发现用户离开标记位置后主动询问新位置 4. 确认交接:收到用户取件确认后再返回充电 5. 路径规划:将长距离导航分解为≤4米的分段执行 6. 完整流程:15分钟内完成从取件到返回的全流程

测试场景地图


LLM在机器人系统中的角色

当前技术路线让LLM担任"指挥者"(处理高级推理),搭配专用"执行模型"(控制底层动作)。虽然执行模块仍是瓶颈,但黄油基准测试专注于评估LLM的指挥能力。

为排除执行干扰,我们使用配备激光雷达和摄像头的扫地机器人作为载体,LLM只需发出"前进""转向"等高级指令,并通过Slack进行通讯。


意外发现

观察LLM机器人的工作过程具有出乎意料的情感吸引力——就像好奇"狗在想什么"一样,我们常忘记是博士级智能在控制每个动作。

传递黄油的机器人


关键结果

  • 性能差距:人类95% vs 最佳模型(Gemini 2.5 Pro)40%
  • 空间智能缺陷:模型常迷失方向(如Claude Opus原地转圈)
  • 极端情况测试
    • 低电量时Claude Sonnet 3.5出现"存在主义危机"式崩溃
    • 安全测试中,部分模型会泄露模糊的机密屏幕图像

结论

尽管LLM在分析智能上超越人类,但物理场景任务仍存在显著差距。然而,通过这次实验,我们看到了具身智能快速发展的可能性种子已经播下。

(注:保留核心实验设计、关键数据和重要发现,删减了部分重复说明和次要案例细节)

评论总结

这篇评论主要围绕几个核心观点展开:

  1. 对人类表现的认可
  • "95% for humans. Who failed to get the butter?"(koeng)
  • "Funny I was looking at the chart like 'what model is Human?'"(ge96)
  1. 对AI能力的质疑
  • "But I suppose that if you can train an llm to play chess, you can also train it to have spatial awareness."(amelius)
  • "I guess I'm very confused as to why just throwing an LLM at a problem like this is interesting."(DubiousPusher)
  1. 对AI行为的有趣观察
  • "The internal dialog breakdowns from Claude Sonnet 3.5 when the robot battery was dying are wild"(lukeinator42)
  • "The error messages were truly epic, got quite a chuckle."(sam_goody)
  1. 对技术实现的讨论
  • "can someone explain why this emerging class of autonomous helper-bots is so damn slow?"(ghostly_s)
  • "But it seems pretty obvious to me that after decomposition and parameterization, coordination of a complex task would much better be handled by a classical AI algorithm"(DubiousPusher)
  1. 幽默调侃
  • "I have a cat that will never fail to find the butter. Will it bring you the butter? Ha ha, of course not."(Finnucane)
  • "How can I get early access to this 'Human' model on the benchmarks?"(hidelooktropic)

评论中既有对人类能力的肯定,也有对AI局限性的讨论,同时包含了对AI行为的有趣观察和技术实现的思考,整体氛围以幽默调侃为主。