Hacker News 中文摘要

RSS订阅

Show HN: Shoggoth Mini——由GPT-4o和强化学习驱动的软体触手机器人 -- Show HN: Shoggoth Mini – A soft tentacle robot powered by GPT-4o and RL

文章摘要

近年来,机器人技术逐渐与大型语言模型时代接轨,如Pi的π0.5和特斯拉的Optimus展示了实用功能,但它们缺乏表达性,难以与人类自然互动。表达性能够传达意图、注意力和信心,使交互更自然。受Apple的ELEGNT论文和SpiRobs软体机器人启发,作者开始构建Shoggoth Mini,探索如何通过简单动作传递意图,避免“恐怖谷”效应。

文章总结

文章标题:Shoggoth Mini

主要内容总结:

文章详细介绍了作者设计和开发Shoggoth Mini的过程,这是一个探索软体触手机器人表达性和功能控制的实验项目。以下是文章的主要内容:

  1. 背景与动机

    • 近年来,机器人技术逐渐与大型语言模型(LLM)时代接轨,如Pi的π0.5和特斯拉的Optimus等机器人展示了实用功能,但缺乏表达性。表达性能够传达机器人的意图、注意力和信心,使交互更加自然,避免“恐怖谷”效应。
    • 作者受到Apple的ELEGNT论文和SpiRobs软体触手机器人的启发,决定通过Shoggoth Mini项目探索机器人表达性的边界。
  2. 硬件设计

    • 作者首先设计了一个简单的测试平台,包括三个电机和一个圆顶结构来支撑触手。由于材料不足,圆顶部分使用了灰色材料,意外地形成了“嘴巴”的效果,最终成为Shoggoth Mini的外观设计。
    • 后续在圆顶上安装了立体摄像头,用于追踪触手和用户手势。作者还优化了电缆设计,增加了校准脚本和预卷绕的额外电缆长度,以提高迭代速度。
  3. 手动控制

    • 为了简化控制,作者将触手的三维肌腱长度映射到二维平面,使用触控板进行直观控制。这种2D到3D的映射成为了整个系统的基础,后续的自动化控制策略也基于此。
  4. 系统设计

    • 系统分为低层控制和高层控制。低层控制包括开环原语和闭环强化学习(RL)策略,依赖于专门的立体视觉管道。高层控制利用GPT-4o的实时API,通过音频和文本流进行决策。
    • 作者还设计了一个“呼吸”模式,使触手在空闲时保持微小的振荡,增加其“生命力”。
  5. 感知与低层控制

    • 感知部分包括手势追踪和触手尖端追踪,使用了MediaPipe和YOLO模型。低层控制API通过2D控制投影简化了软体机器人的行为设计。
  6. 强化学习

    • 作者使用MuJoCo模拟器进行强化学习训练,设计了目标跟随环境。通过约束动作空间和添加控制惩罚,解决了策略的抖动问题,最终实现了从模拟到硬件的平滑转移。
  7. 结论与未来方向

    • 作者发现,随着对机器人行为的理解加深,其“生命力”感减弱。表达性传达了内部状态,但“生命力”依赖于不可预测性。
    • 未来的探索方向包括为机器人添加非人类的声音、扩展控制空间、增加表达性、增加更多触手以及使用直接驱动电机减少噪音。

图片标记: - Image 1 - Image 2 - Image 3 - Image 4 - Image 5 - Image 6 - Image 7 - Image 8 - Image 9 - Image 10

参考文献: - 文章引用了Apple的ELEGNT论文、SpiRobs软体触手机器人、DeepMind的Gemini Robotics论文等作为技术参考。

评论总结

以下是评论内容的总结:

  1. 对机器人设计的担忧与批评

    • 一些评论者表达了对某些机器人设计的反感,特别是那些模仿恐怖电影或异形生物的机器人。
      • "Hell no! I seen this movie and I don't want any face-hugger sitting on my desk."
      • "I've seen enough media from Japan to know where this is heading."
  2. 对机器人技术发展的期待与创新

    • 部分评论者认为当前的机器人设计过于保守,期待更多非人形的创新设计。
      • "This is so sick. I agree that it’s a little lame that we have all these AI capabilities right now, robotics improving, and all we can think of making is humanoid robots."
      • "I love the idea of adding expressivity to non verbal, non human entities."
  3. 对机器人表达性与生命感的探讨

    • 有评论者讨论了机器人的表达性与生命感之间的关系,认为不可预测性是生命感的关键。
      • "Expressiveness is about communicating internal state. But perceived aliveness depends on something else: unpredictability, a certain opacity."
      • "Do we actually want to build robots that feel alive? Or is there a threshold, somewhere past expressiveness, where the system becomes too agentic, too unpredictable to stay comfortable around humans?"
  4. 对机器人技术应用的兴趣

    • 一些评论者对机器人技术的实际应用表现出浓厚兴趣,特别是在医疗和教育领域。
      • "I did some research on tentacle robots last year. The official term is 'continuum robots' and there’s actually a great deal of research into their development due to their usefulness in medical robotics."
      • "Just basic interactions with a child plus lessons and a voice would be game changing for the toy world."
  5. 对机器人外观与自然界的区分

    • 有评论者强调机器人外观应明确区分于自然生物,避免混淆。
      • "I appreciate how this robot clearly does NOT try to look like any natural creature. I don't want a future where we can't easily distinguish nature from robotics."
  6. 对GPT技术延迟的批评

    • 有评论者对GPT技术处理延迟表示不满,认为这影响了用户体验。
      • "The delay for the GPT to process a response is very unnerving. I find it worse than when the news is interviewing a remote site with a delay between responses."
      • "Waiting for a GPT to do its thing is always going to force a delay especially when pushing the request to the cloud for a response."

总结:评论者对机器人设计、技术发展和应用表现出多样化的观点,既有对创新设计的期待,也有对某些设计和技术缺陷的批评。