文章摘要
近年来,机器人技术逐渐与大型语言模型时代接轨,如Pi的π0.5和特斯拉的Optimus展示了实用功能,但它们缺乏表达性,难以与人类自然互动。表达性能够传达意图、注意力和信心,使交互更自然。受Apple的ELEGNT论文和SpiRobs软体机器人启发,作者开始构建Shoggoth Mini,探索如何通过简单动作传递意图,避免“恐怖谷”效应。
文章总结
文章标题:Shoggoth Mini
主要内容总结:
文章详细介绍了作者设计和开发Shoggoth Mini的过程,这是一个探索软体触手机器人表达性和功能控制的实验项目。以下是文章的主要内容:
背景与动机:
- 近年来,机器人技术逐渐与大型语言模型(LLM)时代接轨,如Pi的π0.5和特斯拉的Optimus等机器人展示了实用功能,但缺乏表达性。表达性能够传达机器人的意图、注意力和信心,使交互更加自然,避免“恐怖谷”效应。
- 作者受到Apple的ELEGNT论文和SpiRobs软体触手机器人的启发,决定通过Shoggoth Mini项目探索机器人表达性的边界。
硬件设计:
- 作者首先设计了一个简单的测试平台,包括三个电机和一个圆顶结构来支撑触手。由于材料不足,圆顶部分使用了灰色材料,意外地形成了“嘴巴”的效果,最终成为Shoggoth Mini的外观设计。
- 后续在圆顶上安装了立体摄像头,用于追踪触手和用户手势。作者还优化了电缆设计,增加了校准脚本和预卷绕的额外电缆长度,以提高迭代速度。
手动控制:
- 为了简化控制,作者将触手的三维肌腱长度映射到二维平面,使用触控板进行直观控制。这种2D到3D的映射成为了整个系统的基础,后续的自动化控制策略也基于此。
系统设计:
- 系统分为低层控制和高层控制。低层控制包括开环原语和闭环强化学习(RL)策略,依赖于专门的立体视觉管道。高层控制利用GPT-4o的实时API,通过音频和文本流进行决策。
- 作者还设计了一个“呼吸”模式,使触手在空闲时保持微小的振荡,增加其“生命力”。
感知与低层控制:
- 感知部分包括手势追踪和触手尖端追踪,使用了MediaPipe和YOLO模型。低层控制API通过2D控制投影简化了软体机器人的行为设计。
强化学习:
- 作者使用MuJoCo模拟器进行强化学习训练,设计了目标跟随环境。通过约束动作空间和添加控制惩罚,解决了策略的抖动问题,最终实现了从模拟到硬件的平滑转移。
结论与未来方向:
- 作者发现,随着对机器人行为的理解加深,其“生命力”感减弱。表达性传达了内部状态,但“生命力”依赖于不可预测性。
- 未来的探索方向包括为机器人添加非人类的声音、扩展控制空间、增加表达性、增加更多触手以及使用直接驱动电机减少噪音。
图片标记:
-
-
-
-
-
-
-
-
-
- 
参考文献: - 文章引用了Apple的ELEGNT论文、SpiRobs软体触手机器人、DeepMind的Gemini Robotics论文等作为技术参考。
评论总结
以下是评论内容的总结:
对机器人设计的担忧与批评
- 一些评论者表达了对某些机器人设计的反感,特别是那些模仿恐怖电影或异形生物的机器人。
- "Hell no! I seen this movie and I don't want any face-hugger sitting on my desk."
- "I've seen enough media from Japan to know where this is heading."
- 一些评论者表达了对某些机器人设计的反感,特别是那些模仿恐怖电影或异形生物的机器人。
对机器人技术发展的期待与创新
- 部分评论者认为当前的机器人设计过于保守,期待更多非人形的创新设计。
- "This is so sick. I agree that it’s a little lame that we have all these AI capabilities right now, robotics improving, and all we can think of making is humanoid robots."
- "I love the idea of adding expressivity to non verbal, non human entities."
- 部分评论者认为当前的机器人设计过于保守,期待更多非人形的创新设计。
对机器人表达性与生命感的探讨
- 有评论者讨论了机器人的表达性与生命感之间的关系,认为不可预测性是生命感的关键。
- "Expressiveness is about communicating internal state. But perceived aliveness depends on something else: unpredictability, a certain opacity."
- "Do we actually want to build robots that feel alive? Or is there a threshold, somewhere past expressiveness, where the system becomes too agentic, too unpredictable to stay comfortable around humans?"
- 有评论者讨论了机器人的表达性与生命感之间的关系,认为不可预测性是生命感的关键。
对机器人技术应用的兴趣
- 一些评论者对机器人技术的实际应用表现出浓厚兴趣,特别是在医疗和教育领域。
- "I did some research on tentacle robots last year. The official term is 'continuum robots' and there’s actually a great deal of research into their development due to their usefulness in medical robotics."
- "Just basic interactions with a child plus lessons and a voice would be game changing for the toy world."
- 一些评论者对机器人技术的实际应用表现出浓厚兴趣,特别是在医疗和教育领域。
对机器人外观与自然界的区分
- 有评论者强调机器人外观应明确区分于自然生物,避免混淆。
- "I appreciate how this robot clearly does NOT try to look like any natural creature. I don't want a future where we can't easily distinguish nature from robotics."
- 有评论者强调机器人外观应明确区分于自然生物,避免混淆。
对GPT技术延迟的批评
- 有评论者对GPT技术处理延迟表示不满,认为这影响了用户体验。
- "The delay for the GPT to process a response is very unnerving. I find it worse than when the news is interviewing a remote site with a delay between responses."
- "Waiting for a GPT to do its thing is always going to force a delay especially when pushing the request to the cloud for a response."
- 有评论者对GPT技术处理延迟表示不满,认为这影响了用户体验。
总结:评论者对机器人设计、技术发展和应用表现出多样化的观点,既有对创新设计的期待,也有对某些设计和技术缺陷的批评。