文章摘要
机器人研究已变得廉价且易得,个人或小团队也能用真实硬件开展有意义的研究。一套包含工业级机械臂、双摄像头和完整遥操作系统的设备成本不到5000欧元,同时开源基础模型(如Hugging Face的LeRobot)也推动了这一领域的普及。
文章总结
好的,这是根据您的要求,对原文主要内容进行的中文重述,保留了关键细节,并删减了与主题无关的内容。
标题:在书桌旁搭建一个机器人研究平台
机器人研究如今已变得足够廉价和普及,使得小团队甚至个人也能在真实硬件上进行有意义的研究。这主要归功于两点:一是高性能机器人硬件价格大幅下降,例如本文搭建的这套系统(包含工业级机械臂、两个摄像头和完整的遥操作设备)总价不到5000欧元;二是现在有大量适合机器人领域的公开基础模型可用,例如Hugging Face的LeRobot项目。
作者曾在OpenAI从事机器人操作研究,当时使用的桌面设备成本大约是现在的十倍,且需要约20人的团队。为了验证“如今一个人就能取得惊人进展”的假设,作者决定在未来几个月内,公开进行独立的机器人操作研究,并记录下过程中的成功、失败与经验。
硬件搭建
作者搭建了一套用于桌面操作的单一机械臂系统。选择单臂而非双臂,是出于简化、节省空间和成本的考虑,但这迫使策略必须通过行为来弥补硬件的不足,例如利用环境来辅助操作。视觉方面,系统配备了一个腕部摄像头和一个固定摄像头。由于空间限制,摄像头位置、光照等条件会变化,作者认为这反而是个优点,因为机器人必须在真实多变的环境中工作。系统使用一个6自由度的空间鼠标进行遥操作。
硬件清单与总价
整套硬件(不含增值税和计算设备)总价为 4,569.80欧元,远低于1万欧元的预算。具体清单包括:
- UFACTORY xArm Lite 6 机械臂 (€3,403.32):作者选择它是因为其工业级品质、可靠耐用,并配有实用的Python SDK。
- xArm Lite 6 夹爪 (€444.50):这是系统中较弱的环节,噪音大、力量小且无传感器。
- Intel RealSense D405 腕部摄像头 (€302.51):体积小、带全局快门,能输出RGB-D图像,有助于策略学习。
- Logitech C920 桌面摄像头 (€47.86):作为固定视角的摄像头,价格便宜但偶尔会丢帧。
- 3Dconnexion SpaceMouse Wireless 空间鼠标 (€174.70):用于6轴输入进行遥操作,但实际使用中只用了平移和偏航旋转4个维度。
- 其他配件:包括摄像头支架、USB线、线夹和折叠桌等。
软件架构
作者从零开始编写了一个名为 robo 的Python软件包来操作硬件。他选择不基于ROS 2或LeRobot构建,而是自己编写整个软件栈,目的是为了获得对系统的完全控制权和深入理解。
核心架构是一个运行在单进程内的内存发布/订阅事件总线。所有组件(如摄像头、控制器、记录器)作为服务运行在各自线程上,通过不可变的事件进行通信。这种设计非常灵活,例如,遥操作控制器可以轻松替换为策略控制器,而系统其他部分无需改动。系统采用“失败即停止”的极端处理方式,任何服务崩溃都会导致整个会话终止。
感知与控制
感知服务(如机器人状态观察器)以固定频率发布状态事件。控制服务(如遥操作控制器)订阅这些事件,并将空间鼠标输入转换为机器人指令。所有与机械臂的交互都通过一个统一的 Robot 接口进行,其动作空间被有意设计为最小化且无量纲的归一化TCP平移和旋转增量,这使得人类遥操作和策略输出的动作空间完全一致。
遥测与数据记录
系统使用Prometheus、InfluxDB和Grafana进行性能监控,确保系统健康。数据记录器作为事件总线的另一个订阅者,将所有事件(机器人状态、控制指令、摄像头帧)写入Rerun格式的文件,每个片段一个文件。这些原始记录保留了数据的原生频率,之后可以转换为LeRobot格式用于训练。
策略推理与安全
策略在架构上被视为另一个控制器,它订阅传感器事件并发布与遥操作路径相同的指令。作者计划将策略推理迁移到独立的NVIDIA DGX Spark上,通过WebSocket与机器人进程通信。
安全方面,除了硬件急停按钮,软件也采用了多层防御:所有指令都会被裁剪到安全区域内;速度有上限;遥操作输入在100毫秒后过期;任何服务崩溃都会导致系统停止。
下一步计划
作者接下来的计划包括:为简单任务收集50-100个演示数据,训练基线策略(如ACT或Diffusion Policy);尝试零样本部署现有的VLA策略(如π0.5和SmolVLA)。他关心的核心研究问题包括:从头训练的策略与微调VLA的对比、不同任务所需的数据量、不同策略模型的优劣、RGB与RGB-D在变化环境下的表现,以及单一策略处理多任务的能力。
评论总结
根据评论内容,总结如下:
主要观点与论据:
对文章和项目的赞赏(多位评论者,如wxw、avilay、timsuchanek、sails等):
- 认为文章很棒,项目令人兴奋,尤其是能在低预算下实现家庭机器人实验。
- 关键引用:wxw "Great article. I'll be following along.";timsuchanek "Incredible that you can do this for this budget at home."
技术选择与建议(多位评论者):
- 关于ROS:部分评论者支持放弃ROS,认为其过于复杂(blt "ROS sucks, good move. Too complicated");但也有评论者询问ROS生态优势(wxw "I've heard the advantage of ROS besides the architecture is the ecosystem")。
- 关于LeRobot:avilay询问为何不采用LeRobot("Would like to know your reasoning on not going with LeRobot");whiplash451质疑LeRobot是否限制控制("How does Lerobot prevent 'full control' and 'understanding'?")。
- 关于相机标定:NalNezumi建议早期进行相机标定,并推荐使用Aruco标记跟踪位置("I suggest it's good in the long run to do at early stage")。
机器人性能与成本(多位评论者):
- 对机器人速度的批评:dlt713705认为机器人动作缓慢,进步有限("I'm still amazed at how slow this type of robot is")。
- 低成本机器人的问题:colinator分享使用廉价机器人(HIWONDER)的糟糕体验("precision and repeatability are both 'are you drunk?' level"),建议升级。
数据收集与训练(多位评论者):
- 关于训练样本数量:wxw询问如何判断录制会话是否足够("How do you determine if a session recording is good enough for training? Is 50/100 samples really all you need?")。
- 关于模拟训练:dracotomes比较录制会话与模拟训练的效果("Can someone get reasonably far using recorded sessions compared to training in a simulated environment?")。
协作与未来方向(多位评论者):
- avilay表达合作意愿("Would love to collaborate with you if you are open to it")。
- sails提出硬件CLI和CICD管道的想法("hardware CLI for agents to run experiments, with a 'CICD' pipeline")。
- thomasikzelf询问是否计划改进现有技术("Is your plan to see whats possible right now or do you also have ideas on how to improve sota?")。
平衡性总结: - 正面观点:项目令人兴奋,低预算可行,放弃ROS是明智选择。 - 负面/质疑观点:机器人速度慢、进步有限;低成本机器人质量差;相机标定和数据收集需谨慎。 - 中立/建议观点:早期标定相机、使用Aruco标记;考虑模拟训练;注意LeRobot的潜在限制。