Helix:面向通用人形机器人的视觉-语言-动作模型
我们发布了Helix,一种通用的视觉-语言-动作(Vision-Language-Action, VLA)模型,能够统一感知、语言理解和学习的控制能力,解决机器人领域长期以来的挑战。Helix在多个方面都是首创:
- 全上半身控制
Helix是首个能够实现整个人形机器人上半身(包括手腕、躯干、头部和手指)连续高频控制的VLA模型。 - 多机器人协作
Helix首次实现了两个机器人同步操作,完成共享的长时间操纵任务,处理从未见过的物品。 - "捡起任意物品"能力
配备Helix的机器人可以通过自然语言提示,捡起数千种从未接触过的小型家居物品。 - 单一神经网络
Helix使用一套神经网络权重,能够学习不同的行为(如物品的拾取、抽屉和冰箱操作、机器人之间的互动),无需任务特定的微调。 - 商业部署就绪
Helix完全运行在低功耗嵌入式GPU上,可直接用于商业应用。
视频1:协作存放杂货
两个机器人在Helix模型的控制下,合作存放它们从未见过的杂货。
家居环境对机器人来说是极具挑战性的,充满了各种不规则形状和材质的物品。为了在家居环境中有用,机器人需要具备在未见物品上即时生成新行为的能力。
当前机器人技术在家用场景中难以扩展,教会机器人一个新行为需要耗费大量人力和时间,而这对于家居环境的多样性而言成本过高。
图1:不同机器人技能学习方法的扩展曲线
与传统的手动编程或模仿学习不同,Helix能够通过自然语言即时指定新技能。
我们通过Helix将视觉-语言模型(VLM)中丰富的语义知识直接转化为机器人动作,彻底改变机器人技能扩展的轨迹。
图2: Helix的双系统架构:系统1与系统2
Helix采用"系统1-系统2"架构,用于全上半身的灵活控制:
- 系统2(S2)
7-9Hz的VLM,用于场景理解和语言理解,处理高层目标。 - 系统1(S1)
200Hz的快速视觉-动作策略,接收S2的语义表示,并执行精确动作。
这种分离的架构使系统2负责"慢思考",而系统1负责"快反应",在协作场景中,系统1可以快速适应变化。
视频2:Helix在协作任务中的实时微调能力:
Helix相较于其他VLA模型具有以下优势:
- 速度与泛化
:在处理新物品时,Helix的速度与单任务模仿学习模型相当。 - 可扩展性
:输出连续高维控制,避免了低维度控制方案中的扩展瓶颈。 - 架构简洁
:使用开源VLM和基于Transformer的视觉-动作策略。 - 解耦设计
:系统1和系统2可独立优化,彼此不受观察空间或动作表示的限制。
数据
我们收集了500小时多机器人、多操作员的远程操控数据,并使用VLM自动生成训练指令,确保训练数据与评估数据完全隔离。
架构
- 系统2(S2)
基于7B参数的开源VLM,处理图像、机器人状态与自然语言命令,并生成单一连续潜在向量。 - 系统1(S1)
80M参数的交叉注意Transformer,以200Hz输出机器人上半身的完整动作控制。
训练
Helix使用标准回归损失函数端到端训练,并在训练过程中模拟部署时的时间偏移,确保模型能够适应实时控制的延迟。
优化推理
S2负责高层次规划,S1负责实时控制,分别运行在独立的GPU上,确保推理速度与训练时一致。
视频3:Helix实现精细的全上半身VLA控制:
Helix实现了35自由度的200Hz全上半身控制,能够稳定地处理头部、躯干、手指等复杂动作的协同调整。
视频4:Helix实现零样本多机器人协作:
Helix在多机器人协作中表现出色,两台机器人无需单独训练即可通过自然语言提示完成任务。这是VLA模型首次在多机器人协作中成功处理全新物品。
"捡起任意物品"能力(Emergent "Pick up anything")
Helix可以通过简单的语言命令拾取各类小型家居物品,甚至能够理解抽象的概念,并将其转化为具体的抓取动作。
视频5:Helix将"拾取沙漠物品"命令转化为具体抓取行为
讨论与总结
视频6:"捡起Helix"
高效训练
Helix仅使用500小时的训练数据,显著少于传统VLA模型,但在高维动作空间中表现出色。
单一权重
Helix使用一组统一的神经网络权重,实现了各种高层行为的强性能。
结论
Helix是首个能够直接通过自然语言控制人形机器人上半身的VLA模型,能够在无需任务特定演示的情况下,生成长时间协作、灵活的操控行为。它能够泛化到数千种新物品,为机器人在日常家居环境中的应用铺平了道路。
没有评论:
发表评论