2025年2月20日星期四

Figure家用机器人发布,可以帮你做家务!视频冲击 震撼来袭!

就在刚刚,美国人形机器人Figure AI公司,震撼发布家用机器人"Helix"!


Figure AI家用机器人"Helix" 技术报告中文翻译版,包括数据、模型架构和训练等技术细节:

Helix:面向通用人形机器人的视觉-语言-动作模型

我们发布了Helix,一种通用的视觉-语言-动作(Vision-Language-Action, VLA)模型,能够统一感知、语言理解和学习的控制能力,解决机器人领域长期以来的挑战。Helix在多个方面都是首创:

  • 全上半身控制
    Helix是首个能够实现整个人形机器人上半身(包括手腕、躯干、头部和手指)连续高频控制的VLA模型。
  • 多机器人协作
    Helix首次实现了两个机器人同步操作,完成共享的长时间操纵任务,处理从未见过的物品。
  • "捡起任意物品"能力
    配备Helix的机器人可以通过自然语言提示,捡起数千种从未接触过的小型家居物品。
  • 单一神经网络
    Helix使用一套神经网络权重,能够学习不同的行为(如物品的拾取、抽屉和冰箱操作、机器人之间的互动),无需任务特定的微调。
  • 商业部署就绪
    Helix完全运行在低功耗嵌入式GPU上,可直接用于商业应用。


视频1:协作存放杂货
两个机器人在Helix模型的控制下,合作存放它们从未见过的杂货。

家用机器人的新扩展(Scaling)

家居环境对机器人来说是极具挑战性的,充满了各种不规则形状和材质的物品。为了在家居环境中有用,机器人需要具备在未见物品上即时生成新行为的能力。

当前机器人技术在家用场景中难以扩展,教会机器人一个新行为需要耗费大量人力和时间,而这对于家居环境的多样性而言成本过高。

图1:不同机器人技能学习方法的扩展曲线

与传统的手动编程或模仿学习不同,Helix能够通过自然语言即时指定新技能。

我们通过Helix将视觉-语言模型(VLM)中丰富的语义知识直接转化为机器人动作,彻底改变机器人技能扩展的轨迹。


图2: Helix的双系统架构:系统1与系统2


Helix采用"系统1-系统2"架构,用于全上半身的灵活控制:

  • 系统2(S2)
    7-9Hz的VLM,用于场景理解和语言理解,处理高层目标。
  • 系统1(S1)
    200Hz的快速视觉-动作策略,接收S2的语义表示,并执行精确动作。

这种分离的架构使系统2负责"慢思考",而系统1负责"快反应",在协作场景中,系统1可以快速适应变化。

视频2:Helix在协作任务中的实时微调能力:

Helix相较于其他VLA模型具有以下优势:

  • 速度与泛化
    :在处理新物品时,Helix的速度与单任务模仿学习模型相当。
  • 可扩展性
    :输出连续高维控制,避免了低维度控制方案中的扩展瓶颈。
  • 架构简洁
    :使用开源VLM和基于Transformer的视觉-动作策略。
  • 解耦设计
    :系统1和系统2可独立优化,彼此不受观察空间或动作表示的限制。

模型与训练细节

数据
我们收集了500小时多机器人、多操作员的远程操控数据,并使用VLM自动生成训练指令,确保训练数据与评估数据完全隔离。


架构

  • 系统2(S2)
    基于7B参数的开源VLM,处理图像、机器人状态与自然语言命令,并生成单一连续潜在向量。
  • 系统1(S1)
    80M参数的交叉注意Transformer,以200Hz输出机器人上半身的完整动作控制。
其中,S1还可预测任务完成的百分比,用于多个行为的序列化。

训练
Helix使用标准回归损失函数端到端训练,并在训练过程中模拟部署时的时间偏移,确保模型能够适应实时控制的延迟。

优化推理
S2负责高层次规划,S1负责实时控制,分别运行在独立的GPU上,确保推理速度与训练时一致。

视频3:Helix实现精细的全上半身VLA控制:

Helix实现了35自由度的200Hz全上半身控制,能够稳定地处理头部、躯干、手指等复杂动作的协同调整。

视频4:Helix实现零样本多机器人协作:

Helix在多机器人协作中表现出色,两台机器人无需单独训练即可通过自然语言提示完成任务。这是VLA模型首次在多机器人协作中成功处理全新物品。

"捡起任意物品"能力(Emergent "Pick up anything")
Helix可以通过简单的语言命令拾取各类小型家居物品,甚至能够理解抽象的概念,并将其转化为具体的抓取动作。

视频5:Helix将"拾取沙漠物品"命令转化为具体抓取行为

讨论与总结

视频6:"捡起Helix"

高效训练
Helix仅使用500小时的训练数据,显著少于传统VLA模型,但在高维动作空间中表现出色。

单一权重
Helix使用一组统一的神经网络权重,实现了各种高层行为的强性能。

结论
Helix是首个能够直接通过自然语言控制人形机器人上半身的VLA模型,能够在无需任务特定演示的情况下,生成长时间协作、灵活的操控行为。它能够泛化到数千种新物品,为机器人在日常家居环境中的应用铺平了道路。

(注:上述内容翻译自Figure家用机器人官网:https://www.figure.ai/news/helix 翻译工具为ChatGPT4o,资料经过编者整理)






没有评论:

发表评论