数字货币: Figure家用机器人发布，可以帮你做家务！视频冲击震撼来袭！

就在刚刚，美国人形机器人Figure AI公司，震撼发布家用机器人"Helix"！

Figure AI家用机器人"Helix" 技术报告中文翻译版，包括数据、模型架构和训练等技术细节：

Helix：面向通用人形机器人的视觉-语言-动作模型

我们发布了Helix，一种通用的视觉-语言-动作（Vision-Language-Action, VLA）模型，能够统一感知、语言理解和学习的控制能力，解决机器人领域长期以来的挑战。Helix在多个方面都是首创：

全上半身控制
Helix是首个能够实现整个人形机器人上半身（包括手腕、躯干、头部和手指）连续高频控制的VLA模型。
多机器人协作
Helix首次实现了两个机器人同步操作，完成共享的长时间操纵任务，处理从未见过的物品。
"捡起任意物品"能力
配备Helix的机器人可以通过自然语言提示，捡起数千种从未接触过的小型家居物品。
单一神经网络
Helix使用一套神经网络权重，能够学习不同的行为（如物品的拾取、抽屉和冰箱操作、机器人之间的互动），无需任务特定的微调。
商业部署就绪
Helix完全运行在低功耗嵌入式GPU上，可直接用于商业应用。

视频1：协作存放杂货
两个机器人在Helix模型的控制下，合作存放它们从未见过的杂货。

家用机器人的新扩展（Scaling）

家居环境对机器人来说是极具挑战性的，充满了各种不规则形状和材质的物品。为了在家居环境中有用，机器人需要具备在未见物品上即时生成新行为的能力。

当前机器人技术在家用场景中难以扩展，教会机器人一个新行为需要耗费大量人力和时间，而这对于家居环境的多样性而言成本过高。

图1：不同机器人技能学习方法的扩展曲线

与传统的手动编程或模仿学习不同，Helix能够通过自然语言即时指定新技能。

我们通过Helix将视觉-语言模型（VLM）中丰富的语义知识直接转化为机器人动作，彻底改变机器人技能扩展的轨迹。

图2: Helix的双系统架构：系统1与系统2

Helix采用"系统1-系统2"架构，用于全上半身的灵活控制：

系统2（S2）
7-9Hz的VLM，用于场景理解和语言理解，处理高层目标。
系统1（S1）
200Hz的快速视觉-动作策略，接收S2的语义表示，并执行精确动作。

这种分离的架构使系统2负责"慢思考"，而系统1负责"快反应"，在协作场景中，系统1可以快速适应变化。

视频2：Helix在协作任务中的实时微调能力：

Helix相较于其他VLA模型具有以下优势：

速度与泛化
：在处理新物品时，Helix的速度与单任务模仿学习模型相当。
可扩展性
：输出连续高维控制，避免了低维度控制方案中的扩展瓶颈。
架构简洁
：使用开源VLM和基于Transformer的视觉-动作策略。
解耦设计
：系统1和系统2可独立优化，彼此不受观察空间或动作表示的限制。

模型与训练细节

数据
我们收集了500小时多机器人、多操作员的远程操控数据，并使用VLM自动生成训练指令，确保训练数据与评估数据完全隔离。

架构

系统2（S2）
基于7B参数的开源VLM，处理图像、机器人状态与自然语言命令，并生成单一连续潜在向量。
系统1（S1）
80M参数的交叉注意Transformer，以200Hz输出机器人上半身的完整动作控制。

其中，S1还可预测任务完成的百分比，用于多个行为的序列化。

训练
Helix使用标准回归损失函数端到端训练，并在训练过程中模拟部署时的时间偏移，确保模型能够适应实时控制的延迟。

优化推理
S2负责高层次规划，S1负责实时控制，分别运行在独立的GPU上，确保推理速度与训练时一致。

视频3：Helix实现精细的全上半身VLA控制：

Helix实现了35自由度的200Hz全上半身控制，能够稳定地处理头部、躯干、手指等复杂动作的协同调整。

视频4：Helix实现零样本多机器人协作：

Helix在多机器人协作中表现出色，两台机器人无需单独训练即可通过自然语言提示完成任务。这是VLA模型首次在多机器人协作中成功处理全新物品。

"捡起任意物品"能力（Emergent "Pick up anything"）
Helix可以通过简单的语言命令拾取各类小型家居物品，甚至能够理解抽象的概念，并将其转化为具体的抓取动作。

视频5：Helix将"拾取沙漠物品"命令转化为具体抓取行为

讨论与总结

视频6："捡起Helix"

高效训练
Helix仅使用500小时的训练数据，显著少于传统VLA模型，但在高维动作空间中表现出色。

单一权重
Helix使用一组统一的神经网络权重，实现了各种高层行为的强性能。

结论
Helix是首个能够直接通过自然语言控制人形机器人上半身的VLA模型，能够在无需任务特定演示的情况下，生成长时间协作、灵活的操控行为。它能够泛化到数千种新物品，为机器人在日常家居环境中的应用铺平了道路。

（注：上述内容翻译自Figure家用机器人官网：https://www.figure.ai/news/helix 翻译工具为ChatGPT4o，资料经过编者整理）

数字货币

2025年2月20日星期四

Figure家用机器人发布，可以帮你做家务！视频冲击震撼来袭！

图2: Helix的双系统架构：系统1与系统2

数据
我们收集了500小时多机器人、多操作员的远程操控数据，并使用VLM自动生成训练指令，确保训练数据与评估数据完全隔离。

架构

没有评论:

发表评论

2025年2月20日星期四

Figure家用机器人发布，可以帮你做家务！视频冲击 震撼来袭！

图2: Helix的双系统架构：系统1与系统2

数据我们收集了500小时多机器人、多操作员的远程操控数据，并使用VLM自动生成训练指令，确保训练数据与评估数据完全隔离。

架构

没有评论:

发表评论

Figure家用机器人发布，可以帮你做家务！视频冲击震撼来袭！

数据
我们收集了500小时多机器人、多操作员的远程操控数据，并使用VLM自动生成训练指令，确保训练数据与评估数据完全隔离。