2025年5月1日星期四

人形机器人的泡沫,到头来必然只是一地废铁

在座的各位有生之年,是绝对不可能看到任何成熟的通用人形机器人产品,走入普通百姓家里的。


比如,最近这一波智元机器人的发布,已经让大多数人感觉很一般,甚至有点失望了。


基本还是VLA架构,只是采用分层处理,其实也是最近国外Figure的Helix等产品很常用的,VLM输出的是latent vector,隐式的action tokens被传到作为decoder 的diffusion model,解码生成最终动作序列action chunks


图片


但这毕竟不是自媒体创作者自己硬核DIY的作品,而是一个初具规模公司实验室推出的产品。人形机器人所有的能力没有任何创新之处,还在沿着robotics learning的路线,趁着热度换上transformer架构的大模型,和diffusion model,不断复现、魔改,做demo,然后训练出一个仅能在自媒体上引起关注,而实际并没有太多泛化性的人形机器人。


当然了,如果说你就喜欢每天陪着一摊废铁,只负责每天给你表演转手绢,或者表演后空翻,就好这一口,当然可以买来玩玩,但其实毫无意义。


再比如,前段时间DeepMind 推出用于机器人的 AI 模型 Gemini Robotics,


Gemini Robotics还是沿用了Google经典的VLA(Vision-Language-Action)架构,类似于之前发布的RT-2系列,把基座模型换成了Gemini 2.0,依然采用Google坚持的端到端模式(end2end),来追求尽可能的泛化性和zero-shot能力。


图片


Gemini Robotics-ER主打的特点是"embodied" reasoning,——具身多模态推理。声称具有很强的物理空间感知和理解能力(spatial understanding),使得空间推理能力有所提升。


用了几个demo来展示,但泛化性必然很一般。


图片


我之前也多次强调过了,虽然最近新闻报道中,人形机器人异常火热,比如某个机器人又完成了高难度动作等等,再配上视频,底下一片欢呼,炒炒概念,似乎实现通用人工智能Artificial General Intelligence(AGI)指日可待。


人形机器人实现某一个动作,——尤其是类人的高难度动作——,固然能展现一定的技术含量。


但是这个动作展示得再完美,也只能说明控制做得好,离真正的AGI相差甚远。


或者说not even wrong,连错误都谈不上,走的根本不是人形机器人初衷的AGI这条路。


—— 真正的AGI,需要看泛化性。


国内近期也有很多车企也宣布切入人形机器人赛道,原因很简单,因为国内的车企需要将所有概念跟特斯拉对齐,特斯拉的optimus机器人自然也是其中之一,人形机器人本质上是对下一代技术的填补和布局,来证明自己企业的技术储备能力。


就像老黄在演讲中提到的AI发展阶段,从如火如荼的Generative AI,再到现在已经初露头角的Agentic AI,下一步将来的阶段就是Physical AI,Physicl AI其中之一就是通用机器人,——General Robotics。


图片


毋庸置疑的是,从 大模型的Pre-training scaling 到 Post-training scaling 再到Test-time scaling 总结得没问题,现在已经是大模型的Test-time scaling 时代了,但非常遗憾,横坐标最右边的Physical AGI搁哪儿呢?


边都没看到,还离得太远太远了。


这个发展阶段过于超前,人形机器人这个赛道,我觉得大概率到头来只是一场泡沫。


现在所谓的"具身智能(Embodied AI)"人形机器人非常火热,但本质上并不是后面的"智能"两个字,而是前面的"具身"两个字。


——所以这就从硬件层面决定了实现physical AGI非常难。


大家常问的问题是为什么春晚跳舞灵活的机器人,却做不好端茶倒水这些简单动作?即各种人形机器人,为什么基本上只能做一些特定的任务?


原因很简单,机器人robotics通过learning学习的方法训练,来在特定场景environment中完成特定任务task时,大多数情况下就会经常过拟合overfit到某个或者某类任务上,这里涉及到Robotics learning很核心的一个概念,——Generalization,即泛化性。


泛化能力是指robotics能够将从训练数据中学到的知识应用到新场景或未见过的任务的能力。在robotics learning领域,尤其是在模仿学习(Imitation Learning)和强化学习(Reinforcement Learning)中,泛化能力generalization往往是最重要的瓶颈。

你能看到的大多数机器人,可以在特定场景下完成特定的任务,但泛化能力差,所以你把跳舞的机器人送去端茶倒水,这种未学习过的任务必然会失败。这跟需要完成的任务难易无关。专门学习端茶倒水的机器人,大概率是很难参加春晚跳舞的。


这是因为机器人通常在有限的数据集dataset上进行training训练,这些dataset可能不涵盖所有现实场景。当遇到新任务时,机器人无法迁移之前学习的模式。

大模型时代最著名的VLA(Vision-Language-Action Model)google 机器人 RT-1/2系列,(RT-1和RT-2的技术架构如下图所示),用了大量机器人真实操作数据、基于transformer架构训练出来,尽管泛化性进步了很多,但测评的泛化性值其实也不高,只能停留在学术论文中。


图片


图片


泛化性差的情况很好理解,举个很简单的例子,如果机器人只学过在干净的厨房里抓取苹果,它可能无法在杂乱的桌面上完成相同任务。这是因为它依赖特定的环境和条件,而新场景可能有不同的光线、物体位置或干扰等。


造成robotics泛化能力不足的原因很多,比如数据分布本身的局限性,robotics通常在有限的训练数据集上学习,而且训练的模型常常出现overfitting过拟合问题。

此外还有其他原因比如robotics硬件和结构差异,导致无法迁移控制能力,等等等等,


——这就是我常说的physical AGI难于登天。。


这就注定了人形机器人这个赛道,我觉得大概率到头来只是一场泡沫。


没有评论:

发表评论