很遗憾,在座的各位有生之年,是绝对不可能看到任何成熟的通用人形机器人产品,走入普通百姓家里的。
当然了,如果说你就喜欢每天陪着一摊废铁,只负责每天给你表演转手绢,或者表演后空翻,就好这一口,当然可以买来玩玩,但其实毫无意义。
因为这种人形机器人本质上还是专用机器人,而不是通用人形机器人,即Physical Artificial General Intelligence(AGI)。
原因很简单,人形机器人实现某一个动作,——尤其是类人的高难度动作——,固然能展现一定的技术含量。
但是这个动作展示得再完美,也只能说明控制做得好,离真正的AGI相差甚远。
或者说not even wrong,连错误都谈不上,走的根本不是人形机器人初衷的AGI这条路。
—— 真正的AGI,需要看泛化性。
就像老黄在英伟达GTC 2025最新演讲中提到的AI发展阶段,横坐标所示,从如火如荼的Generative AI,再到现在已经初露头角的Agentic AI,下一步将来的阶段就是Physical AI,Physicl AI其中之一就是通用机器人,——General Robotics。
毋庸置疑的是,从大模型的Pre-training scaling 到 Post-training scaling 再到Test-time scaling 总结得没问题,现在已经是大模型的Test-time scaling 时代了,但非常遗憾,横坐标最右边的Physical AGI搁哪儿呢?
边都没看到,还离得太远太远了。
这个发展阶段过于超前,人形机器人这个赛道,我觉得大概率到头来只是一场泡沫。
现在所谓的"具身智能(Embodied AI)"人形机器人非常火热,但本质上并不是后面的"智能"两个字,而是前面的"具身"两个字。
——所以这就从硬件层面决定了实现physical AGI非常难。
大家常问的问题是为什么春晚跳舞灵活的机器人,却做不好端茶倒水这些简单动作?即各种人形机器人,为什么基本上只能做一些特定的任务?
原因很简单,机器人robotics通过learning学习的方法训练,来在特定场景environment中完成特定任务task时,大多数情况下就会经常过拟合overfit到某个或者某类任务上,这里涉及到Robotics learning很核心的一个概念,
——Generalization,即泛化性。
泛化能力是指robotics能够将从训练数据中学到的知识应用到新场景或未见过的任务的能力。在robotics learning领域,尤其是在模仿学习(Imitation Learning)和强化学习(Reinforcement Learning)中,泛化能力generalization往往是最重要的瓶颈。
你能看到的大多数机器人,可以在特定场景下完成特定的任务,但泛化能力差,所以你把跳舞的机器人送去端茶倒水,这种未学习过的任务必然会失败。这跟需要完成的任务难易无关。专门学习端茶倒水的机器人,大概率是很难参加春晚跳舞的。
这是因为机器人通常在有限的数据集dataset上进行training训练,这些dataset可能不涵盖所有现实场景。当遇到新任务时,机器人无法迁移之前学习的模式。
大模型时代最著名的VLA(Vision-Language-Action Model)google 机器人 RT-1/2系列,(RT-1和RT-2的技术架构,分别如下图所示),用了大量机器人真实操作数据、基于transformer架构训练出来,尽管泛化性进步了很多,但测评的泛化性值其实也不高,只能停留在学术论文中。
泛化性差的情况很好理解,举个很简单的例子,如果机器人只学过在干净的厨房里抓取苹果,它可能无法在杂乱的桌面上完成相同任务。这是因为它依赖特定的环境和条件,而新场景可能有不同的光线、物体位置或干扰等。
造成robotics泛化能力不足的原因很多,比如数据分布本身的局限性,robotics通常在有限的训练数据集上学习,而且训练的模型常常出现overfitting过拟合问题。
此外还有其他原因比如robotics硬件和结构差异,导致无法迁移控制能力,等等等等,
——这就是我常说的physical AGI难于登天。。
这就注定了人形机器人这个赛道,我觉得大概率到头来只是一场泡沫。
没有评论:
发表评论