现在大模型不能盈利,主要还是基于大模型基座开发的各种Agent离真正好用、且具有性价比,还有一段距离,所以商业化会比较慢。
我简单拿两种普通用户容易理解,基于大模型开发的Agent产品举例说明一下,大家就能明白了。
第一种Agent产品,
是现在比较火热的Computer-Using AI Agent,即能操作计算机的AI Agent。
尽管GitHub上的AI Agent开发的开源框架数不胜数,但至于AI Agent产品,非常典型却属于那种开发起来信手拈来,用起来一塌糊涂。
其实我们从OpenAI的CUA AI Agent产品Operator 的技术报告中,可以很明显从benchmark测试结果中,看出来,100步在OSWorld benchmark上准确率也就能到36.4%了,这就基本才到人类准确率72.4%的一半而已。
有很多局限性可能会直接影响作为AI Agent的使用性能,比如在多模态感知与操作层面,可能因GUI特征提取错误,从而误识别屏幕上的按钮和文本框等等,很容易导致操作失误,特别是在数值精度问题上容易出错。
在具体特定场景的操作时,AI Agent因为训练数据受限,大概率会经常缺乏合适的对应操作知识,OOD直接导致任务执行失败。
尽管基于强化学习后训练的reasoning model 快速发展,但仍会有复杂任务规划困难问题,很多日常操作很容易超出其能力范围,AI Agent的适应性和泛化性还有待提高。此外,还有基座大模型一旦联网搜索,会受到信息污染问题,直接生成了错误的结果。以及大模型生成过程中,本身幻觉hallucination的问题。
因为真正使用的时候,这些AI Agent产品本身往往会面临基座模型能力不足引起的任务场景理解不准确,造成任务执行与适应性方面的问题,同时执行精度有待提高以解决多模态感知与操作层面等等问题,而且现在很多顶尖的AI Agent产品,依赖于推理基座模型开发,因此仍需要大量的Test-time scaling 来执行足够的步数。但尽管这样,效果仍是不太理想。
前段时间通过自媒体营销号爆火的Manus这类AI Agent产品,就是典型代表之一。
这类AI Agent本身并没有任何创新之处,而且并没有自己的独立基座推理模型和多模态模型,只是吃了一波信息差,在OpenAI等公司的AI Agent并没有让国内用户们所熟知的时候,靠一大波强势的自媒体刷屏式的推广营销和大量写文宣传造势,才被国内很多不太熟悉类似AI Agent产品的用户们接触到,以为会给世界带来巨大影响甚至要改变世界,实则不然。
同时由于真正能使用并客观评价Manus AI Agent产品的用户不多,哪怕到了现在,到了今天,能真正体验Manus产品的用户仍然少之又少,还是只能从媒体里从各种营销文章中了解,被动地接受。
Manus这类AI Agent的原理其实很类似,我之前也介绍过,整个AI Agent的处理流程从任务规划器开始,首先依据用户输入的查询 prompt 进行解析。任务规划器可能使用 Claude 3.5 Sonnet,——后面升级到3.7——,依托其强大的语言理解和推理能力,将较为复杂的用户请求拆解为一系列可执行的子任务。
一般来说,这些子任务通常已经非常细化,以至于到了可以直接执行的程度,随后被组织成一个待执行列表中,即Todo List,这样方便为后续的执行环节提供比较清晰的指引。
然后到了任务执行调度器,这部分根据猜测,Manus可能基于微调的 Qwen 模型,负责将这些子任务分配给相应的专用 Agents。Qwen 模型在任务分配过程中确保任务与执行 Agent 之间的最佳匹配。然后这些拆分之后的专用 Agents,通常运行在 Linux 虚拟机上,虚拟机预装了 Chrome 浏览器和 Python 环境,以支持多种任务类型的执行。
于是,经过拆分之后的每个 Agent,都会侧重于特定类别的任务,比如网页浏览 Agent、数据分析 Agent、代码执行 Agent、文本生成 Agent 等,当然了,未来还可进一步扩展。
任务完成后,最终由任务汇总生成器,这部分可能仍然依赖 Claude模型,整合所有执行结果,生成结构化的最终输出,可能包括文本报告,或者图表,或者Python 代码等等。
整个流程pipeline已经是非常常规的路线了。
此外,还需要特别指出,也更要命的是,诸如OpenAI和Google等的类似的AI Agent产品,并没有被国内普通用户所使用和熟悉。
这类产品并不对国内用户开放使用。所以Manus能迅速在国内大火,一方面是国外的这些AI Agent产品对国内用户不太方便使用,再加上特别是所对标的OpenAI所发布的AI Agent 产品,发布后订阅价格太贵,并不为大众所熟悉,有一个很大的信息差。所以,Manus本身只是这个时代下普通的一款营销网红产品而已。
当然了,我在年初的时候,已经预测过,今年大概率是AI Agent的集中爆发年,原因很简单,从24年下半年OpenAI 率先推出o1系列推理模型以来,各种推理模型比如DeepSeek R1系列等逐步追上OpenAI的步伐,inference-time scaling已经被证明是行之有效的路子,随着优秀推理模型相继被推出,以此为基座模型的各种AI Agent也会迎来指数爆发年。
将来随着推理模型能力提升,用推理模型作为基座模型的agent必然会继续有性能上的飞跃。OpenAI 的 产品负责人 Kevin Weil在发布全新 Agent 开发工具时,所说的"2025 年将是 AI Agent的元年",跟我上述2025 年初所做的判断,是一致的。
第二种Agent产品,
或者说是下一个Agent发展阶段,是最近更火热的基于大模型开发的具身智能产品,我们不妨称之为Embodied AI Agent,如典型人形机器人产品。
年初破圈的春晚跳舞机器人,一度让大家感觉很是惊艳。
但因为是固定场景下的固定task任务,靠规则也能实现,所以单纯看节目本身并不能体现什么业界领先水平。
发布的各种人形机器人在特定场景下的特定技能炫酷demo,也是同样道理,demo只是demo,无论多么炫酷,前滚翻还是后滚翻,都离产品十万八千里。
比如,最近这一波智元机器人的发布,已经让大多数人感觉很一般,甚至有点失望了。
基本还是VLA架构,只是采用分层处理,其实也是最近国外Figure的Helix等产品很常用的,VLM输出的是latent vector,隐式的action tokens被传到作为decoder 的diffusion model,解码生成最终动作序列action chunks。
但这毕竟不是自媒体创作者自己硬核DIY的作品,而是一个初具规模公司实验室推出的产品。人形机器人所有的能力没有任何创新之处,还在沿着robotics learning的路线,趁着热度换上transformer架构的大模型,和diffusion model,不断复现、魔改,做demo,然后训练出一个仅能在自媒体上引起关注,而实际并没有太多泛化性的人形机器人。
当然了,如果说你就喜欢每天陪着一摊废铁,只负责每天给你表演转手绢,或者表演后空翻,就好这一口,当然可以买来玩玩,但其实毫无意义。
再比如,前段时间DeepMind 推出用于机器人的 AI 模型 Gemini Robotics,
Gemini Robotics还是沿用了Google经典的VLA(Vision-Language-Action)架构,类似于之前发布的RT-2系列,把基座模型换成了Gemini 2.0,依然采用Google坚持的端到端模式(end2end),来追求尽可能的泛化性和zero-shot能力。
Gemini Robotics-ER主打的特点是"embodied" reasoning,——具身多模态推理。声称具有很强的物理空间感知和理解能力(spatial understanding),使得空间推理能力有所提升。
用了几个demo来展示,但泛化性必然很一般。
再扩展一下,放眼全世界,Unitree这种机器人量产的路子,赶超的目标应该是tesla optimus:
毋庸置疑的是,从 大模型的Pre-training scaling 到 Post-training scaling 再到Test-time scaling 总结得没问题,现在已经是大模型的Test-time scaling 时代了,但非常遗憾,横坐标最右边的Physical AGI搁哪儿呢?
边都没看到,还离得太远太远了。
现在所谓的"具身智能(Embodied AI)"人形机器人非常火热,但本质上并不是后面的"智能"两个字,而是前面的"具身"两个字,——所以这就从硬件层面决定了实现physical AGI非常难。
大家常问的问题是为什么春晚跳舞灵活的机器人,却做不好端茶倒水这些简单动作?即各种人形机器人,为什么基本上只能做一些特定的任务?
原因很简单,机器人robotics通过learning学习的方法训练,来在特定场景environment中完成特定任务task时,大多数情况下就会经常过拟合overfit到某个或者某类任务上,这里涉及到Robotics learning很核心的一个概念,——Generalization,即泛化性。
泛化能力是指robotics能够将从训练数据中学到的知识应用到新场景或未见过的任务的能力。在robotics learning领域,尤其是在模仿学习(Imitation Learning)和强化学习(Reinforcement Learning)中,泛化能力generalization往往是最重要的瓶颈。
你能看到的大多数机器人,可以在特定场景下完成特定的任务,但泛化能力差,所以你把跳舞的机器人送去端茶倒水,这种未学习过的任务必然会失败。这跟需要完成的任务难易无关。专门学习端茶倒水的机器人,大概率是很难参加春晚跳舞的。
这是因为机器人通常在有限的数据集dataset上进行training训练,这些dataset可能不涵盖所有现实场景。当遇到新任务时,机器人无法迁移之前学习的模式。
大模型时代最著名的VLA(Vision-Language-Action Model)google 机器人 RT-1/2系列,(RT-1和RT-2的技术架构如下图所示),用了大量机器人真实操作数据、基于transformer架构训练出来,尽管泛化性进步了很多,但测评的泛化性值其实也不高,只能停留在学术论文中。
没有评论:
发表评论