Manus能被迅速炒作爆火起来,一个很大的原因,是所对标OpenAI发布的AI Agent智能体产品,并没有开放免费使用,而且订阅价格比较贵,所以这类产品并不为大众所熟悉。
于是相对于对话式大模型能被普通人广泛接触并日常使用,而大家对AI Agent产品并没有多少概念和使用体验,所以很容易被大量推广和新闻标题误导。
Manus这类项目没有任何护城河,因为自身并没有独立的SOTA多模态基座模型,也没有强大的推理模型,所以被复刻是很容易的,所以我们可以看到Manus发布一天后,迅速出现OpenManus、OWL 等复刻项目,而且可以预见,接下来会更多。
我本来早在年初就已经写文章预测到了(可以参考公众号里之前写的文章2025年开启了AI Agent的指数爆发年),今年随着推理大模型的快速发展迭代,大概率开始了AI Agent的产品爆发,但是属实没想到会以这种纯纯营销式的方式爆发,直接刷爆了朋友圈,吸引了足够的眼球。
实际上短期内AI Agent能力肯定还是很有限,需要不断迭代。
毕竟就连OpenAI在今年一月份发布的AI agent 产品Operator (一个非常典型的 CUA(Computer-Using Agent)),在OSWorld Benchmark上准确率最高才38%,人家发布宣传片的时候当场承认,仍需要大量改进和完善,以至于现在页面介绍上的原话仍是说在早期研究阶段。
所以,现在AI Agent产品宣传的时候,最好能悠着点。
Operator本质就是基于多模态大模型(当然他们发布的时候,用的还是GPT4o),用思维链CoT做推理reasoning任务,下面这张图很直白。
这款发布的AI agent主要应用场景是面向GUI,其实面向GUI的agent paper有很多了,去年各大厂也都有专门的组在做。上面的framwork已经是很常规的了,主要分成perception reasoning action三部分。
perception就是截图作为视觉信息,然后用多模态模型来理解;reasoning过程的训练用了reinforcement learning,用step-by-step慢推理的方式;action就是模仿人类鼠标操作。
我们继续深入分析一下OpenAI 的AI Agent 产品Operator技术报告,尽管可以看出来Test-time scaling在agent上效果非常明显,从结果上看,100步在OSWorld benchmark上准确率能到36.4%了,但是别忘了,这就基本才到人类准确率的一半(72.4%)。
具体来说,OpenAI 的Operator有如下局限性,影响作为AI Agent的使用性能:
一是在多模态感知与操作层面,可能因GUI特征提取错误,从而误识别屏幕上的按钮、文本框等等,很容易导致操作失误。特别是在数值精度问题上,AI Agent在需要精确输入数值时(如调整图像亮度、对比度)容易出错。同时,在具体特定场景的操作时,AI Agent因为训练数据受限,大概率会经常缺乏合适的对应操作知识,导致直接失败。
二是在任务执行与适应性方面,尽管基于强化学习后训练的reasoning model 快速发展,但仍会有复杂任务规划困难问题,很多日常操作很容易超出其能力范围。不同具体使用条件千差万别,out of distribution 出现概率极大,所以AI Agent的适应性和泛化性还有待提高。
另外不得不提的是大模型联网搜索的信息污染问题,会直接让DeepSeek等生成了错误的结果,还要再加上大模型生成过程中,本身幻觉hallucination的问题。于是真正的AI Agent联网检索效果往往不好,很难从复杂网站或文档中准确提取所需信息,就像我在这篇文章中提到的那样:AI合成数据污染问题,已经影响到了DeepSeek输出结果
上面这些局限性在当前阶段直接制约了AI Agent在日常真实场景中的使用。
接下来,我们再看OpenAI 的另一个著名的AI Agent 产品 DeepResearch,可以用推理来综合大量在线信息,并能完成多步骤研究任务。
DeepResearch在 HLE(Humanity's Last Exam)上准确率也才到了 26.6%,但是这已经能明显领先其他模型了,毕竟 o3-mini high 才 13% 的准确率。
当然,尽管准确率都不高,我们还是看到了趋势,在openai内部Expert-Level Tasks的测试上,测试曲线也明显看到了 test-time scaling:
"模型浏览和思考它所浏览的内容越多,它的表现就越好,这就是为什么给它时间思考很重要。"
从这个趋势来看,随着将来推理模型的快速发展,将来这些AI Agent系统以普遍采用带有Chain of Thought的推理模型作为基础模型,未来将迎来更多的爆发机会。不过很显然,短期内的实用性上看起来还总是困难重重。
所以发布AI Agent产品,最重要的是要实事求是,准确率必然不高,但其实不丢人,这正说明还有很大的进步空间,一定要避免浮夸风。不过尽管道路崎岖坎坷,问题很多,但我觉得将来随着推理模型的不断迭代,尤其是多模态推理模型的进化,总有一天会取得很高的准确率,但现在如果吹得太过了,很容易名不副实。
现在复刻的项目多起来是好事情,让大家逐渐熟悉看清,才能祛魅,何况随着推理模型test-time scaling的爆发,2025年本来就大概率会开启各种AI Agent产品的百花齐放。
没有评论:
发表评论