2025年3月9日星期日

Manus爆火,是噱头,还是大牛?

Manus作为AI Agent产品,这两天刷爆了大家的朋友圈。但Manus爆火,到底是噱头,还是大牛?


Manus能被迅速炒作爆火起来,一个很大的原因,是所对标OpenAI发布的AI Agent产品,并没有开放免费使用,而且订阅价格比较贵,所以这类产品并不为大众所熟悉。


于是相对于对话式大模型能被普通人广泛接触并日常使用,而大家对AI Agent产品并没有多少概念和使用体验,所以很容易被大量推广和新闻标题误导。


(注:上述manus工作原理图,引用自宝玉老师)


实际上短期内AI Agent能力肯定还是很有限,需要不断迭代。毕竟就连OpenAI在今年一月份发布的AI agent 产品Operator,在OSWorld Benchmark上准确率最高才38%,人家发布宣传片的时候当场承认,仍需要大量改进和完善,以至于现在页面介绍上的原话仍是说在早期研究阶段。


所以,现在AI Agent产品宣传的时候,最好能悠着点。


这是OpenAI 发布的AI Agent 产品Operator的技术报告,尽管可以看出来Test-time scaling在agent上效果非常明显,从结果上看,100步在OSWorld benchmark上准确率能到36.4%了,


但是别忘了,这就基本才到人类准确率的一半(72.4%)。



具体来说,OpenAI 的Operator有如下局限性,影响作为AI Agent的使用性能:


一是在多模态感知与操作层面,可能因GUI特征提取错误,从而误识别屏幕上的按钮、文本框等等,很容易导致操作失误。


特别是在数值精度问题上,AI Agent在需要精确输入数值时(如调整图像亮度、对比度)容易出错。


同时,在具体特定场景的操作时,AI Agent因为训练数据受限,大概率会经常缺乏合适的对应操作知识,导致直接失败。


二是在任务执行与适应性方面,尽管基于强化学习后训练的reasoning model 快速发展,但仍会有复杂任务规划困难问题,很多日常操作很容易超出其能力范围。


不同具体使用条件千差万别,out of distribution 出现概率极大,所以AI Agent的适应性和泛化性还有待提高。


另外不得不提的是大模型信息污染问题,直接让DeepSeek 生成了错误的结果,这还不算幻觉hallucination的问题。于是真正的AI Agent联网检索效果往往不好,很难从复杂网站或文档中准确提取所需信息,就像我在这篇文章中提到的那样:


AI合成数据污染问题,已经影响到了DeepSeek输出结果

上面这些局限性在当时阶段直接制约了AI Agent在日常真实场景中的使用。


接下来,我们再看OpenAI 的另一个著名的AI Agent 产品 DeepResearch,可以用推理来综合大量在线信息,并能完成多步骤研究任务。


DeepResearch在 HLE(Humanity's Last Exam)上准确率也才到了 26.6%,但是这已经能明显领先其他模型了,毕竟 o3-mini high 才 13% 的准确率。



当然,尽管准确率都不高,我们还是看到了趋势,在openai内部Expert-Level Tasks的测试上,测试曲线也明显看到了 test-time scaling:


"模型浏览和思考它所浏览的内容越多,它的表现就越好,这就是为什么给它时间思考很重要。"



从这个趋势来看,随着将来推理模型的快速发展,将来这些AI Agent系统以普遍采用带有Chain of Thought的推理模型作为基础模型,未来将迎来更多的爆发机会。不过很显然,短期内的实用性上看起来还总是困难重重。


所以发布AI Agent产品,最重要的是要实事求是,准确率必然不高,但其实不丢人,这正说明还有很大的进步空间,一定要避免浮夸风。


不过尽管道路崎岖坎坷,问题很多,但我觉得将来随着推理模型的不断迭代,尤其是多模态推理模型的进化,总有一天会取得很高的准确率,但如果现在吹得太过了,很容易名不副实。



没有评论:

发表评论

波卡周报 I 弹性扩展将于 7 月初上线!DOT 可在东南亚 2000 万家商户使用了!

查看 Polkadot 本周最新进展,以防你错过重要信息! 加入 PolkaWorld 社区,共建 Web 3.0! Polkadot 好消息!DOT 可在东南亚 2000 万家商户使用了! AEON 宣布与 Polkadot 达成战略合作,将 DOT 整合进其 Web3 移...