2025年3月24日星期一

Manus究竟处于一个什么水平?

现在离Manus开始的刷屏爆火,营销式传播也过去一段时间了,具体来说 Manus 到底出于什么水平,正好咱们可以认真客观地分析一下。


首先,由于OpenAI 的一些AI Agent产品并不能被大众所熟知,订阅价格比较高,再加上本身 OpenAI 系列的产品并不对国内开放,其实一直到 2 月底,AI Agent 产品才向包括澳大利亚、巴西、加拿大、印度、日本、新加坡、韩国和英国等多个国家,为 ChatGPT Pro 用户开放使用。

 

所以这类产品并不为大众所熟悉。于是相对于从 2022 年底问世的ChatGPT 这种对话式大模型以及国内各大厂随后开发的各种大语言模型,被大家广泛接触,这类 AI Agent 产品很少能被普通人广泛接触并日常使用。

 

正所谓蜀中无大将,廖化作先锋,在加上铺天盖地营销方式,于是大家基本上认为Manus是对标 OpenAI 的一款 AI Agent产品。

 

比如最重要也是非常典型的两款AI Agent产品Deep Research 和 CUA(Computer-Using Agent)AI Agent Operator。

 

对于 Deep Research 产品,在openai内部Expert-Level Tasks的测试上,Test-time scaling 现象非常明显,官网上也提到模型浏览和思考它所浏览的内容越多,它的表现就越好,这就是为什么给它时间思考很重要。而这里提到的思考时间,正是 Test-time scaling 的方式来实现的。

 

然而局限性也很明显,比如对于AI Agent 产品 Operator,在多模态感知与操作层面比较弱,100步在OSWorld benchmark上准确率能到36.4%了,就基本才到人类准确率的一半(72.4%)。同时,在具体特定场景的操作时,AI Agent因为训练数据受限,容易出现 OOD 现象,大概率会经常缺乏合适的对应操作知识,导致直接失败。

 

另外尽管现在的 AI Agent 产品大多是基于经过强化学习后训练的reasoning model 作为基座模型,但这种推理模型本身也在快速迭代中,但仍会有复杂任务规划困难问题,很多日常操作很容易超出其能力范围。大模型本身固有的幻觉问题,还有训练数据的泛化性,等等等等,都会限制 AI Agent 的使用效果。

 

其次,Manus作为一款对标OpenAI 的AI Agent产品,本身是没有任何护城河的,比如前段时间的热点,OpenManus和OWL 等开源项目,这两款迅速复刻并把star刷起来。其实我一直认为,复刻的项目多起来是好事情,让大家逐渐熟悉看清,才能祛魅,何况随着推理模型test-time scaling的爆发,2025年本来就大概率会开启各种AI Agent产品的百花齐放。

 

我在年初的时候,已经预测过,今年大概率是AI Agent的集中爆发年,原因很简单,从24年下半年OpenAI 率先推出o1系列推理模型以来,各种推理模型比如DeepSeek R1系列等逐步追上OpenAI的步伐,inference-time scaling已经被证明是行之有效的路子,随着优秀推理模型相继被推出,以此为基座模型的各种AI Agent也会迎来指数爆发年。将来随着推理模型能力提升,用推理模型作为基座模型的agent必然会继续有性能上的飞跃。

 

OpenAI 的 产品负责人 Kevin Weil在发布全新 Agent 开发工具时,所说的"2025 年将是 AI Agent的元年",跟我上述2025 年初所做的判断,是一致的。将来的Agent是要基于推理模型,就是用带CoT的推理模型作为基座模型,并随着test-time scaling而迭代的agent,不是前推理时代用llm或vlm作为基座再用上rl来堆积起来的agent。

 

另外一个很重要的评价指标是有大量的用户反馈才行,而Manus这种典型的只营销而提供很少用户使用的方式,本身就很难听到比较真实的用户使用体验反馈。

 

于是大家往往只能根据新闻营销号的介绍,微信公众号的转载和夸大,被动接受这种从没用过产品的评价,这种传播方式本身掩盖了真实的水平。我也常说,最重要的是要实事求是,哪怕产品的准确率必然不高,其实不丢人,非常正常,哪个benchmark 榜单不是慢慢靠大家一起努力刷起来的?

 

承认问题而不是一味浮夸宣传,本身这正说明还有很大的进步空间,这是好事儿。当然了,尽管问题很多,精度不好,使用起来会有各种问题,但我觉得将来随着推理模型test-time scaling的不断迭代,尤其是多模态推理模型的进化,总有一天会取得很高的准确率。

 

所以Manus就是典型的本应该在2025年诞生于咱们国内的一款AI Agent产品,当然传播手段稍显特别,通过英文网站和英文介绍,然后出口转内销式的营销传播模式,被广大群众熟知。


没有评论:

发表评论

小技巧2 :alpha阿尔法速刷效率

01.今天早上醒得早,心里有事 昨天一位老大哥鼓励我坚持写下去 说真的,我这人三分钟热度,没有输入,就没有输出,觉得自己没有文字功底,有点半途而废。但好大哥说了,文采不重要,重要的是写出自己的心声经历,坚持输出才是最重要的,写的多了,文字功底自然而然会提升。 02.昨晚朋友发...