数字货币: Manus爆火，是噱头，还是大牛?

2025年3月9日星期日

Manus作为AI Agent产品，这两天刷爆了大家的朋友圈。但Manus爆火，到底是噱头，还是大牛?

Manus能被迅速炒作爆火起来，一个很大的原因，是所对标OpenAI发布的AI Agent产品，并没有开放免费使用，而且订阅价格比较贵，所以这类产品并不为大众所熟悉。

于是相对于对话式大模型能被普通人广泛接触并日常使用，而大家对AI Agent产品并没有多少概念和使用体验，所以很容易被大量推广和新闻标题误导。

（注：上述manus工作原理图，引用自宝玉老师）

实际上短期内AI Agent能力肯定还是很有限，需要不断迭代。毕竟就连OpenAI在今年一月份发布的AI agent 产品Operator，在OSWorld Benchmark上准确率最高才38%，人家发布宣传片的时候当场承认，仍需要大量改进和完善，以至于现在页面介绍上的原话仍是说在早期研究阶段。

所以，现在AI Agent产品宣传的时候，最好能悠着点。

这是OpenAI 发布的AI Agent 产品Operator的技术报告，尽管可以看出来Test-time scaling在agent上效果非常明显，从结果上看，100步在OSWorld benchmark上准确率能到36.4%了，

但是别忘了，这就基本才到人类准确率的一半（72.4%）。

具体来说，OpenAI 的Operator有如下局限性，影响作为AI Agent的使用性能：

一是在多模态感知与操作层面，可能因GUI特征提取错误，从而误识别屏幕上的按钮、文本框等等，很容易导致操作失误。

特别是在数值精度问题上，AI Agent在需要精确输入数值时（如调整图像亮度、对比度）容易出错。

同时，在具体特定场景的操作时，AI Agent因为训练数据受限，大概率会经常缺乏合适的对应操作知识，导致直接失败。

二是在任务执行与适应性方面，尽管基于强化学习后训练的reasoning model 快速发展，但仍会有复杂任务规划困难问题，很多日常操作很容易超出其能力范围。

不同具体使用条件千差万别，out of distribution 出现概率极大，所以AI Agent的适应性和泛化性还有待提高。

另外不得不提的是大模型信息污染问题，直接让DeepSeek 生成了错误的结果，这还不算幻觉hallucination的问题。于是真正的AI Agent联网检索效果往往不好，很难从复杂网站或文档中准确提取所需信息，就像我在这篇文章中提到的那样：

上面这些局限性在当时阶段直接制约了AI Agent在日常真实场景中的使用。

接下来，我们再看OpenAI 的另一个著名的AI Agent 产品 DeepResearch，可以用推理来综合大量在线信息，并能完成多步骤研究任务。

DeepResearch在 HLE（Humanity's Last Exam）上准确率也才到了 26.6%，但是这已经能明显领先其他模型了，毕竟 o3-mini high 才 13% 的准确率。

当然，尽管准确率都不高，我们还是看到了趋势，在openai内部Expert-Level Tasks的测试上，测试曲线也明显看到了 test-time scaling：

"模型浏览和思考它所浏览的内容越多，它的表现就越好，这就是为什么给它时间思考很重要。"

从这个趋势来看，随着将来推理模型的快速发展，将来这些AI Agent系统以普遍采用带有Chain of Thought的推理模型作为基础模型，未来将迎来更多的爆发机会。不过很显然，短期内的实用性上看起来还总是困难重重。

所以发布AI Agent产品，最重要的是要实事求是，准确率必然不高，但其实不丢人，这正说明还有很大的进步空间，一定要避免浮夸风。

不过尽管道路崎岖坎坷，问题很多，但我觉得将来随着推理模型的不断迭代，尤其是多模态推理模型的进化，总有一天会取得很高的准确率，但如果现在吹得太过了，很容易名不副实。

数字货币