2025年3月13日星期四

OpenAI 推出多国可用 AI Agent 智能体产品Operator,会带来多大影响和变化?

压根就掀不起太大的波澜,因为现在的AI Agent CUA(Computer-Using Agent)太难用,但是随着进一步推广,势必有很多类似竞品和开源项目,像雨后春笋一样出现,百花齐放百家争鸣,说不定随着不断迭代,能要演化出准确率越来越高,越来越好用的AI Agent,就像OpenAI的Kevin Weil 所说,"2025 年将是 AI Agent的元年"。



——至于将来不断演化迭代的形态,其实知乎上崔思莫说得很好,未来能成功的产品,大概率不一定再是现在的AI Agent framework,比如前几天营销比较火热的Manus:



OpenAI的Operator产品本质就是基于多模态大模型(当然他们发布的时候,用的还是GPT4o),用思维链CoT做推理reasoning任务,下面这张图很直白。

这款发布的AI agent主要应用场景是面向GUI,其实面向GUI的agent paper有很多了,去年各大厂也都有专门的组在做。上面的framework已经是很常规的了,主要分成perception reasoning action三部分。


perception就是截图作为视觉信息,然后用多模态模型来理解;reasoning过程的训练用了reinforcement learning,用step-by-step慢推理的方式;action就是模仿人类鼠标操作。


就像我在这篇深度分析文章中提到的,实际上短期内AI Agent能力肯定还是很有限,需要不断迭代。


深度分析:Manus爆火后恢复冷静,AI 智能体还是一地鸡毛?


我们继续深入分析一下OpenAI 的AI Agent 产品Operator技术报告,尽管可以看出来Test-time scaling在agent上效果非常明显,从结果上看,100步在OSWorld benchmark上准确率能到36.4%了,但是别忘了,这就基本才到人类准确率的一半(72.4%)。



具体来说,OpenAI 的Operator有如下局限性,影响作为AI Agent的使用性能:


一是在多模态感知与操作层面,可能因GUI特征提取错误,从而误识别屏幕上的按钮、文本框等等,很容易导致操作失误。特别是在数值精度问题上,AI Agent在需要精确输入数值时(如调整图像亮度、对比度)容易出错。同时,在具体特定场景的操作时,AI Agent因为训练数据受限,大概率会经常缺乏合适的对应操作知识,导致直接失败。


二是在任务执行与适应性方面,尽管基于强化学习后训练的reasoning model 快速发展,但仍会有复杂任务规划困难问题,很多日常操作很容易超出其能力范围。不同具体使用条件千差万别,out of distribution 出现概率极大,所以AI Agent的适应性和泛化性还有待提高。


另外不得不提的是大模型联网搜索的信息污染问题,会直接让DeepSeek等生成了错误的结果,还要再加上大模型生成过程中,本身幻觉hallucination的问题。于是真正的AI Agent联网检索效果往往不好,很难从复杂网站或文档中准确提取所需信息


上面这些局限性在当前阶段直接制约了AI Agent在日常真实场景中的使用。


所以从趋势上来看,随着将来推理模型test-time scaling的爆发和多模态基座模型的进步,将来这些AI Agent系统会不断迭代。但显然短期内的实用性上看起来还总是困难重重。


没有评论:

发表评论