很遗憾,没有任何影响。
原因很简单,Manus这类AI Agent产品本身并没有任何创新之处,而且并没有自己的独立基座推理模型和多模态模型,只是吃了一波信息差,在OpenAI等公司的AI Agent并没有让国内用户们所熟知的时候,靠一大波强势的自媒体刷屏式的推广营销和大量写文宣传造势,才被国内很多不太熟悉类似AI Agent产品的用户们接触到,以为会给世界带来巨大影响甚至要改变世界,实则不然。
Manus这类AI Agent的原理其实很类似,我之前也介绍过,整个AI Agent的处理流程从任务规划器开始,首先依据用户输入的查询 prompt 进行解析。任务规划器可能使用 Claude 3.5 Sonnet,——后面升级到3.7——,依托其强大的语言理解和推理能力,将较为复杂的用户请求拆解为一系列可执行的子任务。
一般来说,这些子任务通常已经非常细化,以至于到了可以直接执行的程度,随后被组织成一个待执行列表中,即Todo List,这样方便为后续的执行环节提供比较清晰的指引。
然后到了任务执行调度器,这部分根据猜测,Manus可能基于微调的 Qwen 模型,负责将这些子任务分配给相应的专用 Agents。Qwen 模型在任务分配过程中确保任务与执行 Agent 之间的最佳匹配。然后这些拆分之后的专用 Agents,通常运行在 Linux 虚拟机上,虚拟机预装了 Chrome 浏览器和 Python 环境,以支持多种任务类型的执行。
于是,经过拆分之后的每个 Agent,都会侧重于特定类别的任务,比如网页浏览 Agent、数据分析 Agent、代码执行 Agent、文本生成 Agent 等,当然了,未来还可进一步扩展。
任务完成后,最终由任务汇总生成器,这部分可能仍然依赖 Claude模型,整合所有执行结果,生成结构化的最终输出,可能包括文本报告,或者图表,或者Python 代码等等。
整个流程pipeline已经是非常常规的路线了。
只不过真正能使用并客观评价Manus的用户不多,哪怕到了现在,到了今天,能真正体验Manus产品的用户仍然少之又少,还是只能从媒体里从各种营销文章中了解,被动地接受。
同时,更要命的是,诸如OpenAI和Google等的类似的AI Agent产品,并没有被国内普通用户所使用和熟悉。这类产品并不对国内用户开放使用。
所以Manus能迅速在国内大火,一方面是国外的这些AI Agent产品对国内用户不太方便使用,再加上特别是所对标的OpenAI所发布的AI Agent 产品,发布后订阅价格太贵,并不为大众所熟悉,有一个很大的信息差。
另一方面,这些AI Agent产品本身也正面临执行精度有待提高,很多产品仍需要大量的Test-time scaling 来执行足够的步数。比如OpenAI的AI Agent Operator 产品报告中,我们可以很明显从benchmark测试结果中,看出来,100步在OSWorld benchmark上准确率也就能到36.4%了,这就基本才到人类准确率72.4%的一半而已。此外,OpenAI 的另一个著名的AI Agent 产品,即Deep Research可以用推理来综合大量在线信息,并能完成多步骤研究任务,生成研究报告。但是Deep Research在Humanity's Last Exam这个benchmark的测试结果上,可以看出来准确率也才到了 26.6% (o3-mini high 才13% )。
有很多局限性可能会直接影响作为AI Agent的使用性能,比如在多模态感知与操作层面,可能因GUI特征提取错误,从而误识别屏幕上的按钮和文本框等等,很容易导致操作失误,特别是在数值精度问题上容易出错。在具体特定场景的操作时,AI Agent因为训练数据受限,大概率会经常缺乏合适的对应操作知识,OOD直接导致任务执行失败。尽管基于强化学习后训练的reasoning model 快速发展,但仍会有复杂任务规划困难问题,很多日常操作很容易超出其能力范围,AI Agent的适应性和泛化性还有待提高。
我在年初的时候,已经预测过,今年大概率是AI Agent的集中爆发年,原因很简单,从24年下半年OpenAI 率先推出o1系列推理模型以来,各种推理模型比如DeepSeek R1系列等逐步追上OpenAI的步伐,inference-time scaling已经被证明是行之有效的路子,随着优秀推理模型相继被推出,以此为基座模型的各种AI Agent也会迎来指数爆发年。
将来随着推理模型能力提升,用推理模型作为基座模型的agent必然会继续有性能上的飞跃。OpenAI 的 产品负责人 Kevin Weil在发布全新 Agent 开发工具时,所说的“2025 年将是 AI Agent的元年”,跟我上述2025 年初所做的判断,是一致的。
所以,显然这并不是Manus带来的影响,相反,Manus本身只是这个时代下普通的一款营销网红产品而已。 |
|