差不多得了,当然并没有你期待和从各种自媒体上宣传的那么牛,只是一款非常普通的AI Agent产品而已罢了。
现在热度其实已经几乎下降很多了,正好验证了我之前评价大模型的时候经常说的,大模型时代,一款产品到底如何,护城河到底有没有,护城河的水有多深,城墙有多高,从来都不是推广营销费用多少,也不是找到了多少家媒体转载,更不是找了多少大V写软文。
而是实打实技术驱动带来的用户体验决定的。很多大模型和基于大模型开发的 AI agent 产品这场竞赛,最终比拼的还是模型和产品实力,经过一段时间后能真正取得了多少用户,而不是花多少钱做了推广,用户不傻。
其实年初以来的Deepseek大模型就是最好的证明。DeepSeek 直接免费让全世界用户用上了o1级别的推理模型,让很多之前对大模型不太熟悉或者不太认可的人,第一次感受到了推理模型的魅力。用户们看着CoT推理过程,感受到test time scaling生成的高质量结果,大概率是会认可DeepSeek这种世界级sota模型的能力。
相比之下,Manus之所以能火起来,主要原因跟技术无关。而是Manus 所对标的OpenAI AI Agent 产品,发布后固然能给人眼前一亮的感觉,但是很遗憾,订阅价格实在太贵了,并没有开放免费使用,所以这类产品并不为大众所熟悉。于是相对于对话式大模型能被普通人广泛接触并日常使用,而大家对AI Agent产品并没有多少概念和使用体验,所以很容易被大量推广和新闻标题误导。
Manus 的真正能力上限,正是对标的OpenAI 公司的 AI Agent 产品所决定的。我们以 Operator,——这个非常典型的 CUA(Computer-Using Agent)——为例,从 Technical Report上就可以看出来尽管Test-time scaling在agent上效果非常明显,在OSWorld benchmark上,可以经过 100 步的 test time 推理,使得准确率达到36.4%了。
但是这个准确率其实不高,特别是对于一个面向 GUI 的 AI Agent 来说,人类准确率大概是72.4%,这相当于两倍的 Operator 的准确率。哪怕这个准确率,已经是 OpenAI 公司最先进 AI Agent 所能达到的水平了。
这也是为什么 OpenAI 会在官网上坚持声称 Operator仍是一款需要大量改进和完善的产品,仍是在早期研究阶段。实际上短期内AI Agent能力肯定还是很有限,需要不断迭代。在任务执行与适应性方面,尽管基于强化学习后训练的reasoning model发展迅速,但仍面临复杂任务规划的困难,许多日常操作往往超出其能力范围。由于具体使用条件千差万别,out of distribution的情况极易出现,因此AI Agent的适应性和泛化性仍需进一步提升。在多模态感知与操作层面,AI Agent可能因GUI特征提取错误而误识别屏幕上的按钮、文本框等元素,导致操作失误,尤其在需要精确输入数值的场景(如调整图像亮度、对比度)中更容易出错。
此外,由于训练数据training datasets的局限性和限制,AI Agent在特定场景下往往缺乏相应的操作知识,从而导致直接失败。还要再加上,大模型联网搜索时的信息污染问题也不容忽视,这会导致如DeepSeek等大模型生成错误结果,同时还需面对大模型生成过程中固有的幻觉(hallucination)问题。这些局限性在当前阶段直接制约了AI Agent在日常真实场景中的使用。
毕竟这个准确率的 AI Agent 不会给用户多少耐心来试错,几次不能得出正确结果后,往往只会被用户当成一个玩具,简单体验一下,后面就很少使用了。
当然了,尽管现在这类AI Agent产品,在实际使用场景中的准确率并不高,但正如我之前一直预测的那样,2025年本来就会是开启AI Agent产品百花齐放、百家争鸣的时代,随着基于推理模型为基座模型的 AI agent 不断发展进步,将来必然会被越来越多的普通用户所熟知和使用,所以,这方面的人才需求量,有很大概率是不断增加的,能在这个趋势中掌握大模型及应用开发的相关知识,是非常关键的。
正好啊,推荐大家趁此机会,去学习一下知乎知学堂推出了这个大模型应用开发公开课程,里面会对大模型相关的基础知识进行非常详细和全面地讲解,同时,也有利于大家学习和理解AI Agent产品的应用开发技术。课程链接如下:
如果学习了这个课程,对于掌握咱们这篇文章中分析的Manus等这类AI Agent产品的开发知识,肯定会有所裨益的。
还有一个侧面来证明 Manus 没有任何护城河,就是看复刻的难度,Manus这类项目没有任何护城河,如果一款 AI Agent 产品因为自身并没有独立的SOTA多模态基座模型,也没有强大的推理模型,所以被复刻是很容易的。
所以我们可以看到迅速出现OpenManus和OWL 等复刻项目,而且可以预见,接下来会更多,比如 OpenManus 项目后面又后续更新了OpenManus-RL,我看Github上stars数量还挺多的。总得来说,2025 年大概率是 AI Agent 的爆发之年,让我们拭目以待。 |
|