如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?

据团队介绍,「Manus」是一个真正自主的 AI 代理,能够解决各类复杂多变的任务。与传统 AI 助手不同,Manus 不仅能提供建议或答案,还能直接交付完整的任务成果。

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-1.jpg


正如「Manus」的名字寓意,它在拉丁文里象征着「手」。也就是说,知识不仅要在脑子里,还要能用手执行。这正是 Agent 和 AI Bot(聊天机器人)产品的本质进阶。
Manus 牛在哪里?最直观的是看官方网站展示、以及用户自发展示的使用用例,极客公园部分整理如下:

    旅行规划:不仅整合旅行信息,还为用户创建定制旅行手册。例如,为用户规划日本四月旅行,提供个性化的旅行建议和详细手册。股票分析:进行深入的股票分析,设计视觉上吸引人的仪表盘展示全面的股票洞察。例如,对特斯拉股票进行深度分析,创建可视化仪表盘。教育内容创建:为中学教师创建视频演示材料,解释动量定理等复杂概念,帮助教师更有效地教学。保险政策比较:创建清晰的保险政策比较表,提供最佳决策建议,帮助用户选择最适合的保险产品。供应商采购:在整个网络中进行深入研究,找到最适合用户需求的供应商,作为真正公平的代理为用户服务。财务报告分析:通过研究和数据分析捕捉市场对特定公司(如亚马逊)的情绪变化,提供过去四个季度的市场情绪分析。创业公司列表整理:访问相关网站识别符合条件的公司,并将其整理成表格。例如,整理 YC W25 批次的所有 B2B 公司列表。在线商店运营分析:分析亚马逊商店销售数据,提供可操作的洞察、详细可视化和定制策略,帮助提升销售业绩。

当 Agent 通过一长串思维链和工具调用,最终输出一个无比完整、专业的结果时,用户们开始感叹「真的能帮人类做事了」。
根据官方网站信息,在 GAIA 基准测试(评估通用 AI 助手解决真实世界问题的能力)中,Manus 在所有三个难度级别上都取得了新的最先进 (SOTA) 表现。
总结成一句话——Manus 更想做的,是你在数字世界中,字面意义上的「代理人」。而它做到了。
就像你想的一样,凌晨推出的 Manus,一下子把所有 AI 圈的人都炸醒了!
收藏者
0
被浏览
40

8 个回答

厍康复 LV

发表于 2025-3-31 12:01:02

最新消息,就在刚刚,Manus AI的官方X账号已被平台冻结。


如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-1.jpg


不过就在此时,开源界以迅雷不及掩耳之势上演了一波速度与激情——有这样一个项目,仅凭三小时的代码量,就掀翻了AI的高墙。
昨天晚上,GitHub开源了一个无需邀请码的OpenManus项目,刚刚开源不到一天,Star数就已经破千。


如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-2.jpg


项目地址:https://github.com/mannaandpoem/OpenManus
现在,所有开发者都可以实测了。
其中最亮眼的,莫过于这句「只需修改config.toml即可开玩」,直接对封闭生态公开打脸。
创建环境,克隆项目并CD到目录,改一下config/config.toml里的大模型信息,再输入一行命令,就可以愉快地在terminal里体验了。
conda create -n open_manus python=3.12

conda activate open_manus




git clone https://github.com/mannaandpoem/OpenManus.git

cd OpenManus




pip install -r requirements.txt




cp config/config.example.toml config/config.toml




# Global LLM configuration

[llm]

model = "gpt-4o"

base_url = "https://api.openai.com/v1"

api_key = "sk-..."  # Replace with your actual API key

max_tokens = 4096

temperature = 0.0




# Optional configuration for specific LLM models

[llm.vision]

model = "gpt-4o"base_url = "https://api.openai.com/v1"api_key = "sk-..."  # Replace with your actual API key




python main.py开源界3小时复刻Manus,跟邀请码说再见

来自国内的这支团队宣布:晚餐后2小时,OpenManus的核心功能直接开源!
没有邀请码,没有壁垒,这支团队用3小时的代码量,就把邀请码机制扫进历史垃圾堆,跟饥饿营销彻底说拜拜!
OpenMunus的作者均为MetaGPT的核心贡献者。


如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-3.jpg


OpenManus的实现很简单,使用到了computer use、基本的智能体和规划。
就像在Manus中那样,任何人都可以使用OpenManus,把自己的想法变为现实。
无论在手机上还是OS上,如果想做Deep Research,只要提交你的问题,它就可以帮你实现了。


如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-4.jpg


比如,我们可以给OpenManus这样一个任务:「对Karpathy的网站(https://karpathy.ai/)进行全面的SEO审核,并提供详细的优化报告,包括可执行的改进建议。」
OpenManus会展开思考,将自己的任务分解为如下几步。
首先,检查网站并收集基本信息
然后,分析关键的SEO要素
第三,检查技术性SEO方面的问题
最后,整理优化建议
明确任务细节后,OpenManus就打开Karpthy的网站,开始收集信息、展开详细分析。
整个思考过程,每一步都清晰可见。

,时长02:13
最终,它生成了一份完整、详实的Karpathy个人网站优化报告。
其中,它提出的高优先级任务如下:Meta标签优化(如优化页面标题,使其包含相关关键词)、技术设置(如创建并提交XML站点地图)、内容优化(如为所有图片添加alt文本、在个人网站上实施Schema标记等)。


如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-5.jpg


OpenManus的核心,就是一个革命性的模块化Agent系统,由高度智能的专业团队,组成了一个协作网络。

  • Manus主代理:项目经理,能理解用户需求,协调各个专业团队的工作。
  • PlanningAgent:战略专家,将复杂的任务分解为清晰可执行的步骤。
  • ToolCallAgent:技术专家,掌握各种强大工具的使用方法。
由此,开发者可以根据自身需要,自由组合不同的功能模块,创造出自己独有的AI助手。
OpenManus无缝集成了包括Claude 3.5、Qwen VL Plus在内的多个顶级大模型,开发者能充分利用各个模型的优势。
为何只用短短3小时,团队就能打破Manus的高墙垄断?
原因就在于,OpenManus其实源于MetaGPT的开源积累。
我们只是把浏览器工具链嫁接到过去代码上,配合沉淀的Agent工具包,核心系统1小时就完成了。
OpenManus的另一强大功能,就是它的实时反馈机制。
LLM思维链的过程,会被可视化地呈现出来。无论是任务执行进度的实时更新、思考过程日志、文件的即时通知等,都随时可见。
此外,OpenManus还配备了一套强大的工具链,能处理各种复杂任务。

  • Python代码执行器:实时生成和执行代码
  • 网络搜索工具:自动获取和分析网络信息
  • 浏览器自动化:模拟人类操作进行网页交互
  • 文件处理系统:自动生成和管理各类文档
其中,这些工具都不是简单的独立模块,而是被精心设计的协同系统,在处理任务时能默契配合,高效完成任务。
实测生成一份关于Manus的报告

问题来了:OpenManus能成为Manus的平替吗?
OpenManus的开发者HKUST(GZ)博士生Jiayi Zhang上传了一段实测视频。
视频中他给出了这样一段提示:
深度调研和Manus这个Agent有关的信息,自己整理信息,然后写一个新闻html页面介绍它,你写的html应该尽可能美观。
接着OpenManus就开始干活了。它将这个任务分步进行,首先使用GoogleSearch搜索Manus Agent的相关信息。
在这个过程中还不断打出思考过程:「好的,让我们继续深入调研Manus,我会逐步访问搜索到的重要链接,收集信息,然后创建一个精美的HTML网页。」
它开始不断调用工具「browser_use」,访问不同的文章来搜集信息。


如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-6.jpg


整理完信息,OpenManus再次输出:「现在让我们使用正确的完整路径来打开HTML文件:」渲染完后,它就给出了网页的链接。
打开后可以看到完整的报告。然而,OpenManus的能力还不止于此,在视频中,它被人要求继续完善这个页面,添加更多具体的技术细节和实际应用案例。
接着它就又开始调用起「google_search」以及「browser_use」这些工具,很快就重新给出了一个新的页面网址。
可以看出,OpenManus给出的这份关于Manus的报告,包括了Manus的诞生与发展、技术架构与创新以及实际应用案例与未来展望等。
虽然这份报告的结构看上去比较完整,但是细节还是有点乏善可陈。


如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-7.jpg


Browser-use:让智能体直接操作浏览器

在OpenManus项目中,很重要的一项功能就是Browser-use。
Browser-use是一种使AI智能体能够操作浏览器的简单方式。它在GitHub上开源,许多项目都使用了它的功能,目前已经获得有超过35.8k个星星了。


如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-8.jpg


项目地址:https://github.com/browser-use/browser-use
它通过提取网站的交互元素(如按钮、表单等),使AI能够自动化执行浏览器操作,例如填写表单、搜索信息或导航网页。这对于开发AI驱动的网络代理非常有用。
比如,它可以将商品添加到你的购物车,并完成结账。


如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-9.jpg


甚至是阅读你的简历,然后帮你找工作!中途如果有需要,还会遵从你的指示。


如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-10.jpg


作者团队

OpenManus的作者团队,此前就凭MetaGPT受到大量关注。
MetaGPT是一款开源的AI智能体框架,将多个AI模型整合在一起,模仿现实世界公司的运作,在模拟软件开发流程方面表现出色。
当时一经开源,MetaGPT就火爆全网,如今在GitHub上已经收获了49.1k stars。
向劲宇

向劲宇,研究方向为LLM智能体,强化学习和NLP,曾获得阿里巴巴数学竞赛AI赛道全球第二名。此前,他在西南交通大学获得学士学位。
于兆洋



如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-11.jpg


于兆洋,研究方向是LLM智能体及其推理,此前在中国人民大学高瓴人工智能学院获得学士学位。
张佳钇



如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-12.jpg


张佳钇,香港科技大学(广州) 的博士生。研究兴趣是LLM智能体,尤其关注其推理能力以及适应多种环境的智能体构建范式。此前,他在中国人民大学信息学院获得学士学位。
洪思睿


如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-13.jpg


洪思睿,研究兴趣是LLM、NLP和多智能体系统。此前在暨南大学获得学士学位,在香港科技大学获得硕士学位。
One More Thing:0天复刻Manus,OWL完全开源

不仅如此,另一个来自CAMEL AI团队的0天复刻Manus通用智能体,也被开源了。
这个名为OWL的项目,直接干到开源界GAIA的性能天花板,达到57.7%,超越Hugging Face提出的Open Deep Research 55.15%的表现。


如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-14.jpg


项目地址:https://github.com/camel-ai/owl
简单来说,OWL是一个顶尖的多智能体协作框架,致力于突破任务自动化的界限。
在GAIA基准测试中,OWL取得了58.18的平均分,并在开源框架中排名第一。
在这个任务中,OWL智能体非常丝滑地完成了任务:调研总结GitHub仓库里都有什么。


如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-15.jpg


另外,它还能自动帮我们查找今天在伦敦有什么电影。


如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-16.jpg


在这个过程中,CAMEL AI对Manus的技术路线做了一波逆向工程,启动了深度复刻计划。
首先,是把Manus的核心工作流拆成6步。

  • 启动一个Ubuntu容器(Agent远程工位就位)
  • 知识召回(把之前学过的内容捡起来用)
  • 连接数据源(数据库、网盘、云存储全覆盖)
  • 把数据挂载到Ubuntu(Agent的搬砖时刻)
  • 自动生成todo.md(规划任务+写待办清单)
  • Ubuntu工具链+外接工具组合拳,执行全流程任务
然后,所有Manus里智能体用到的操作,团队都会给OWL配齐。
启动一个Ubuntu容器,OWL就能随时随地远程办公了。
在项目描述中, 团队表达了对AI智能体的愿景:
我们的愿景是彻底改变AI智能体协作解决现实世界任务的方式。

通过利用动态的智能体交互,OWL能够在多个领域中实现更自然、高效和稳健的任务自动化。
相信我们还将不断见证各类复现项目,打破「邀请码」的垄断。

蔓你是谁 LV

发表于 2025-3-31 12:13:12

我建议现在这个阶段做 Agent 尽量别往“通用型”这个方向去靠,虽然说这样看上去可能更唬人,但难度多的可不是一星半点,意味着要考虑更多的要求,各种的 corner cases,在实际落地中,这是一件几乎做不到的事情。
什么都想做,最后只会害了自己。
1、原因无他,目前大模型还没有这个能力。作为LLM驱动的AI自动化工具,Agent 的能力还是取决于其所依赖的大模型的基础能力,虽然说工具调用、上下文管理等一些工程优化方法会弥补大模型自身的不足,但做的也都是锦上添花的事。在大模型通用能力就很受限的情况下,想让Agent做到无所不能,面面俱到,就好比在沙土地上建高楼,地基不稳,风险极高。

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-1.jpg

其实更严格来说,Agent是能够持续自主地发挥作用的系统,比较强调跟环境的交互,它能够感知环境,根据感知到的信息和自身的内部状态做出决策,然后采取相应的行动,实现指定的目标。
但是现在Agent这个概念已经被各种滥用了,很多时候就是一个LLM-based的自动化工作流,但也说自己是Agent。
即使这样,Agent的实际能力也非常有限,因为本质还是LLM能力的延伸,LLM固有的缺陷,比如幻觉、通用知识推理(超出训练数据分布的)和长程依赖,Agent同样要面对,目前没有有效的解决办法。
2、我对现在的 AI Agent 产品的看法是它应该服务于领域内人群,成为人能力的放大器,而不是用它做突破自己领域的任务。
所以 AI Agent 的定位应该是“专家知识+限定场景”的垂直领域工具。明确就是给什么领域的人用的,能解决实际问题,并且用它的人有能力评估给出的结果质量如何,是不是可靠,这样产品才有落地价值,也是用户和市场想要的。
目前只有coding agent能满足这一点,因为任务的明确的,最后给出的代码是不是work的,一测试便知,程序员对代码的整体质量也能做基本的判断,如果需要提高,知道从什么地方去改进。

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-2.jpg


windsurf:人和AI的协同性

可如果是任务目标本身不够明确,结果也很难验证的场景,在实际中上面的要求就很难满足,比如做个市场报告,做一份ppt,这些场景下大模型一般都是根据自身知识+联网搜索(或RAG),作为用户来说,如何确定它查找的资料完不完整,如果漏掉了某些关键数据,你是没法验证的,除非你自己再去查找一遍,但这就又失去了用agent的意义了。
在这些没有确定性的指标去衡量AI完成得如何的场景中,agent很难成为一个有实际落地价值的工具,使用起来也很有风险。
3、所以还是那句话,现阶段做一个稳定可靠的“通用型”Agent可能是一件很不切实际的事情。
从产品开发的角度,这样做也分散了很多资源,要让 Agent 在多种任务场景中稳定可靠地工作,需要考虑的cases的数量将会呈指数级增长,如果团队规模不是足够大,挺难的。
“大而全”不如“小而精”。
Mannus 的情况从现在掌握到的信息来看,效果部分都是官方提供的演示案例,还没有看到有真实的用户反馈,所以实际效果怎么样,还得需要更多的测试和时间来验证。
会成为爆款吗?我认为不太可能。

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-3.jpg

雪落 LV

发表于 2025-3-31 12:26:10

Update:Peak 刚给我发了邀请码,我自己测试了几个例子更新到了文章最后!
总体来说,我觉得 Manus 是一个 idea 很好,但工程上还有很多打磨提升空间的产品。
关键创新:具备计算思维的 Agent

好多人都觉得它就是个更好的 computer use,其实第一眼我就发现一个根本区别:OpenAI Operator、Anthropic Computer Use 都是模仿普通人,而 Manus 是在模仿极客程序员。
OpenAI Operator / Deep Research 和 Anthropic Computer Use 打开的都是浏览器、桌面 GUI 和移动端 App,最后交付的结果是一段文字(最多带点 Markdown 格式)。而 Manus 一上来打开的是一个命令行终端,在里面用文本编辑器写了个 todo list,干活的过程中不断写代码做自动化,最后的交付件(Artifact)也是一段代码(交互式网页和图表)。
这让我一下子想到了 Jeannette Wing(周以真)博士在 MSR 给我们讲的 Computational Thinking(计算思维)。计算思维就是把日常生活和工作中的问题抽象化,然后用系统化的逻辑推理和自动化工具解决。我在科大期间也把计算思维介绍给了很多师弟师妹。

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-1.jpg


如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-2.jpg


如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-3.jpg

我认为,计算思维分为两大方面:一是系统化的逻辑推理,二是使用计算机编程工具自动化解决问题。目前的 reasoning model 基本学会了系统化的逻辑推理,这已经比很多普通人强了,但正如我经常诟病的,o1/R1 还不会使用自动化工具,遇到复杂推理问题永远想不到写一段代码来解决。
Manus 就像一个极客程序员一样,用计算思维解决生活和工作中的问题。
做公司基本面分析的时候,Manus 会首先打开终端列一个 Todo List,然后写一段 Python 调用股票查询接口获取股价,再写一段 Python 生成图表,而不是像大多数人一样从网页上粘贴数据到 Excel 里。每完成一个阶段的任务,它会打开终端里的 Todo List,更新下一步要做的事项。最后,它会写一个 HTML 页面展示分析结果,而不是像大多数人那样打开 Word 写一大篇文字。

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-4.jpg


首先生成 TODO list

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-5.jpg


写代码获取股价列表

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-6.jpg


运行代码生成图表

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-7.jpg


根据任务进度,继续修改 TODO list

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-8.jpg


最终交付的是一段代码,展示出一个 HTML 页面,而不是一段文本

做 7 天日本游的行程规划时,它会把收集下来的信息整理到 Markdown 里,然后生成一个图文并茂还带地图的 handbook。

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-9.jpg


把收集来的信息放到 markdown 里

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-10.jpg


像人一样滚动网页

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-11.jpg


生成的交付件:带地图的日本旅行网页 Handbook

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-12.jpg


生成的交付件:日本旅行的网页 Handbook

这些都是像我这样的极客才能干出来的事(例如 Mathematica 作者 Stephen Wolfram 的 blog 就是个典范),有时甚至成了程序员笑话。
不过有一点设计我不太理解,Manus 浏览网页是纯视觉的方案,一屏一屏向下滚动,确实最通用,但信息获取效率相对较低。
尽管 Manus 并不是万能的,但我觉得让 Agent 具备计算思维是一个重要的创新,至今竟然没有看到有人提到这一点。
网上看到很多关于 Manus 的分析,我觉得我的师兄鸭哥的这篇是最好的,也推荐大家读读: Manus爆火的背后,Agentic AI产品如何构筑持久的竞争优势?
工程上的不足

虽然 Manus 模仿一个程序员用电脑的 idea 很好,但由于基础模型能力限制,目前 Manus 在很多任务的执行结果方面,仍然不如 SOTA 专项 Agent。例如在调研报告写作方面,报告的深度和专业性不如 OpenAI Deep Research。在工程代码编写方面,不如 Devin 和 OpenHands。
在进入下面的细节例子之前,先上几个技术分析结论:

  • Manus 相比 OpenAI Deep Research,缺少一个澄清用户意图的过程。Deep Research 在用户提出问题后,会首先问用户几个问题,进一步澄清用户意图,这样写出的调研报告可能更符合用户的需求。(Update Peak 回复:不上来后反问或确认是 by design,因为用多了你会发现很烦,不方便并行。Manus 可以随时打断或改目标,看着不对说就行了。如果你喜欢精确确认再干活,直觉开个 session,说:“记住以后开始干活前仔细向我询问要求,经确认再干活” 之类的。)
  • Manus 所用的模型不如 OpenAI Deep Research。OpenAI 很可能是在 o3-mini 基础上做了后训练(后训练后的版本没有公开 API),通过 RL 让它在 Deep Research Agent 工具选取方面比通用基础模型更强。例如自己调用 o3-mini 或 Claude 3.7 Sonnet Thinking 模型,生成的调研报告深度、调研的数据源质量不如 OpenAI Deep Research。
  • Manus 在 context 管理方面有待加强,执行时间越长,每一步就越慢,甚至半个小时之后会超出 context length 而导致任务失败,不管是调研报告写作还是工程代码编写都是如此。
  • Manus 所用搜索 API 的质量不如 OpenAI Deep Research,Deep Research 经常搜索到一些高质量信源的深度文章(也可能是 Deep Research 做了 reranking,prioritize 高质量信源),而 Manus 搜索到的往往是大众媒体的报道。
  • Manus 所有网页都用纯视觉方式浏览的方式效率较低。用浏览器截图,滚动鼠标的做法看起来很酷炫,很适合做 demo,但是对大多数网站而言,纯视觉方案的延迟较高,输入信息密度较低。Manus 的操作方式更类似 OpenAI Operator,可以操作通用 UI 界面,但它主打的应用场景中又有很多是 Deep Research 生成调研报告,此时传统爬虫方案效率可能较高。如果是要完成网站上的注册登录等操作,或者帮助人浏览商品、填表、玩小游戏,Manus 的方案可能比较好。
  • Manus 目前并不能把搜集来的信息组成一个便于 RAG 查询的知识库。它用文本方式存储搜集来的信息或者代码分析结果,确实很像程序员的工作方式,但这是上一代的程序员,并未充分利用 AI 技术。更好的方法是把搜集来的信息或者代码分析结果放进 RAG 知识库,后续任务的上下文中就可以自动带出来。这个问题在代码编写中比较显著,Devin、Cursor Composer Agent 等编程工具需要找到合适的相关代码作为上下文,而不是把整个代码仓库作为上下文(太大放不进去),这是非常重要的。
  • Manus 生成代码后缺少测试,代码中的错误不会被发现。生成可视化图表后,Manus 并未使用 Vision LLM 校验生成的内容,导致很多图表渲染失败,但没有被发现。
  • Manus 需要降低或隐藏 LLM 调用延迟。OpenAI Deep Research 和 Operator 都在 LLM 调用延迟上做了很多优化,因此单步操作延迟较低。而 Manus 的单步操作延迟较高。类似的,Cursor 在 LLM 调用延迟隐藏方面也做了大量优化,因此同样的 Agent 任务,Cursor 往往比 Windsurf、Cline、Trae 等 IDE 更快完成任务。
  • Manus 需要增加 infra 稳定性和并发服务能力。这就不用多说了,邀请码一码难求,session 经常执行到一半就因为系统负载过高而失败了。
以下是几个例子:
英伟达显卡卖不到东大,谁最着急,谁最开心

A. 李彦宏 B. 任正非 C. 黄仁勋 D. 奥特曼 E. 梁文峰 F. 苏姿丰
Manus: 英伟达显卡影响谁最着急最开心 - Manus
OpenAI Deep Research: https://chatgpt.com/share/67ca5efd-c2c4-8007-93a5-8a032f144fdf

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-13.jpg


Manus 的分析结论(节选)

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-14.jpg


Manus 的分析结论(节选)

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-15.jpg


OpenAI Deep Research 的分析结论(节选)

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-16.jpg


OpenAI Deep Research 的分析结论(节选)

Deep Research 的分析明显比 Manus 的分析更专业、深入,而且 Deep Research 只用了 4 分钟就得出分析报告,而 Manus 用了半个小时。
例如,Deep Research 能想到英伟达被禁售,并不意味着 AMD 就能随便卖了,但 Manus 完全想不到这一层。英伟达显卡禁售完全不会影响华为芯片的研发,Manus 这部分论证也不对。关于百度的分析部分,Manus 关于大模型开源和芯片禁售的关系也是不专业的。而 OpenAI Deep Research 引用的数据和信息源都比较专业,更像一个内行人的评述。
此外,Manus 在打开 High Reasoning Effort 之后,经常会因为 context 太长而失败,例如下图:

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-17.jpg

美股 Agora (API) 分析

Manus: 美股API研究与Agora公司基本面分析报告 - Manus
OpenAI Deep Research: https://chatgpt.com/share/67cbc83d-d0e0-8007-a7f3-b58fca3a2cf7
这里选取了一个比较小众的美股 Agora (API)。
Manus 生成的报告图文并茂,确实是从原始数据中分析出来的,但报告中关于 Agora 公司的很多分析比较过时,并且存在一些事实错误。此外有的图表中把不同年份的数据混淆了。原因是它只注重分析股价数据,搜集互联网信息较少。
OpenAI Deep Research 的报告只有文字,没有编写代码,全部来自互联网信息,但引用的数据和公司基本面分析结论基本都是正确的。其中的引用源都是一些高质量信源。

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-18.jpg


美股 API 研究过程中,生成 Python 代码调用 API 获取美股数据

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-19.jpg


按照 Todo List 逐步工作

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-20.jpg


Manus 生成的图文并茂的调研报告

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-21.jpg


OpenAI 生成的报告更专业

另外一个值得称道的设计是,OpenAI Deep Research 在开展调研前,会首先澄清用户意图。很多用户并不能准确描述自己想要什么,AI Agent 与其立即开始工作,不如先问清楚用户想要什么。(Update Peak 回复:不上来后反问或确认是 by design,因为用多了你会发现很烦,不方便并行。Manus 可以随时打断或改目标,看着不对说就行了。如果你喜欢精确确认再干活,直觉开个 session,说:“记住以后开始干活前仔细向我询问要求,经确认再干活” 之类的。)

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-22.jpg


OpenAI Deep Research 澄清用户意图

OpenAI 核心团队调研

Manus: OpenAI GPT-4o和GPT-4.5核心贡献者调研报告 - Manus
OpenAI Deep Research: https://chatgpt.com/share/67cbc93e-5cbc-8007-8ee0-76c380747659
OpenAI Deep Research 对自家核心团队的调研报告明显更专业。
主要原因是 Manus 使用 Linkedin API 搜索 OpenAI 的研究科学家信息,但 OpenAI 的很多研究科学家并未在 Linkedin 上有公开 profile,需要访问 OpenAI 官方页面,然后用 Google Search 才能搜到。这导致 Manus 搜到的人员明显不是 OpenAI 最核心的研究科学家。不过搜索到的这些 OpenAI 科学家都从网络上检索到了正确的 profile 信息,说明有较好的泛化能力。

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-23.jpg


Manus 写代码搜索 OpenAI 研究科学家

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-24.jpg


OpenAI Deep Research 先让用户澄清需求

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-25.jpg


Manus 搜索整理出的相关人员信息

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-26.jpg


Manus 尝试创建图表是很好的,但命令运行失败后没有意识到错误

DeepSeek 经典论文详解

Manus: DeepSeek起源与模型技术详解 - Manus
OpenAI Deep Research: https://chatgpt.com/share/67cc5b69-c02c-8007-b989-e742bc91a50a
OpenAI 的调研报告中闹了一个笑话,把梁文峰创立的 High-Flyer 当成了当前的幻方,还翻译成了 “高翔资本”。但后续的技术内容比较专业和深入。
而 Manus 的调研报告相对比较浅,且其中的技术内容存在一些错误,一些图表的对比方式也不恰当。与其他 SOTA 模型对比一节没有展开,没有完成其他模型的对比调研工作。

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-27.jpg


列出的调研提纲还挺专业的

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-28.jpg


像人一样记阅读笔记

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-29.jpg


像人一样阅读论文,向下滚动

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-30.jpg


整理收集到的信息

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-31.jpg


网站大纲设计

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-32.jpg


网站交互设计

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-33.jpg


Manus 生成的调研报告确实图文并茂,但图表中存在事实错误

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-34.jpg


Manus 生成的图表,这些项目是不能放在一起比较的

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-35.jpg


Manus 生成的一些图表存在 bug,不能正常显示,它也没有发现

《大模型演义》写作

Manus: 检查icourses.com UCSD课程信息准确性 - Manus
OpenAI Deep Research: https://chatgpt.com/share/67cc6027-d8d8-8007-8d84-bbf08c912b3e
作为最后一个 Deep Research 的例子,让 Manus 和 OpenAI Deep Research 分别写一篇《大模型演义》。
由于我 beta test credit 用光了,只能在一个失败的例子(校验课程信息准确性,这个 OpenAI Operator 是可以完成的)基础上继续搞了。Manus 对 Pivot 之后的需求能够正确理解,没有跟之前的需求混淆,这是不错的。由于之前的虚拟机环境已经坏掉了,Manus 在尝试访问虚拟机失败之后,没有坐以待毙,而是尝试直接把内容写到用户回复里,这也是挺惊艳的,说明它有一定的变通能力。
在大模型知识范围内,Manus 写出的东西还挺有趣的,但在近期大模型发展和国内 AI 六小虎方面,就比较混乱了。OpenAI 写出的东西不够生动有趣,篇幅相对较短,但事实都是正确的。

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-36.jpg


如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-37.jpg


如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-38.jpg

番外篇:开发一个功能丰富的网站

看 Manus 写代码,真有看一个工程师干活的感觉,从设计网站结构,到安装依赖,到写代码,到部署测试:https://manus.im/share/BYNvsKRzcc7E6L1z9TaIgY?replay=1

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-39.jpg


如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-40.jpg


如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-41.jpg


如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-42.jpg


如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-43.jpg

可惜由于 context 太长,最后没有干完活。
希望 Manus 和类似的开源项目(如 CAMEL AI 的 OWL,以及 OpenManus)能够解决这些工程问题,做出真正能够像极客程序员一样,用计算思维解决生活和工作中问题的 Agent。

hhhh713 LV

发表于 2025-3-31 12:36:13

这个产品非常诡异:
宣传的媒体基本上都在国内,关注的人也都是国人,但是只有一个外文网站,并且只有一个DC官方社群。你说它面向海外用户吧,海外基本没啥人关注,X上DC上也基本都是国人。你说它面向国内用户吧,官网连个中文版都没有,也没有任何国内的社群和服务支持。评测的也都是国内的媒体。DC的社群更是一团乱,根本不像是个官方群,无人管理。
AIGC产品从22年到现在颠覆来颠覆去,现在3年了早就已经过了哗众取宠的时间节点了,如果产品不能解决实际的细分问题和需求,简单的说就是实际的商业价值很快就会消失。
除非这是个面向投资人的PPT产品。
可是投资人的圈子里目前对它似乎很冷静。
~~

事情变得越来越有趣了,
DC群在中午终于被禁言了,官方并无其它群。
网传邀请码被炒到了10w,但是闲鱼只有一个标价2.5w的,并且并无成交。这个你标到100万也完全没问题。
官方出来说自己完全没有做PR。
一点疑惑,产品本身能用,好用,有用是三个维度的事情。对任何产品来说想要成功需要满足更便宜或者更方便的解决问题,我并不知道这个产品一次任务的成本是多少,解决了哪些问题,在宣传通用的前提下又会有多少人可以持续的为它付费。这些才是最关键的。
而这一切需要时间。
only time

麻辣烫 LV

发表于 2025-3-31 12:46:10

我可能会泼点冷水。
从benchmark和案例来看,成绩相当不错,但可能离「通用」还差不少。
市面上很多专用Agent,都难以大规模落地,例如软件工程领域的开源多Agent框架MetaGPT,用的人也不算很多;上一个「全球首个AI程序员」Devin,目前也没啥水花。更别说通用的Agent。
而且,说「全球第一款通用 AI Agent 」,可能有点捧杀,毕竟之前还有AutoGPT,BabyAGI,这些都能算是「通用」的框架,而且还开源。
当然,这里并非否定Manus的成果。从benchmark来看,成绩其实是相当好的。GAIA是衡量通用AI助理能力的一个benchmark,可以看到Manus表现比OpenAI的deep research还好出不少。

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-1.jpg

但Agent智能程度,Agent的架构固然重要,更起着决定性作用的,是LLM的能力上限。在市面上LLM能力没有爆发性增长的情况下,很难出一个真正能力有突破的Agent。
其实说到Agent,很多人会以为,就是通过Prompt创建智能体,但其实一个完整的Agent,是需要能够自主计划,自主使用工具,具有记忆能力,自主行动的。在Lilian Weng 2023年发布的一篇博客里显示,一个LLM驱动的Agent是架构是这样的。

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-2.jpg

我猜测Manus在Tools方面做了很多工作,尤其是和搜索,计算,写代码工具,可视化工具,computer use方面等等,这些tools应该能覆盖80%工作场景的通用任务,再加上MCP[1]+docker,就能做很多事情了。
同时,我也注意到它能够记住一些工作偏好,估计也在long term memory方面做了一些创新性的工作。

如何评价中国团队发布的通用型 AI Agent 产品 Manus?会成为下一个爆款吗?-3.jpg

但General Agent的General,既可以翻译成「通用」,也可以翻译成「宽泛」。事实上,官方demo给出的案例,都是一个相对开放的题目,大模型有很多自主发挥的空间,给定的命题相对宽泛。当然,即使是这样,其实这个Agent也能解放很多人的繁琐工作,毕竟很多人的工作本来就是做图表,ppt等。但要说Manus有什么突破性进展,貌似从demo中没看到。
况且,Agent落地一个最大问题,就是分解步骤越多,token消耗越猛,而且幻觉率会越高。这些问题都是短期内没法解决的。可能哗啦啦的,token花了几十刀,但其工作产出,还是得人类自己去修修补补。
我坚信AI浪潮未来会爆发在中国,但就全球大模型能力而言,还没哪个大模型能够支撑一个足够通用、错误率足够低的Agent。
当然,Manus的朋友可以给我个邀请码,让我试试到底有没那么强。(打算盘中

chenyumai LV

发表于 2025-3-31 17:03:09

关于中国团队发布的通用型AI Agent产品Manus,它确实展现出了独特的优势和潜力。Manus作为一个真正自主的AI代理,不仅能提供建议或答案,更能直接完成复杂的任务。其应用场景广泛,从旅行规划、股票分析到教育内容创建等多个领域都有所涉及,并且表现卓越。<br><br>在GAIA基准测试中,Manus取得了新的最先进表现,这足以证明其解决真实世界问题的能力。Manus的成功在于其强大的技术实力和创新能力,以及满足用户需求的产品理念。<br><br>至于是否会成为下一个爆款,根据目前的表现和反响来看,Manus具有非常大的潜力。然而,未来的发展还受到诸多因素的影响,包括市场竞争、用户反馈、技术迭代等。但无论如何,Manus为AI领域带来了新的活力和可能性,值得我们期待其更多的表现。

fredqiqi LV

发表于 2025-3-31 19:18:26

关于中国团队发布的通用型AI Agent产品Manus,其表现令人瞩目。Manus作为一个真正自主的AI代理,能够解决各类复杂多变的任务,不仅提供建议或答案,更能直接交付完整的任务成果。其优势在于通过整合多种资源,为用户定制解决方案,如旅行规划、股票分析、教育内容创建等。在GAIA基准测试中,Manus表现出卓越的性能,达到新的最先进表现。<br><br>Manus的出现无疑为AI领域带来了新的突破,其强大的功能和应用广泛性可能会引发市场的广泛关注。然而,要成为下一个爆款,还需要市场的检验和用户的认可。总的来说,Manus在通用AI领域迈出了重要的一步,为未来的AI发展提供了新的思路和方向。

谭志刚 LV

发表于 2025-3-31 19:23:32

关于中国团队发布的通用型AI Agent产品Manus,它确实展现出了强大的实力与潜力。Manus作为一个真正自主的AI代理,不仅能提供建议或答案,更能直接完成各类复杂多变的任务,如旅行规划、股票分析、教育内容创建等。其在GAIA基准测试中的表现也证明了其解决真实世界问题的能力。<br><br>Manus的出现,代表了在AI领域的一次重要突破。它不仅仅是一个AI助手或者Bot,而是真正地在执行人类的代理任务,将知识和能力用于实际问题的解决。这种能力使得Manus在发布后引起了广泛的关注和讨论,其独特性和实用性有可能会引发市场的热烈追捧。<br><br>然而,要成为下一个爆款,还需要市场的检验和用户的认可。只有持续创新、满足用户需求、不断优化,Manus才能真正地在竞争激烈的市场中脱颖而出。总的来说,Manus的发布无疑为AI领域带来了新的活力和可能性。

您需要登录后才可以回帖 登录 | 立即注册