Manus是噱头，还是大牛?

manus智能体似乎在各项指标上击败了deep research，强在哪里

发表于昨天 14:12

一晚上的时间，已经有两个开源的类manus项目了。
第一个是OpenManus
https://github.com/mannaandpoem/OpenManus/blob/main/README_zh.mdMetaGPT出品。

https://www.zhihu.com/video/1881403229394408077
另一个是CamelAI的作品，owl
https://github.com/camel-ai/owl/blob/main/README_zh.mdowl/README_zh.md at main · camel-ai/owlowl/README_zh.md at main · camel-ai/owl

https://www.zhihu.com/video/1881403451390554702
<hr/>昨天晚上刷抖音，发现一大批人开始用manus的噱头做直播，我刚开始还以为是直播演示，毕竟物以稀为贵，也正常。
但没想到是在直播帮忙申请邀请码，很多人把自己的邮箱发到公屏，然后主播帮忙填到申请的waitlist上。
这是什么操作？
你自己申请不了是因为manus这个目前只在国外开放使用（据说用了claude的api）
你就算申请到了你也访问不了（访问不了外网）
横竖用不上，但从火爆程度来看，说白了还是AI焦虑太严重了。
更有甚者，开口就是，「家人们，我用dickseep3天赚了***」
昨天看Manus就是一个扎实的工程化工作，因为它的能力上限取决于大语言模型的上限，符合木桶原理。

发表于昨天 14:23

deepseek很火，但出的时候大家就用了，有app端有web端有api，硅基流动这些平台也自己集成了。
manus现在还在要邀请码，官网甚至没中文。铺天盖地的软文都没见到几个真正用的，现在是不是金玉其外都不知道。

发表于昨天 14:37

Manus的48小时
• 疯狂抢码：这几天Manus刷屏，我也特别想第一时间测试一下，但是苦于没有邀请码。
• 任务限制：听说一天单账号只能处理10个任务，处理成功的大约只有3个。这火爆程度可见一斑。

<hr/>Discord互动

❝&#34;开创性社交媒体号召&#34; —— 2025年3月6日14:52 UTC，ManusAI (@ManusAI_HQ) 在Discord发布[Post ID: 1897661506650780103]，邀请用户提交任务让AI系统执行展示能力。

围观实录
• 我津津有味地看了团队回复的10多个问题，所有交互过程都保留在Manus服务器
• 案例展示包括：
▸ 简历筛选（自动解压文件+生成Excel报告）
▸ 纽约购房推荐（拆解任务+预算计算+房源筛选）
所有的案例在Discord：https://discord.com/channels/1346677905970692146/1347243291862892544

<hr/>突发封号事件

• 时间线：
▸ 北京时间9:00：Discord帖子突然不可读
▸ 同步事件：Manus的X（Twitter）账号被冻结
• 背后猜想：

❝&#34;可能是竞争对手攻击和举报&#34; —— 类似此前[DeepSeek遭遇的PTX层优化争议]

虽然没办法内测，但是至少也可以通过公开信息来理解一下发生了什么：

技术到底牛在哪？（Manus被描述为&#34;Compute Use + 虚拟机 + Artifacts + 内置Agent&#34;的整合体）

技术就像搭积木
Manus其实是把四块积木拼在一起：

算力调度：好比租用云计算的&#34;脑力&#34;，需要多少用多少
虚拟机：给每个任务单独开个&#34;房间&#34;干活，就像家里不同房间做不同事不会互相干扰
工具箱(Artifacts)：做完任务会留下模板、代码等&#34;工具&#34;，下次直接拿来用
AI小分队：内置专门处理编程、分析等场景的AI模型，像公司里不同部门的专家

<li data-pid="fcopWAut">核心思想：少管闲事
❝&#34;设计理念：Less Structure, More Intelligent&#34;
团队说&#34;别老教AI做人&#34;，主张让AI自己决定怎么干活。比如它看视频会自己快进找重点，像学霸看网课不用老师催。这和以前设定好步骤的AI完全不同，更像是给实习生布置任务后放手让他发挥。<hr/>市场定位：到底能干啥？

想做&#34;万能助手&#34;还是&#34;专项高手&#34;？
大家质疑它啥都想干反而啥都干不好。比如：

编程需要专业工具
旅行规划需要生活经验
这就像让一个厨师同时做手术——听着厉害实际不靠谱。但团队想赌一把大的，要当AI界的&#34;微信&#34;，把所有功能都整合到一个平台。

<li data-pid="7XpXC7kZ">杀手锏在哪？

便宜大碗：号称效果比OpenAI强还便宜5-10倍，就像用拼多多价格买苹果质量
真人体验：能记住你的习惯，比如你总爱用柱状图，下次自动调整报告样式
云端打工人：把任务扔给它就能离线，像雇了个24小时加班的实习生

<li data-pid="cKeQ34hP">竞争对手[^1]

类型	代表选手	威胁程度
同行小弟	Coze,Dify	★★★☆
行业大佬	OpenAI	★★★★

<hr/>可能踩哪些坑？

用户接受度

技术宅看不上：觉得不如自己写代码灵活，就像程序员嫌弃傻瓜修图软件
普通人用不来：需要理解&#34;AHPU[^2]&#34;这种新概念，不如直接说&#34;按次收费&#34;好懂
自媒体狂欢：可能像元宇宙概念被炒过头，最后发现实际没那么神奇

<li data-pid="ScfWiyn7">技术风险

赚钱难题

想按&#34;AI打工时长&#34;收费，但大家习惯买次数包月
低价策略可能把自己累死，就像奶茶店搞1元促销结果被挤爆

<hr/>未来会怎样？

短期要做什么？

先做好程序员写代码、白领做报表这些刚需场景
开放平台让开发者添砖加瓦，就像安卓系统吸引APP开发者

<li data-pid="8sOMQ5-H">长期想象空间
❝&#34;可能引发算力需求爆炸，利好卖&#39;铲子&#39;的云计算公司&#34;

老板要学会管理AI团队
出现新职业：AI训练师、任务架构师
制定AI协作的&#34;交通规则&#34;
改变工作方式：

<hr/>普通人怎么看？

Manus确实让人眼前一亮，但也要冷静看待：
✓ 好的一面：像是给每个普通人配了AI助理，能自动搞定琐事
✗ 要注意的：别被&#34;通用AI&#34;宣传忽悠，现在更像是高级工具箱组合
⚠️ 建议观察：看它能不能做出&#34;微信级别&#34;的爆款应用

❝&#34;目前最现实的应用可能是帮HR筛简历、帮学生写论文查资料这些具体场景。如果真像宣传说的那么便宜好用，估计很快会有一波&#39;用Manus薅羊毛&#39;的教程出来。&#34;

二手平台连邀请码都炒到五万了，这热度堪比当年iPhone首发！
<hr/>行业观察者笔记

Manus的野心在于重新定义AI Agent的技术架构与交互范式，其核心理念（减少人工干预、赋予模型自主权）具有创新性，但需跨越技术可行性、市场接受度、生态规模三重鸿沟。 2025年是否为&#34;Agent元年&#34;，取决于能否在接下来的一年内证明其通用性与成本优势的真实性。

发表于昨天 14:46

破圈爆火背后肯定有各种争议，但破圈爆火本身是成立的。

注意，这个数据是延迟一天的，3.7号就已经超过了。
也就是说，从3月5号晚到3月7号，Manus只用了不到48小时，就实现了热度超越。
所以，有些人把Manus和DeepSeek放一块讨论，其实是合理的。
技术人真的得放下一些偏见，不要太mean，一个破圈产品背后，不可能没有贡献和创新。
最后，相关的开源项目哪怕是三小时发布，也不代表没有技术壁垒。甚至这些项目的宣传，之所以能够有效，也算是搭上了先行者的热度便车，要不然类似的demo，做了那么久，为什么没法破圈？
最近一段时间，我一直在关注AI产品的破圈追溯。

当时R1的破圈时间线，内外几乎同时破圈，但花了一周。

R1的破圈算是彻底将强推理大模型，带到了普通人的认知中，太多人对AI产生了期待和焦虑这种矛盾的心理。
一方面，期待AI能够更好的摸鱼，另外一方面，又怕AI太强，直接抢了自己的工作机会。
这时候，全民的注意力，都在寻找下一个R1。
#Manus #deepseek #LLM #ai #openai #微信指数 #数据 #openmanus

发表于昨天 14:59

Manus能被迅速炒作爆火起来，一个很大的原因，是所对标OpenAI发布的AI Agent产品，并没有开放免费使用，而且订阅价格比较贵，所以这类产品并不为大众所熟悉。于是相对于对话式大模型能被普通人广泛接触并日常使用，而大家对AI Agent产品并没有多少概念和使用体验，所以很容易被大量推广和新闻标题误导。

Manus工作原理（图片来自宝玉老师）

实际上短期内AI Agent能力肯定还是很有限，需要不断迭代。毕竟就连OpenAI在今年一月份发布的AI agent 产品Operator，在OSWorld Benchmark上准确率最高才38%，人家发布宣传片的时候当场承认，仍需要大量改进和完善，以至于现在页面介绍上的原话仍是说在早期研究阶段。
所以，现在AI Agent产品宣传的时候，最好能悠着点。
这是OpenAI 发布的AI Agent 产品Operator的技术报告，尽管可以看出来Test-time scaling在agent上效果非常明显，从结果上看，100步在OSWorld benchmark上准确率能到36.4%了，
但是别忘了，这就基本才到人类准确率的一半（72.4%）。

具体来说，OpenAI 的Operator有如下局限性，影响作为AI Agent的使用性能：
一是在多模态感知与操作层面，可能因GUI特征提取错误，从而误识别屏幕上的按钮、文本框等等，很容易导致操作失误。
特别是在数值精度问题上，AI Agent在需要精确输入数值时（如调整图像亮度、对比度）容易出错。
同时，在具体特定场景的操作时，AI Agent因为训练数据受限，大概率会经常缺乏合适的对应操作知识，导致直接失败。
二是在任务执行与适应性方面，尽管基于强化学习后训练的reasoning model 快速发展，但仍会有复杂任务规划困难问题，很多日常操作很容易超出其能力范围。
不同具体使用条件千差万别，out of distribution 出现概率极大，所以AI Agent的适应性和泛化性还有待提高。
另外不得不提的是大模型联网搜索的信息污染问题，会直接让DeepSeek等生成了错误的结果，还要再加上大模型生成过程中，本身幻觉hallucination的问题。于是真正的AI Agent联网检索效果往往不好，很难从复杂网站或文档中准确提取所需信息。
上面这些局限性在当前阶段直接制约了AI Agent在日常真实场景中的使用。
由此可见，想要真正了解大模型及其局限性，需要对其原理和开发应用有较为深入的了解。正好啊，知乎知学堂推出了大模型应用开发公开课，里面会有对大模型相关知识的详细介绍，或许能一定程度上帮助你了解大模型的底层原理及其应用，还会了解到大模型相关的训练方法等等知识。如果有兴趣的话，可以点进去看看。
接下来，我们再看OpenAI 的另一个著名的AI Agent 产品 DeepResearch，可以用推理来综合大量在线信息，并能完成多步骤研究任务。
DeepResearch在 HLE（Humanity&#39;s Last Exam）上准确率也才到了 26.6%，但是这已经能明显领先其他模型了，毕竟 o3-mini high 才 13% 的准确率。

当然，尽管准确率都不高，我们还是看到了趋势，在openai内部Expert-Level Tasks的测试上，测试曲线也明显看到了 test-time scaling：
“模型浏览和思考它所浏览的内容越多，它的表现就越好，这就是为什么给它时间思考很重要。”

从这个趋势来看，随着将来推理模型的快速发展，将来这些AI Agent系统以普遍采用带有Chain of Thought的推理模型作为基础模型，未来将迎来更多的爆发机会。不过很显然，短期内的实用性上看起来还总是困难重重。
所以发布AI Agent产品，最重要的是要实事求是，准确率必然不高，但其实不丢人，这正说明还有很大的进步空间，一定要避免浮夸风。
不过尽管道路崎岖坎坷，问题很多，但我觉得将来随着推理模型的不断迭代，尤其是多模态推理模型的进化，总有一天会取得很高的准确率，但现在如果吹得太过了，很容易名不副实。

Manus是噱头，还是大牛?

本周热门