为什么在 AI 应用发展的方向中「智能体」最被看好？

发表于 7 天前

对于智能体的理解，我分享一下360集团创始人周鸿祎的演讲中提到的关于智能体的思考：
2024年我们都是在讲生成式AI，今年有一个新的概念出来了，叫智能体AI，Agent AI。一个只能聊天的人是不能干活的，比如你请了一个顾问，不管是多么著名的咨询公司，到你公司去，只是指指点点，从来不挽起袖子干活，这是没有任何意义的。人工智能真的要改变企业，光有大模型是不够的，要能干活。现在发展成能够干活的，可以叫智能体AI，在数字空间干活，跟IT系统协作。

去年下半年到今年，大家意识到，专业大模型必须从生成式演进到智能体，这个智能体叫Agent。这个词有很多翻译，有人把它翻译成代理，但是代理在这个地方不太合适，容易引起歧义，所以我还是更愿意把它翻译成智能体。
你怎么理解智能体？它就是你的数字员工、数字专家、数字顾问，你把智能体当成一个人就可以了。
大模型的缺点是什么？它虽然能理解能问答，能生成内容，但第一，它的知识是固定的，训练用什么知识基本上固定了；第二，它没有短期记忆，每个人来问问题，对它而言都是一个新的问答；第三，不能进行复杂的流程工作，最重要的是不能调用企业里面的工具，换句话说不能直接干活。
所以，我们给大模型加上了知识获取、工具使用，还有复杂流程的规划的能力，变成智能体。现在智能体从原来大模型附属的一个技术，变成了大模型核心的技术，大模型反而成了智能体的一个组件。
我经常说大模型有点像电动机，企业里不可能只用一个电动机来给全企业提供动力输出，我们需要电动机的不同地方，可以买不同的电动机，因为买了电动机也不能直接用。比如，你今天早上用电动机刮了胡子，用电动机刷的牙，这话好像也没说错，确实用到电动机了，其实是电牙刷和电动刮胡刀里有电动机。只有把电动机做小了，变成电牙刷、电吹风、电动刮胡刀，才能变成人们可以用来干活的工具。
你可以把智能体理解成吹风机、刮胡刀，面向消费者领域做出来的智能体就是个人的工具，而面向企业做出来的智能体，你可以把它理解成是数字员工。
智能体的核心是大模型，有大模型就有智能，但是在智能的基础之上还有几部分——
第一部分是感知能力，要跟企业的传感器连在一起。比如企业里的很多数据要让智能体能看到，就像你请我去做企业顾问，我需要看到企业内部的很多情况。
第二，每个智能体都得有一个角色的定义。智能体不是万能的，啥都能干，每个智能体在企业里边最好对应一个岗位，这个岗位原来的人干什么，我们就让智能体干什么。
第三，智能体要替人完成很复杂很繁琐的业务流程，或者重复性的工作流程。比如说每天早上老板来了，给他倒杯水，汇报一下昨天的邮件，安排他今天的日程，这么几件事串起来算一个流程，由智能体来承担。
第四，智能体要有记忆。大模型技术架构是没有记忆能力的，你每次问它今天是几号，它都重新回答一遍，而人类要干活就需要有短期记忆和长期记忆，这由智能体来承担。
第五，企业知识库也要通过智能体连上，最重要的是成为工具。这是什么概念？比如企业里已经有很多业务系统，有OA系统，有办公系统，有ERP系统，也有生产线，智能体必须跟它们打通，才能干活，否则就只能呱呱呱提建议。
第六，智能体是能支持复杂推理的，换句话说，它能让不那么聪明的大模型加上复杂推理后，变得更有能力，更加聪明。

构建智能体有三个步骤，第一个是选择智能体的岗位和场景，有4个方向，要么给老板提供服务，要么给员工提供服务，要么内部有什么管理流程，可以用智能体来优化，要么外部有什么服务和服务体系，或者产品流程，可以用智能体来加速。衡量指标，我提出4个10倍，能不能减少10倍的人力，减少10倍的成本，提高10倍的效率，提升10倍的体验。
有了智能体之后，我也豁然开朗。我们一直讲降本和增效，这是所有企业家都关心的问题，写点小作文、弄点小视频，对企业营销有些帮助，但是企业家最关心的是在核心业务、在核心管理流程里边，如何能降低成本，提高效率。
第二个步骤，找到场景之后，把一个场景分解成流程，特别是比较繁琐复杂的业务流程，重复容易出错的业务流程，都是智能体可以发挥作用的。
比如有人来找我说，老周我们一起合作，做个养猪大模型，做个养猪智能体，这就让人无从下手，因为我不知道他的需求是什么，在养猪过程中有什么很复杂、很麻烦的流程。
分解流程之后，再来定义角色。各位都是老板，很熟悉员工的角色定义，你把智能体定义成数字员工、数字专家就可以了，不要试图让一个智能体做三个员工干的事情，一个智能体就对应一个员工的角色。
这过程中，抽象来看它可以干两件事儿，一个是把很复杂、很繁琐、很重复的业务流程，用智能体规划下来，比如原来雇了三个员工，每天干这些繁琐的事情，现在智能体可以轻松取代。第二个，企业里边有一些过去想做做不了，想解决解决不了，非人不可的关键职能，现在智能体可以干了，就可以把员工给取代了。

我举个例子，某个省有39家钢铁企业，他们想找我打造一个钢铁大模型，我说这活没法干，因为专业大模型要回答解决什么场景的问题，什么场景打造什么智能体，还要问智能体是什么角色。他们后来把钢铁制造的全过程拆出142个场景，不夸张的讲，每个场景都可以打造若干个智能体。
事实上，哪怕企业里不用人工智能，老板也要做出流程规划之后，才知道要招什么样的员工，岗位上放什么技能的人。只不过用上大模型之后，这里边的员工被智能体取代了。

我比较喜欢的一个例子是这次去美国考察，斯坦福医学院有一个AI改造。他们过去有三件很繁琐的事儿：
第一，看病不能直接挂号，必须通过社区医生、家庭医生发传真，传真都是手写的，斯坦福就需要有100多人的队伍专门看传真，往电脑里录入数据。
第二，录入数据后再跟人打电话，预约看病时间。
第三，看完病以后，要有一个专家把看病过程、治疗过程、开的药写成报告，发给保险公司，这个报告写得好不好，直接决定保险公司报销的比例。
这三件事都是刚才说的很繁琐、很累人、很重复的工作，过去非人干不可，直到他们打造了三个智能体：一个智能体专门看传真，因为它有多模态，能够识别手写，能识别图像，把传真录到数据库里；一个智能体也有生成能力，能听得懂人话，给对方打电话，不聊风花雪月，不会漫无边际，就是约来看病的时间；第三个智能体是拿医院里原有的几万份报告，训练一个垂直大模型，专门给保险公司写报告，这就不是外面通用的大模型能干的事情。这三个智能机引入之后，他们减少100多人的队伍，这就是降本和增效。
那天我在360内部，把这个例子讲了一下，有团队就做了类似的工作。过去有一个业务，用户付完费之后，要把支付宝手机截图发到员工手机上，员工识别之后，再把数据录入到5个不同的数据库里，大概经过很繁琐的3个小时的操作，才能把用户的数据给处理了。现在用同样的思路，定义一个智能体之后，2分钟就自动把这个事就给干了，不仅省了人力，而且提高了用户体验。
2023年是大模型之年，谈的是大模型技术本身的突破，2024年是专业大模型之年，是大模型的应用场景化落地，2025年是智能体之年，充分利用垂直大模型对应打造智能体，让大模型全面在企业里真正实现自动化和智能化的降本增效。

智能体有六大应用方向：
第一个，人人智能。智能体AI是一个赋能工具，可以让我们每个人都有超能力。很多人都有想法，但是缺乏技能，智能体能帮助我们，比如用AI帮你赚钱，用AI帮你编程，用AI帮你讲课，这对原来的软件而言，是巨大的突破，每个人在不同方面需要不同的智能体帮助，就像每个人携带一个超级知识专家，随时获得帮助，这是很大的机会。
第二个，叫万物智能。过去叫万物互联，实际上今天所有的智能硬件严格来说都不叫智能硬件，只能叫联网可计算的硬件。从项链到眼镜，从戒指到手表，从个人电脑到家里的机器人，所有的硬件都会被AI重塑一遍。你可以想象，以后家里的硬件每个都长着眼睛，能看明白你是谁，知道你想干什么，都能跟你说话，而且说起来都一套一套的。
比如冯仑半夜起来打开冰箱，想偷喝一罐啤酒，然后冰箱就告诉他，大哥别这么喝了，你血脂都超标了。这不是梦想，如果处理不好，半夜家里三四十种电器互相聊起天来了，那个场景可能会很奇特。
第三个方向，传统企业的数转智改。怎么利用智能体和大模型加速数字化转型，提升智能化改造，这也是企业打造新战略的核心。企业不一定需要抛弃现在的业务，去做新的业务，毕竟隔行如隔山，把现在的业务流程想一想，有什么业务流程可以用智能体优化，什么业务流程可以用智能体提效，什么业务流程可以用智能体取代低技能、低绩效的员工，这是最大的空间。
第四个方向，面向未来产业。未来产业都是数字化产业，像大疆无人机、具身智能机器人、机器狗，还有智能网联车自动驾驶，都要用智能体来帮助实现无人驾驶或者无人导航。
第五个方向，科学研究。去年的诺贝尔奖给了AlphaFold2，以后做科学基础研究，必须得学会用Agent，用大模型，它给你带来新的研究范式，带来新的研究工具。过去发现一个蛋白质折叠结构，一个人可能要研究好几年，现在大模型几分钟就能分析出一个结构。
最后一个方向是AI的安全。如果AI最后无孔不入，大家会担心，这玩意能力大了之后，会不会给人类造成威胁，就像今天的各种虚假信息。AI的安全必须重视，我们现在也是用AI智能体来解决安全的问题。

发表于 7 天前

智能体（Agent）之所以成为AI发展方向中最被看好的领域，因为它代表了artificial intelligence（AI）向artificial general intelligence（AGI）迈进的关键一步。
智能体不同于传统的静态模型，它是一种能够自主感知环境、做出决策并采取行动的AI系统，具有与环境互动、持续学习和适应的能力。
最近随着大型语言模型、视觉-语言模型等基础模型的突破,以及强化学习等技术的进步,智能体逐渐在游戏、机器人、医疗等多个领域展现出巨大的应用潜力。
有研究人员描绘了一个全面、集成的Agent AI系统愿景：

图中上半部分的矩阵可以横向划分为五个主要领域：物理世界、虚拟世界、Agent涉及方法、具体化和产品。纵向则分为应用、基础设施、数据和理论四个层面。
在物理世界领域，我们能够看到服务机器人、环境智能等应用，以及摄像头、麦克风等基础设施；虚拟世界部分包括虚拟现实、增强现实等技术，以及社交网络、模拟器等工具；Agent方法部分涵盖了通用型Agent、大语言模型LLMs和视觉语言模型VLMs等核心技术；具体化部分涉及自动驾驶、制造业等实际应用场景；产品部分则列出了游戏、AI副驾驶、医疗AI等具体应用产品。
数据层面包括物理实验、视频、图像、文本等多种数据类型，反映了Agent AI系统的多模态特性；理论层面涵盖了从心灵哲学到机器学习理论、认知科学等广泛的理论基础，体现出Agent AI的跨学科性质。
这个系统可以认为是向通用人工智能（AGI）迈进的一个有希望的发展途径。它能够整合物理世界的传感器数据、虚拟世界的模拟数据，以及各种理论和算法，形成一个统一的智能系统。这个系统不仅可以理解和响应复杂的环境，还能够通过持续学习和适应来提高自身性能。
当然，以目前的技术水平，这样一个达到AGI水平的Agent暂时还无法真正实现，但是很多领域确实在探索Agent的应用潜力。
比如在游戏《我的世界:地下城》(Minecraft Dungeons)中，研究人员利用GPT-4v（一个视觉语言模型）建立了一个能够指导玩家进行游戏的agent：

玩家的目标是要移动到右前方，并制造一个工作台。
GPT-4v通过“分析”发现，玩家已经收集了木材，所以为玩家详细描述了制作工作台的步骤：

打开物品栏（默认按&#39;E&#39;键）；
将收集到的木头放到制作槽中，每个槽放一个木头制作出木板；
收集制作的木板到物品栏中；
在物品栏的2×2制作网格中用木板填满所有四个槽，制作出一个工作台；
把工作台拖到物品栏中；
关闭物品栏并在快捷栏中选择工作台；
在地面上右键点击放置工作台。

这张图表明GPT-4V能够有效预测高级动作序列，不仅能够理解游戏环境和玩家目标，还能整合感知到的信息（如玩家手持木头），进行整体设计，并规划出合理的行动步骤。
但是，这个研究同样指出了GPT-4v的一些“劣势”，虽然它能预测一些低级动作（比如按E“可能”可以打开库存），但其输出并不能直接适配于原始的低级动作，比如说具体应该怎样操纵鼠标和键盘等等。
也就是说，目前的GPT-4v更适合当一个“军师”，为玩家出谋划策，制作更加个性化的游戏教程，提升玩家的游戏体验。
虽然不能直接操控一切，但是agent这种跨模态的理解能力对于我们的日常工作来说仍然非常有用。比如你可以做一个agent用来进行每日日程规划，相当于请了一个不会忘事的随身秘书；比如你可以设计一个能够自动记录会议内容并生成会议摘要的agent，大大减轻自己的工作负担。
在目前预训练模型越来越完善的情况下，构建一个agent其实并不是一件非常困难的事情，甚至不需要编程能力就可以实现！建议初学的小伙伴看看知乎知学堂的AI方案解决专家免费公开课，由经验丰富的业内大佬主讲，不仅会讲一些原理性内容，更是会涉及到大量的实用案例。而且这个课程无需编程基础，即使是不懂编程的小白也能听懂并上手实践。入口我直接给大家找过来了，直接听就可以⬇
老师会提供一些能够直接移植到个人项目中的demo代码，只要按照提示简单修修改改，就能实现一个简单agent的构建，提升工作效率，把自己从繁琐的工作中解放出来啥的，不再是梦。
Agent AI除了可以作为游戏之类的娱乐辅助外，研究人员认为它们还可以用于未来的医疗保健领域。

系统的核心组件是一个Transformer模型，接收视频输入并生成相应的输出。模型的训练数据有两个主要来源：

护士标注的注释。这些是由经验丰富的医护人员提供的专业标注数据，用于训练模型理解医疗场景和行为。
GPT-4生成的训练数据。为了扩充训练数据并提高模型的问答能力，研究人员使用GPT-4以一种保护患者隐私（PHI-safe）的方式生成一些额外的问答对。

这个系统预计能够实现三个主要功能：

行动识别（Action Recognition）。根据视频内容识别出具体行为，比如患者状态的改变（“焦虑”、“安静”、“警觉”等），这些状态可以用作进一步处理的标签。
视频字幕（Video Captioning）。顾名思义，给视频自动生成文字描述，比如“临床医生正在帮助病人下床”，增强智能体对场景的理解和描述能力。
视觉问答（Visual Question Answering）。为特定的视觉问题提供答案，如图中问题“病人在哪里？”答案为“病人在床边”。也就是说，由智能体帮助护士看视频并寻找答案，提高工作效率。

通过这些功能，智能体能够综合理解和响应视频中的多种情况，提供实时的、上下文相关的反馈和信息，对于医疗监控和护理非常有价值。比如，在监控重症监护病房中的病人时，智能体可以识别病人的活动，自动记录病情变化，并在必要时提醒医护人员。
除此之外，未来是否能够让足够智能的机器人“走进”寻常百姓家，也要看Agent的发展程度，只有Agent AI足够智能，能够在多模态间无缝切换，真正做到“能看、能听、能理解”，才可能出现真正拥有智能的机器人。

智能体的多模态感知和理解能力使得它能够像人类一样全面感知环境，无论是在游戏世界中理解视觉和文本指令，还是在医疗场景中分析视频和语音，智能体都展现出了整合多种信息源的潜力。这种能力为AI系统在复杂、真实世界中的应用铺平了道路。
智能体的自主学习和适应能力让其具备了持续进化的潜力。通过与环境的不断互动，智能体可以自主积累经验，优化决策策略，这种动态学习的特性使得Agent AI系统有望应对各种未知的挑战。
此外，智能体的“跨领域”发展，让它非常容易走进各个行业，一个“能看、能听、能理解、能规划”的智能系统，无论是应对繁杂的工作，还是规划日常生活，相信都能够成为人类的好帮手，真正实现“人机协作”。

发表于 7 天前

最近智能体非常火，各大互联网平台都在推，我感觉气势逐渐起来了，这是爆发的前兆。
想赶上人工智能的风口，这是一个不错的入局机会，不要犹豫，早就是优势。
说到智能体，不得不提OpenAI推出来的GPT应用商店，这是智能体的最早期探索。
早在2023年6月20日，ChatGPT的母公司OpenAI发布最新公告，开始打造大语言模型的应用商店，打通所有的ChatGPT应用，彻底抢占AI模型生态。
但是中途因为宫斗剧耽误了一些时间，直到今年1月12日，OpenAI发布了GPT商店，任何人都可以通过输入提示词的方式创建GPT应用。
我在第一时间进行了体验，并且在我最擅长的写作领域创建了一个智能体，效果还不错，帮我写出了多篇10万+爆文。
在智能体出现之前，我如果要用AI写作，训练会花费大量的时间，因为AI的判断能力不行，只能通过喂数据提高AI生成内容的质量。
当时因为Token的限制，我每次只能喂5篇文章，如果多喂一篇，AI就会把最早的一篇文章丢掉，因为每个对话的存储容量有限。
每次写文章之前，我都要准备5篇爆文，让AI学习总结，提炼出写作方法论，接着用这个方法论写文章，才能写出高质量的作品。
比较头疼的是，对话之间的数据是相互隔离的，我如果新开一个对话，之前对话提炼出的写作方法论没有办法带过来。
我如果一直在一个对话里面交流，时间长了也会因为Token的限制出现遗忘，并且随着对话内容的加长，返回结果的速度越来越慢。
所以，我每次写作，都需要重复训练AI，费尽九牛二虎之力，提炼出写作方法论，时间花费在1个小时以上，效率提不起来。
智能体和对话不太一样，有更大的存储空间，并且可以在对话间共享数据，很多问题就迎刃而解了。
我创建一个智能体，只需要训练一次，提炼一次写作方法论，这些内容就存储起来了。
后续不需要再做训练，直接让智能体按照写作方法论写文章就可以了。
这个时间就大大缩短了，1分钟之内就能生成文章的初稿，接着做一些调整优化，10分钟搞定一篇文章绰绰有余。
这个写作的智能体就是我的写作数字分身，模仿的是我的写作风格，简直是一个模子刻出来的。
智能体拉低了学习提示词的门槛，任何人都可以通过简单的对话，轻松和AI进行沟通。
技术平权之后，AI将会得到更广泛的传播和应用，一个新的蓝海已经出现。
作者简介
您好，我是奇大，毕业于北邮，前端技术专家，AI布道师。
10多年互联网研发和管理经验，我将分享高质量的职场认知和技术干货，欢迎围观。
公众号：AI 奇大，欢迎关注。

发表于 7 天前

在AI应用发展的方向中，智能体被广泛看好的原因在于其独特的优势和潜力。
智能体（AI Agents）是指具备感知、决策和执行能力的智能实体，能够自主适应环境并在执行任务中不断完善自我。例如：相较于通用大模型，智能体更加擅长处理特定任务，能够通过针对性训练精准应对各种特定任务。
而比起单纯的chat，文生图之类的AI都好，看起来是我们输入，他们输入，但在其中引导的质量如何，会影响输出效果。核心离不开，我们还是在这个固定框架内去操作。智能体强调的是“感知、决策和执行”。

所以我们可以看到很多企业都开始说Agent了，随着各大组织探索生成式AI如何融入他们的战略，一个新兴的领域：多代理系统（Multiagent Systems）。这种系统中有多个代理（agents）共同执行任务，可以实现自动化工资处理、HR流程甚至软件开发等更高层次的目标，这些任务依赖于来自大型语言模型（LLM）的处理文本、图像、音频和视频数据的能力。
连AI区域内算是细分赛道的RPA，也开始进去AI Agent 智能体的范畴内。
近日，中国数字化市场专业服务平台爱分析正式发布了《2024爱分析·AI Agent厂商全景报告》，基于对市场的需求分析和代表厂商的能力解读，遴选出在AI Agent市场中具备成熟解决方案和落地能力的入选厂商。

大模型浪潮席卷全球，AI Agent作为这股浪潮中的新星，已成为大模型应用的主流形态之一，重塑着科技和商业版图，在各行各业中展现出巨大的潜力和价值。一时间，如何将AI融入业务并实现持续价值成为企业面临的必答题，而AI Agent开发管理平台作为企业AI战略的神经中枢，肩负着全员赋能与智能化升级的双重使命。
入选厂商很多，以RPA厂商金智维举例来说吧，它在政务领域，基于自研AI Agent平台开发的政务智能体，利用大语言模型检索增强知识库能力召回沉淀的政务知识、办事指南等业务数据，强化智能体政务领域专业知识，实现精准问答与导办。
目前金智维已基于政务智能体打造面向人社局等机构的政务大厅具身智能导办机器人，用户轻轻点一点屏幕，就能与数智柜员一对一对话，在一问一答之间快速办理相关业务，在优化政务大厅自助服务流程的同时，也提升了人民群众对政府服务的满意度，助力政务机构持续打造“问办一体”新模式。

发表于 7 天前

你如果了解一下所谓智能体，就知道其实就是一个针对某个特定问题的AI serivce而已，比如，midjouney的api可以说是个agent，或者chatgpt的dalle-3 也可以算是个agent，只是你的输入是自然语言，不是API，agent的底层是多个针对性api支持，agent自己的AI层处理business logic而不是hard code business logic.
所以我不知道有什么看好不看好，软件体系还是那样呗，各种输入输出的封装，只不过输入更多样化人性化。

为什么在 AI 应用发展的方向中「智能体」最被看好？

本周热门