什么是 AI 智能体，和大模型有什么关系？

最近看到很多有关智能体应用，什么是智能体，和ChatGPT大模型等有什么区别？

发表于 2025-4-9 15:34:39

探索AI智能体、它们的设计以及在现实世界中的应用。
AI随着大型语言模型 (LLM) 的出现取得了巨大的进步。这些强大的系统彻底改变了自然语言处理，而当与自主性——即推理、规划和自主行动的能力——相结合时，它们的真正潜力才得以释放。这就是LLM智能体发挥作用的地方，它们代表了我们与AI交互和使用AI方式的范式转变。

本博客旨在提供对AI智能体的全面概述，深入研究其特征、组成部分和类型，同时探讨其演变、挑战和潜在的未来发展方向。
首先，让我们了解从LLM到AI智能体的演变。
1. 从LLM到AI智能体

LLM应用程序的形式因素演变是我们在现代应用程序中看到的最快发展之一。

1.1 传统聊天机器人到LLM驱动的聊天机器人

在生成式AI（gen AI）出现之前，你可能已经与网站上的聊天机器人互动过了，聊天机器人并不是什么新鲜事物。传统的聊天机器人与今天的AI驱动的对话智能体在根本上有所不同，它们通常这样运作：

基于启发式的回应：
- 传统聊天机器人基于规则逻辑（“如果-那么”语句）运行。
- 仅限于预定义的规则，无法处理复杂或模棱两可的查询。
预设回应：
- 回应是静态且预定义的。
- 通过检测特定关键词或短语来触发。
- 缺乏灵活性和对话深度。

人工介入：
- 始终包含一个“与人类对话”按钮，用于未解决的查询。
- 人工干预对于处理复杂问题仍然至关重要。

1.2 LLM驱动的聊天机器人的介绍

2022年11月30日，OpenAI推出了由GPT-3.5驱动的ChatGPT，作为第一个主流LLM应用程序。ChatGPT保留了熟悉的聊天机器人界面，但背后是基于庞大的互联网语料库训练的先进LLM技术。
Transformer架构：GPT（生成式预训练Transformer）基于2017年Google推出的Transformer架构。它使用自注意力机制来分析输入序列，从而更深入地理解上下文。
LLM的功能：与传统聊天机器人不同，LLM可以生成类似人类、与上下文相关且新颖的文本。用例包括代码生成、内容创作、增强的客户服务等等。
局限性：

个性化：在长时间的对话中难以保持一致的个性化互动。
幻觉：可能会产生事实不正确但连贯的回应，根据概率而不是经过验证的知识生成输出。

解决局限性：
正在探索像检索增强生成 (RAG) 这样的技术，以将输出建立在可靠的外部数据中。这些进步旨在减少不准确性并提高LLM驱动系统的稳健性。
1.3 从LLM驱动的聊天机器人到RAG聊天机器人和AI智能体

检索增强生成 (RAG) 将外部数据检索与LLM功能相结合，以生成准确且具有上下文关联的回应。
知识来源：

非参数知识：从互联网或专有数据库等外部来源检索的实时数据。
参数知识：LLM从其训练中嵌入的知识。优势：减少幻觉，提供最新信息，并确保可验证的回应。

提示工程：诸如上下文学习（One-shot, Few-shot）、思维链（CoT）和ReAct等技术通过指导LLM的推理和输出生成来提高回应质量。

AI智能体：由LLM演变而来，并增加了工具、多步骤规划和推理能力。
工具使用：LLM可以通过分析任务并通过结构化模式（例如JSON）分配参数来调用程序定义的函数或API。
环境：AI智能体在迭代执行环境中运行，从而实现动态决策和根据反馈进行持续调整。
智能体系统：这些是具有自主智能体的计算架构，能够集成多个系统组件、做出决策并实现目标。
智能RAG：

将LLM的推理、工具使用和规划能力与语义信息检索相结合。
启用能够分解任务、执行复杂查询并利用工具解决问题的动态系统。

从LLM驱动的聊天机器人到RAG聊天机器人和AI智能体的转变代表了一种转变，即转向更智能、适应性更强且与工具集成的系统，这些系统能够实时解决复杂问题。
2. 什么是AI智能体（AI Agent）？

AI智能体是一个可以通过传感器感知其环境、处理这些信息并通过执行器对环境采取行动以实现特定目标的系统。可以将其视为一个可以观察、思考和行动的数字实体——就像人类与周围环境互动一样，但以编程和有目的的方式进行。
AI智能体的概念建立在理性行为的基本思想之上：智能体应采取行动，以最大限度地提高其实现指定目标的机会。这种理性是AI智能体与简单响应程序的区别所在。

2.1 AI智能体的特征

AI智能体具有以下关键特征：

自主性：无需人工干预即可运行，独立做出决策。
反应性和主动性：对环境变化做出反应，并采取主动措施来实现目标。
适应性：通过处理新信息和经验来学习和发展。
目标导向：致力于实现预定义的目标或优化结果。
交互性：与其他智能体或人类进行交流和协作。
持久性：持续运行，监控并响应动态环境。

3. AI智能体的核心组成部分

AI智能体的核心由以下组成部分构成：

感知 (Perception)
推理 (Reasoning)
行动 (Action)
知识库 (Knowledge Base)
学习 (Learning)
通信接口 (Communication Interface)

3.1 感知（传感器）

这些允许智能体感知其环境。这些可以是物理传感器（摄像头、麦克风）或数字输入（数据流、用户交互）。
3.2 推理（处理器）

智能体的“大脑”，用于处理来自传感器的信息并确定适当的行动。此组件实现智能体的决策算法并维护任何必要的内部状态。
AI智能体使用各种决策机制，例如基于规则的系统、专家系统和神经网络，以做出明智的选择并有效地执行任务。
3.3 行动（执行器）

智能体影响其环境或简单地使其能够采取行动的手段。这些可以是物理的（机器人手臂、扬声器）或数字的（数据库更新、显示输出）。
3.4 知识库

智能体用于做出决策的信息库，包括预编程的知识和学习的信息。
3.5 学习

使智能体能够通过从数据和经验中学习来随着时间的推移提高其性能。它使用强化学习、监督学习和无监督学习等技术来提高AI智能体随时间的推移的性能。
3.6 通信接口

允许智能体与其他智能体、系统或人类交互。

我们将在下面的部分中介绍它们中的每一个，同时详细介绍智能体的工作原理。
4. AI智能体如何与其环境交互

交互周期通常称为“感知-计划-行动”周期或“感知-行动”周期。让我们以自动驾驶汽车为例来理解每个阶段：
4.1 感知阶段

将此视为智能体的“感知”阶段：
传感器 → 处理 → 状态更新

智能体通过其传感器接收输入
信息被处理和解释
根据新信息更新当前状态

4.2 决策阶段

这是智能体的“思考”阶段：
当前状态 + 目标 → 评估选项 → 选择最佳行动

智能体评估可能的行动
考虑目标和约束
根据可用信息选择最佳行动

4.3 行动阶段

这是“执行”阶段：
执行行动 → 观察变化 → 开始新周期

通过执行器执行选定的操作
环境因此而改变
智能体通过传感器观察结果，开始一个新的周期。

这个周期不断重复，通常每秒重复多次。使这个周期变得强大的是：

适应性：如果发生意外情况，智能体可以在下一个感知阶段检测到这一点，并相应地调整其行动。
学习机会：智能体可以比较预测结果与实际结果，以改进未来的决策。
目标导向行为：每个周期都会使智能体更接近其目标，同时遵守约束。

为了从编程的角度来理解它，让我们通过使用恒温器的类比来比较三种复杂程度：

简单程序

# 简单程序
if temperature > desired_temperature:
turn_on_cooling()

复制代码

只遵循固定规则
不考虑后果
没有学习或适应
响应程序

# 响应程序
if temperature > desired_temperature:
if time_of_day == &#34;peak_hours&#34;:
turn_on_cooling_eco_mode()
else:
turn_on_cooling_normal()

复制代码

更复杂的规则
一些上下文感知
仍然没有真正的智能
AI智能体

class SmartThermostat:
def perceive(self):
current_temp = get_temperature()
time = get_time()
electricity_price = get_current_price()
weather_forecast = get_forecast()
user_preferences = get_preferences()
return Environment(current_temp, time, electricity_price,
weather_forecast, user_preferences)
def think(self, environment):
possible_actions = [
NoAction(),
CoolNormal(),
CoolEco(),
PreCool(),
WaitForOffPeak()
]
# Evaluate each action&#39;s expected outcome
best_action = None
best_utility = float(&#39;-inf&#39;)
for action in possible_actions:
predicted_state = predict_future_state(environment, action)
utility = calculate_utility(predicted_state)
if utility > best_utility:
best_action = action
best_utility = utility
return best_action
def act(self, action):
action.execute()
monitor_results()
update_learning_model()

复制代码

考虑多个因素
预测结果
从经验中学习
优化长期目标
平衡竞争目标

这个相同的周期适用于所有 AI智能体：

聊天机器人感知文本输入，决定适当的回复，并通过生成文本来行动
交易机器人感知市场数据，决定交易策略，并通过进行交易来行动
扫地机器人感知房间布局和污垢，决定清洁模式，并通过移动和激活其清洁机制来行动。

5. AI智能体如何运作？

假设你的智能冰箱不仅会在你用完牛奶时重新订购牛奶，还会根据你的浏览习惯建议你改用杏仁奶。这就是AI智能体的精髓。
AI智能体可以理解人类语言（这要归功于LLM），通过信息进行推理，规划行动，并在不需要持续人工输入的情况下执行任务。它们解决复杂的问题，这使它们比简单的自动化工具更先进。与基本脚本不同，AI智能体集成到软件系统中，允许与环境进行复杂的交互。
AI智能体与简单自动化有何不同？
嗯，它们的不同之处在于两个主要的功能：

工具 (tools)
规划 (planning)

工具
你已经看到 ChatGPT 在基本的数学问题上犯错误。这是因为它只根据其接受训练的数据做出回应。
同样，如果我要求你将 85 和 65 相乘，作为一个人，如果你已经知道答案或者通过使用称为计算器的工具，你可以直接回答这个问题，对吗？
你正在对智能体做同样的事情，让他们访问工具。
规划
采取相同的数学计算，你只有在知道乘法或知道要传递给计算器的参数是什么（即 85 和 65 以及一个乘法）时才能解决此问题。
这就是规划和推理。
以下是查询AI智能体时发生的事情的流程。

5.1 编排层（控制中心）

假设我想创建一个AI智能体会议安排器，我查询该安排器，“我想为我所有的学生举办一个网络研讨会”。
这将被视为AI智能体的触发器。

查询可以是文本、音频、视频或图像。无论数据类型是什么，它都将始终转换为机器的数值。
该查询将由编排层（又名AI智能体的控制中心）处理。
编排层有 4 项主要工作：

记忆（Memory）：维护你整个交互的记忆。
状态（State）：存储整个过程的当前状态。
推理（Reasoning）：指导智能体的推理。
规划（Planning）：有哪些步骤，下一步是什么？

它将与模型（LLM）交互。
5.2 模型（大脑）

该模型是整个智能体的集中决策者。它通常是像大型语言模型这样的AI模型。

为了理解查询、制定计划和确定下一步操作，该模型使用以下推理和逻辑框架：

ReAct（推理 + 行动）: 确保深思熟虑的行动
思维链 : 通过中间步骤进行推理。
思维树 : 探索多条路径以找到最佳解决方案

该模型确定要采取哪些操作，并使用特定工具执行这些操作。
5.3 工具（双手）

使用工具，智能体可以与外部世界交互。
就像我告诉你的，计算器、API、网络搜索、外部数据库等。

工具使智能体能够执行超出模型范围的操作、访问实时信息或完成现实世界的任务。
6. ✅ 何时使用智能体 / ⛔ 何时避免使用它们

当您需要 LLM 确定应用程序的工作流程时，智能体很有用。但它们通常是过度的。问题是：为了有效地解决手头的任务，我是否真的需要工作流程的灵活性？如果预先确定的工作流程经常失败，这意味着你需要更大的灵活性。让我们举个例子：假设您正在制作一个应用程序，用于处理冲浪旅行网站上的客户请求。
您可以提前知道这些请求将属于 2 个桶中的一个（基于用户的选择），并且您为这两个案例中的每一个都有一个预定义的工作流程。

想要了解有关旅行的信息吗？ ⇒ 让它们访问搜索栏以搜索你的知识库
想和销售人员交谈吗？ ⇒ 让他们填写联系表格。

如果该确定性工作流程适合所有查询，请使用所有方法进行编码！这将为你提供一个 100% 可靠的系统，并且不会有因让不可预测的 LLM 干预你的工作流程而引入错误的风险。为了简单性和稳健性，建议规范化为不使用任何智能体行为。
但是，如果工作流程无法提前确定得那么好怎么办？
例如，用户想问：“我可以在周一到来，但我忘记了护照，所以有延误到周三的风险，是否可以在周二早上带我和我的东西去冲浪，并购买取消保险？” 这个问题取决于许多因素，并且以上任何预定标准都可能无法满足此要求。
如果预先确定的工作流程经常失败，这意味着你需要更大的灵活性。
这就是智能体设置有帮助的地方。
在上面的示例中，你可以制作一个多步智能体，该智能体可以访问天气 API 获取天气预报、谷歌地图 API 计算出行距离、员工可用性仪表板以及你知识库中的 RAG 系统。
直到最近，计算机程序还仅限于预先确定的工作流程，试图通过堆积 if/else 开关来处理复杂性。它们专注于极其狭窄的任务，例如“计算这些数字的总和”或“找到这个图中的最短路径”。但实际上，大多数现实生活中的任务，例如我们的旅行示例，并不适合预先确定的工作流程。智能体系统为程序打开了广阔的现实世界任务！
8. 总结

AI智能体正在改变我们与技术交互的方式，提供前所未有的自主性、智能和适应性。从简单的反射智能体到复杂的学习系统，它们被应用于各个行业以解决复杂的问题并增强人类能力。然而，构建有效的AI智能体面临着挑战，包括伦理问题、数据依赖性和可扩展性问题。
随着AI技术的不断发展，AI智能体的未来蕴藏着巨大的潜力。通过关注通用AI、人机协同和伦理考虑，我们可以创建不仅高效地执行任务而且与人类价值观保持一致并对社会做出积极贡献的智能体。
AI智能体是感知、决策和行动以实现目标的自主系统。

核心组成部分包括传感器、执行器、决策引擎和学习模块。
AI智能体用于虚拟助手、自动驾驶汽车和医疗保健等应用。

通过了解基本原理并及时了解进展，我们可以利用AI智能体的力量来推动创新并创造更美好的未来。
<hr/>我会定期更新干货和学习笔记。喜欢的话，记得点个关注，不错过后续精彩内容！

发表于 2025-4-9 15:47:32

AI智能体（AI Agent）是指由大语言模型（LLM）驱动，拥有一定可执行操作，能够感知环境，记忆，并且能够自行决策的产物。

与LLM的区别在于，智能体能够实现更多复杂功能，并且具备自主性。

它和LLM的关系在于：智能体是LLM驱动的，你可以把LLM视作它的大脑。
用于实现其它功能的脚本，工具，则像四肢。额外的知识库，能够提供记忆。
使LLM进行自主决策，这实际上是由提示词来决定的，当然，更确切的说是提示工程。

一般的LLM通过对话来完成提示词的交代，但如果是一个智能体，其提示词很有可能是内置的，包括了角色扮演（“你是一个xx智能体.....”）以及推理和决策的具体要求（“若......则”）。

这种东西复杂了讲就可以做成决策树，不仅有完整一套流程，如果可以的话甚至还可以为每条分支增加权重。这背后是很值得探讨的。

发表于 2025-4-9 15:56:48

写在前面

AI 智能体，又名 AI Agent，即人工智能代理，是指能够自主地执行任务、与环境交互并根据特定目标做出决策的智能系统。
可以看到，LLM是AI Agent的核心工具，用chatGPT是要一问一答的交互，但是涉及到一个复杂问题的时候，则需要根据LLM的反馈和环境变化自动的运行下去，这里就会涉及到对于这个具体问题的规划和假设，简单的理解就是把LLM放在了循环里：

while True:
LLM()
others() # 其他环境变化

复制代码

其实已经完成了，为了讲清楚，下面我多写几句：
1 AI Agent 历史和现状

早期探索阶段（20世纪50-70年代）人工智能代理的思想可以追溯到20世纪50年代，当时计算机科学的奠基者如艾伦·图灵（Alan Turing）开始提出关于机器思维和智能的理论。
增强学习和自适应智能（20世纪80-90年代）1980年代引入了增强学习（Reinforcement Learning, RL）概念，使得AI代理可以通过与环境的交互逐渐学习，并通过奖惩机制优化策略。经典的Q-learning算法和时序差分学习推动了这类智能系统的发展。
深度学习与增强学习的融合（2010年至今）AI代理的发展在2010年代迎来了一个重要突破。谷歌DeepMind开发的深度Q网络（DQN）结合了深度学习和增强学习，使得代理能够处理高维度输入（如视觉信息）并在复杂环境中表现出高水平的策略学习。这一技术被广泛应用于游戏AI（如AlphaGo）、自动驾驶、机器人控制等领域。
多模态与通用智能（AGI）2023年连续多个AI Agent发布...

1.1 AI Agent 和LLM

LLM to AGI
LLM 初期，对其能力边界还没有清晰认知，以为 LLM 是通向 AGI 的路径，即：LLM to AGI，但是实际结果差强人意。
LLM to AI Agent to AGI
现实的问题往往比较复杂，LLM的能力并不能直接到达 AGI，但是借助一个/多个 Agent 可以有望实现通往 AGI 的道路：将最重要的“任务规划” 交由 LLM。例如：AutoGPT 和 BabyAGI 等项目为代表的大动作模型（Large-Action Models / Large-Agent Models， LAM ）将 LLM 作为 Agent 的中心，将复杂任务进行分解，在每个子步骤实现自主决策和执行。

1.2 AI Agent 和多模态

越来越多的科学家认为多模态智能体将是 AI 的未来。
——《Bahrckd ydhcc》

和AI Agent 恰好很契合，但是LLM对多模态的支持很弱，在没有大佬领路的情况下，大家结构大同小异，都是以 LLM 作为为核心，在多模态输入和输出侧分别加上 encoder 和 diffusion 生成模型。

通过Encoder 把图片、音频和视频编码 LLM 所能理解的向量，LLM 和 Encoder 间训练 Projection Layer，作为图像、音频和视频输入到 LLM 之间的映射关系；
Diffusion 根据 LLM 输出，生成图片、音频和视频，LLM 和 Diffusion 间训练 Projection Layer，作为 LLM 输出到图像、音频和视频输出之间的映射关系。
LLM 外挂 LoRA 用来实现指令微调 Instruction Tuning，把多模态的输入输出数据输入，让 LLM 学会在多模态间进行转换（如输入图片和文字描述的问题，输出文字回复）。

说白了，这些2023年出来的多模态本质上还是文字的LLM，额外做个转换而已，只是逻辑上还是合理的，用多模态来感知世界，基于不同场景用不同AI Agent来执行得到系统级的应用，说得好像很美好，当然现实很骨感，根本没法用。

猜想：
现实是多模态比起文字效果差太多了，也许技术上靠谱多模态大模型很有可能是类 Next-GPT 结构，但其训练方式绝对不是 Instruction Tuning，而是在预训练阶段使用大量的图片、语音、文字甚至视频的多模态语料进行端到端的训练。

2 AI Agent 组成介绍

前面讲了，AI Agent=LLM + 记忆 + 规划 + 工具，具体一点是怎么回事呢？

2.1 规划 Planning

规划定义：一项复杂任务通常包括多个子步骤，Agent 需要提前将一项任务分解为多个子任务。
子目标与分解（Subgoal and decomposition）：Agent 将复杂任务分解为更小、更易于处理的子目标，从而实现对复杂任务的高效处理。
反思与完善（Reflection and refinement）：Agent 可以对历史的动作进行自我批评和自我反思，从错误中吸取教训，并为未来的步骤进行改进，从而提高最终结果的质量。
实现：通过prompt engine来引导 LLM 实现规划（即步骤分解）。

2.2 记忆 Memory

这个记忆其实就是模仿人类啦，人类擅长拥有不同类型记忆能力，而 LLM 很难理解新概念或者少量新数据，所以根据这个模仿人类的记忆能力做了调整，让LLM同时具备短期和长期记忆能力。

短期记忆（Short-term memory): 所有上下文学习（In-context Learning），都是利用模型的短期记忆来学习。
•长期记忆（Long-term memory): 为 Agent 提供长时间保留和回忆信息的能力，这个时候需要借助外部向量存储和快速检索来实现。
实现: 短期记忆使用Prompt Engineering，长期记忆使用向量数据库实现。

2.3 工具 Tool

Agent 会调用外部提供好的 API，补充 LLM 输出中缺失的额外信息，包括当前状态信息、具体的代码执行能力、访问专有信息源等，都需要借助外部的工具组件，说白了，就是作弊！！！本身LLM没那个能力怎么办呢，用OpenAI呀~
举两个例子：

MRKL（Modular Reasoning，Knowledge and Language）

这个指的是一组实现好的专家模块，可能是个LLM，也可以是其他简单功能，比如计算器闹钟啥的，都是现成的东西。

TALM（Tool Augmented Language Models ）

比如就是ChatGPT 插件和 OpenAI API 函数调用，其中工具 API 集合可以由其他开发人员提供（如插件）或自定义（如函数调用）
这个就是所谓的遮羞布了，说了半天都在吹LLM在垂直领域的应用，最后都是调用OpenAI，自己本地喂一些本地的数据，这个笔者在国内还是海外见过的大多数的AI公司都是如此，到底好不好用都是看外部的大模型本身的能力。
2.4 规划 Planning

其实这个就是AI Agent干的活，将一项复杂的任务涉及的步骤做个拆解，并提前进行规划，当然作弊也是在这里实现的，比如可以提前喂一些背景信息啦，调用外部LLM啦等等。

可能用到的技术比如思维链（Chain-of-thought，CoT），考虑多个CoT的的思维树（Tree of Thoughts，ToT），
3 AI Agent 热门应用

AI Agent大概可以分三类：

Simulations Agent：模拟智能体，在模拟器中包括一个 and/or 多个 Agent 相互作用。
Automatic Agent：自动化智能体，给定一个 and/or 多个长期目标，独立执行这些目标。
MultimodalAgent：多模态智能体，除 NLP 信息外还可以拓展到图像，语音，视频的交互

3.1 Simulations Agent

Agent 包括一个/多个 Agents 相互作用。模拟 Agent 通常包括两个主要组件：长期记忆&模拟环境。
例如：CAMEL 是一个 Role-Playing 框架，使多个 Agents 能够进行对话并合作解决分配的任务。比如开发股票交易机器人，一个人工智能助理 Agent，是一个 python 程序员，而人工智能用户 Agent 是一股票交易员。在人类用户输入结束后，Task Specifier 会把任务具体化，通过对网络上特定股票进行情感分析，然后根据情感分析的结果进行股票交易。当任务被具体化后，两个基于 ChatGPT 的 AI 智能体开始合作完成任务，比如进行工具的安装和导入。
3.2 Automatic Agent

给 Agents 一个/多个目标，独立地执行这些目标。这些应用程序结合了工具使用和长期内存。典型的有AutoGPT，BabyAGI。它就是根据假设去实现特定的目标。
3.3 MultimodalAgent

Agents不仅可以处理纯文本的信息，还可以拓展到多模态来完成图像，语音，视频的交互。典型的应用有Visual ChatGPT，AssistGPT，HuggingGPT。
HuggingGPT 把 LLM 作为一个 Agent，用于管理和组织 Huggingface 上的模型（文生图、图生文、目标检测等模型），LLM 首先会根据用户的请求规划一个任务清单，然后给每个任务指派一个HuggingFace 模型，AI 模型执行完以后，LLM收集结果并返回给用户。
AssistGPT 采用了为Plan, Execute, Inspect, and Learn (PEIL)的交错代码和语言推理方法，将 LLMs 与各种工具集成起来。Planner 能够使用 NLP 来计划基于当前推理进度，Executor 哪个工具应该接下来执行。Inspector作为高效内存管理器，可以帮助Planner 将适当的 CV 信息输入到特定工具。通过 Learner 使模型能够自主地探索和发现最优解。
Visual ChatGPT 的思路是使用 chatGPT 调用视觉模型来迭代的完成图像编辑的任务。
4 AI Agent 的局限性——揭开 Agent的遮羞布

4.1 AI Agent的局限性

简单一个图可以看到做Agent可以有两个路径，一个就是从Pre-training or Fine-tuning 阶段实现 Language Agent，自己训练LLM去做一切，或者与利用 Prompt engineering 实现 Agent，外挂一个LLM，最难受的就是就算做了效果也未必好，因为你自己做的LLM打不过外挂的LLM。
数据处理：把客户的数据通过LLM训练出一个向量数据库，将来根据你的输入匹配出一堆信息喂给LLM作弊用。
调优：所谓的微调的意思就是说能力就是开源LLM，调优的效果是未知的，其实不调也差不多。
推理：LLM作为推理控制的工具，它还能调用Tools（比如调用OpenAI)，把结果做个呈现。
结果就是，这个玩法的能力上限是OpenAI，如果你自己微调的LLM的能力超不过外部LLM，那么你就打不过外挂OpenAI的Agent，如果你能打得过OpenAI，你就是OpenAI了，单独训练一个LLM是吃力不讨好的事情，所以可以看到市场上的玩法都是利用Prompt engineering来落地。

发表于 2025-4-9 16:07:45

如果说23年最火的是大模型本身的构建，24年最热的就是智能体。
各互联网大厂陆续推出自己智能体平台，比如说百度的文心智能体平台AgentBuilder、字节的扣子、阿里的百炼等等。对于独立开发者来说，要学会如何去使用智能体平台构建智能体应用；对于研发工程师来说，要学会智能体的技术原理，比如说如何设计RAG，大模型如何选择工具等等。
然而无论你是什么职业，首先要搞清楚什么是智能体？以及和大模型的关系是什么。
智能体与LLM的关系

想象一个庞大的文本和代码库，大模型（LLM）就像一个吸收了所有这些信息的超级读者。LLM经过大量数据的训练，可以生成文本、翻译语言、编写不同类型的创意内容，并以信息丰富的方式回答您的问题。
将LLM视为强大的语言引擎。它可以处理信息并做出响应，但缺少一些关键功能：
首先是推理，LLM难以解决需要逻辑推理的复杂问题。
其次LLM 的记忆有限，因此它们不一定能记住过去的互动或使用它们来指导未来的响应。虽然大模型可以通过多轮对话提供一定的“记忆性”，不过因为大模型的上下文的长度的有限，所以当多轮对话的长度超过大模型上下文长度的时候，大模型就完全不记得前面你说了什么，表现出&#34;失忆&#34;的症状。
LLM无法与现实世界互动，LLM主要处理语言，他们不能直接与现实世界互动。举个例子，LLM由于Transformer架构限制，天生就不擅长处理复杂的数理计算。假设目前我存在一个计算器的接口，仅靠LLM是无法调用计算器的接口。
所以说智能体是建立在LLM的功能之上。这就像给LLM一个工具箱并教它如何使用这些工具。如果把LLM比作大脑，那么智能体就像是给大脑配上了四肢、五官。大脑可以指挥身体干活，怎么指挥？干什么活？这体现出设计智能体的多样性和复杂性。
现在很多公司将智能体，看作最好的AI方向。对于求职者来说，学好智能体，用好智能体，才能在目前的就业环境中脱颖而出。正好目前知乎知学堂推出了一门程序员的AI大模型进阶之旅公开课，里面介绍了智能体常用的技术，比如说如何做RAG、知识库怎么构建、自己怎么搭建智能体应用等等。链接放下面啦，感兴趣的同学可以看看。
我自己也听了听，公开课的内容深入简出，还是挺有收获的。
回到主题上，智能体除了核心LLM之外还包括：
1.知识库：用于存放大模型训练数据之外的私域数据。
2.接口：与世界互动的方式，例如连接到 API 或外部服务。
3.工具：代码执行或数据分析等功能。
4.提示工程：提示工程的本质上是指示智能体如何使用LLM核心与其他工具来实现特定目标的指令。
我们可以将智能体视为更通用、更强大的AI。它不仅可以理解和响应语言，还可以通过其工具推理、记忆并可能在现实世界中采取行动。
智能体的应用场景

想象一个客户服务场景：
1.只用LLM，基本的 LLM 聊天机器人可以通过搜索其庞大的文本知识库来回答常见问题。例如，“您的退货政策是什么？” LLM 可以找到相关信息并将其提供给客户。但是，它可能难以处理复杂的查询或需要重复提示才能了解客户的意图。
2.用智能体，智能体可以处理更广泛的客户查询。它可以访问产品数据库（知识库）来回答有关产品功能或可用性的具体问题。它还可以记住过去与客户的互动（记忆），以个性化对话并避免重复信息。此外，智能体还可以连接到API（接口）以跟踪订单或启动退货流程（操作）。
前段时间小米汽车上搭配的大模型，就是一个非常典型的智能体在车载终端上的应用。通过车载智能体，可以灵活调用、控制和集成车上的软件功能。与传统的Siri等智能语言助手不同的是，智能体不是简单的命令执行者，而是规划、决策和执行的多面手。
再比如我要从北京到南京安排一个游玩形成，这时候需要智能体帮我在百度地图上规划出路线，在携程上给我购票，在美团上买好景点门票，做好最完美的攻略和一站式服务。
随着单智能体技术的深入，研究人员并不满足于单个智能体的决策调度，从而提出了多智能体这个概念。比如著名的斯坦福小镇，25个ChatGPT组成的虚拟世界，完完全全地模拟了真实的人类生活。他们像人类一样进行着自己的活动，也像人类一样彼此交流，所有的感知、思考、行动全靠大模型，是不是有西部世界那味了？
此外，最近清华团队的研究人员开发了一个名为Agent Hospital的模拟医院，可以完全模拟医患看病的全流程。更重要的是，AI医生可以自主进化，仅用几天的时间治疗大约1万名患者
至于agents这种本身没有技术护城河，难的是怎么去协调各个厂家的产品和生态去开放和适配给你的agents。当然，agnet还有许多局限性，其本质原因还是于基座大模型各方面能力仍然不足。
不过从长远的角度来看，我一直认为智能体是AI大模型应用的最终版本。智能体本质上高度依赖于大模型参数量剧增所带来的逻辑推理、任务拆解、数理分析等能力，学术上也称之为“智能涌现”。
我曾在去年想象大模型会给手机行业带来颠覆式的变革。目前我们用手机均是采用图形用户界面（GUI），然而智能体发展到一定阶段，人类与产品的交互模式，将从图形用户界面（GUI）转化为语言用户界面（LUI），设计师无需再设计大量组件、前端也无需根据设计稿形成界面，可能未来的手机界面只有一个类似Siri的对话器，用户通过语言或者脑机接口描述自己的需求，大模型接到用户需求后，分析需求、拆分任务，派发任务、解决任务。国外已经有Ai Pin等产品实现了上述想法。
随着底座大模型各方面能力进一步加强，智能体表现水平越来越高，或许它即将成为AI时代的新风口。

发表于 2025-4-9 16:18:58

如果现在让你玩 Winning Eleven 也就是实况足球，和电脑玩，电脑是怎么实现跟你对战的呢？

为什么要举实况足球这个例子呢，是因为足球类游戏，每一方都最多有 11 个人，那么有两个问题，第一是，人类玩家是如何控制你自己队里的其他没有被玩家控制的人？第二是电脑怎么控制对方队伍里的人？其实，这两个问题的答案都是一个。因为人类玩家同一时刻，只能控制一个人，其他人的无球跑动，被动防守，其实和对方是一样的，都是电脑控制。只不过做为玩家，你可以随时接管本队的其他人。
所以，如果现在场上有 22 个队员，除了一个人类玩家之外，其他 21 个队员，就是 21 个 agent，是单独的由游戏后台来控制的，也可以看作是 NPC，也就是是 non-player character，非玩家角色。
这时，最简单的方式，就是按独立的个体规则来虚拟每一个 NPC，每个个体可以根据足球规则和战术配置完成自己应该完成的基本职能，这里面这个个体它行为决策的基本逻辑，就和一个足球场上 22 个人一起踢球一样了，每个人都是独立的个体，但是同一个队的人可以按照相同的目标来协调，不同队的人也可以在这样的目标下进行对抗，当然同一个队里是粘球贪功还是大公无私给队友做饼也是正常会发生的情况。换言之，所有的个体，包括人类玩家，在同时同场情况下进行博弈。
而我们岔出去说个事，比如我们所熟悉的 AlphaGO，则是两个玩家博弈，它也是 agent ，只不过因为一个人类玩家情况下就只有一个 agent ，也就是不存在 agent 之间博弈问题了，所以 AlphaGo 这种对弈情况不太适合做今天的栗子，虽然它也是一类 agent 。但是很多其他复杂游戏都是多 agent 博弈的。
再扩展的说，足球比赛中，裁判、教练，以及可能会对结果造成影响的，可能产生主观上不同决定造成对结果有影响的角色，都可以在规则下使用 agent 来替换。但是像天气这样的因素，是大概率不会因为场上球员的动作发生什么变化的，它是可以通过规则进行约定，则不需要进行 agent 虚拟的。
<hr/>好，前面简单举例说了一下什么是 agent ，那么 ai agent 就好理解了，就是通过最近近些年比较流行的诸如深度强化学习等技术（留意这个不是 ChatGPT 技术）加持的 agent 技术。反过来，如果没有这些技术，用传统的基于规则的，或者基于决策树等技术的 agent，它也是 agent，只不过没有现在这么智能，没有那么强。这在 16 年 AlphaGo 已经给出过答案了，快十年啦老铁们。所以十年前的实况，你会觉得对方好傻，同时也会觉得队友好傻，现在的就会好很多。
那么和大模型的关系呢，怎么说呢，其实就是一种新的概念和方法来输出“更强”的 agent 效果的。这里我还是得加个引号，虽然更大的模型规模确实可以让深度强化学习模型变得更强，至于使用生成式方法来做此类问题的新方法是否更强，个人略谨慎。不过当前的研究表明，因为生成是模型所产生的多模态输入、更大的决策空间、更多的涌现特性，在复杂的上下文场景下，相比之前的强化学习方法较为简单的决策空间，单一的输入形式，规则较为明确的场景问题（比如比赛）来说，还是具有不少优势。

什么是 AI 智能体，和大模型有什么关系？

本周热门