Agent 基础概念：从 Chatbot 到智能体

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

Souloss

公告

欢迎来到我的博客！这是一条示例公告

Learn More

标签

2720 字

7 分钟

Agent 基础概念：从 Chatbot 到智能体

2024-12-08

AI

/

Agent

/

LLM

你让 ChatGPT 帮你写一封邮件，它立刻给出了一篇文采斐然的回复。你让 Claude 帮你分析一份财报，它条理清晰地列出了关键数据。

但你有没有想过：为什么 ChatGPT 不能帮你直接发送这封邮件？为什么 Claude 不能主动查询数据库获取最新的财报数据？

答案很简单：它们是 Chatbot（聊天机器人），不是 Agent（智能体）。

本文要点#

Chatbot 与 Agent 的本质区别
Agent 的四大核心能力：感知、规划、执行、反思
ReAct 范式：推理与行动的协同
Agent 的三大特性：自主性、主动性、交互性
从 LLM 到 Agent 的演进路径

一、Chatbot vs Agent：本质区别是什么？#

1.1 场景对比#

想象你有一个助手，你让它「帮我预订明天去上海的机票」。

Chatbot 的回应：

1
好的，我可以帮你写一封预订机票的邮件模板：
2

3
主题：机票预订申请
4

5
尊敬的客服人员：
6

7
    我想预订一张明天（3月21日）从北京前往上海的经济舱机票。请告知航班时间和票价，我将尽快完成支付。
8

9
    此致
10
    敬礼
11

12
你可以将这封邮件发送给航空公司或旅行社。

Agent 的回应：

1
好的，我来帮你预订机票。
2

3
[执行步骤]
4
1. 查询明天北京→上海的航班信息...
5
   找到 15 个可选航班
6

7
2. 根据你的偏好筛选（经济舱、上午出发）...
8
   筛选出 5 个航班
9

10
3. 调用订票系统...
11
   已锁定航班 CA1234，09:00 起飞，票价 580 元
12

13
4. 发送确认短信到你的手机...
14
   短信验证码已发送
15

16
请输入验证码完成支付，或回复「取消」放弃预订。

看出区别了吗？

1.2 核心差异分析#

维度	Chatbot	Agent
输出形式	文本内容	行动结果
能力边界	只能「说」	能「说」也能「做」
知识来源	训练数据	训练数据 + 实时工具
交互模式	一问一答	任务驱动、多轮执行
自主程度	完全依赖用户指令	可自主规划和决策

用一句话总结：Chatbot 是「会说」的助手，Agent 是「会做」的助手。

1.3 为什么需要 Agent？#

Chatbot 已经很强大了，为什么还需要 Agent？

问题一：知识时效性

Chatbot 的知识停留在训练数据的截止日期。你问它「今天北京天气如何」，它只能说「我无法获取实时信息」。

Agent 可以调用天气 API，获取实时数据并回答。

问题二：行动能力缺失

Chatbot 只能生成文本。你让它「帮我发送邮件」，它只能给你写邮件内容，不能真的发送。

Agent 可以调用邮件服务 API，直接完成发送动作。

问题三：复杂任务分解

用户的需求往往是模糊的：「帮我安排一次旅行」。Chatbot 只能给出建议清单。

Agent 可以拆解任务：查询机票→预订酒店→安排行程→设置提醒，一步步完成。

二、Agent 核心循环：感知-规划-执行-反思#

Agent 如何从「用户指令」到「任务完成」？这背后是一个四阶段的循环过程。

2.1 整体架构#

flowchart TD A[用户输入] --> B[感知：理解任务] B --> C[规划：分解步骤] C --> D[执行：调用工具] D --> E[反思：评估结果] E --> F{任务完成?} F -->|否| G[调整策略] G --> C F -->|是| H[输出结果]

2.2 阶段一：感知（Perception）#

目标：理解用户真正想要什么。

用户说「帮我订机票」，Agent 需要理解：

目的地是哪里？
出发地是哪里？
什么时间？
有什么偏好（舱位、航空公司）？

这个过程涉及：

1
原始输入：「帮我订明天去上海的机票」
2

3
感知结果：
4
{
5
    "intent": "book_flight",
6
    "destination": "上海",
7
    "date": "明天（需要转换为具体日期）",
8
    "departure": "未知（需要推断或询问）",
9
    "preferences": {}
10
}

感知的关键挑战：

歧义消解：「苹果」是水果还是公司？
隐含信息推断：用户没说出发地，可能需要推断为当前位置
上下文理解：记住之前的对话内容

2.3 阶段二：规划（Planning）#

目标：制定完成任务的具体步骤。

对于「订机票」这个任务，规划可能是：

flowchart LR A[1. 获取当前位置] --> B[2. 查询航班] B --> C[3. 筛选航班] C --> D[4. 调用订票接口] D --> E[5. 发送确认]

规划的两种模式：

模式	描述	适用场景
静态规划	一次性生成完整计划	结构化任务
动态规划	边执行边调整	不确定性高的任务

规划示例：

1
# 静态规划
2
plan = [
3
    {"step": 1, "action": "get_location", "purpose": "获取用户当前位置"},
4
    {"step": 2, "action": "search_flights", "purpose": "查询航班"},
5
    {"step": 3, "action": "book_ticket", "purpose": "预订机票"},
6
    {"step": 4, "action": "send_confirmation", "purpose": "发送确认通知"}
7
]
8

9
# 动态规划
10
def plan_next_step(context):
11
    if context.get("location_unknown"):
12
        return "ask_location"
13
    elif context.get("flights_found"):
14
        return "select_flight"
15
    # ...

2.4 阶段三：执行（Execution）#

目标：调用工具完成具体操作。

Agent 需要能够调用外部工具：

1
工具调用示例：
2

3
步骤 1：获取位置
4
→ 调用 get_location() API
5
→ 结果：北京
6

7
步骤 2：查询航班
8
→ 调用 search_flights(from="北京", to="上海", date="2026-03-21")
9
→ 结果：[CA1234, MU5678, ...]
10

11
步骤 3：预订机票
12
→ 调用 book_ticket(flight="CA1234", class="economy")
13
→ 结果：预订成功，订单号 12345

执行的关键能力：

工具选择：判断应该调用哪个工具
参数提取：从上下文中提取工具所需参数
错误处理：工具调用失败时的重试或降级策略

2.5 阶段四：反思（Reflection）#

目标：评估执行结果，决定下一步行动。

1
反思过程：
2

3
当前状态：已查询航班，找到 5 个选项
4
目标状态：完成机票预订
5
差距分析：用户还未选择具体航班
6
下一步行动：向用户展示航班选项，等待选择
7

8
或者：
9

10
当前状态：预订失败（余额不足）
11
目标状态：完成机票预订
12
差距分析：支付环节出问题
13
下一步行动：通知用户充值或更换支付方式

反思的核心价值：

错误检测：发现执行过程中的问题
策略调整：根据反馈优化后续步骤
学习积累：将经验存储为长期记忆

2.6 完整循环示例#

1
任务：「分析公司最近销售数据，找出下滑最严重的产品」
2

3
=== 感知阶段 ===
4
意图理解：数据分析 + 问题诊断
5
关键信息：需要销售数据、时间范围「最近」、目标「下滑最严重的产品」
6
缺失信息：具体时间范围、数据来源
7

8
=== 规划阶段 ===
9
步骤 1：查询最近 6 个月销售数据
10
步骤 2：计算各产品销售趋势
11
步骤 3：识别下滑最严重的产品
12
步骤 4：分析下滑原因
13
步骤 5：生成报告
14

15
=== 执行阶段 ===
16
步骤 1：调用数据库查询 → 获取销售数据
17
步骤 2：调用分析工具 → 计算增长率
18
步骤 3：排序筛选 → 产品 A 下滑 35%
19
步骤 4：搜索行业新闻 → 可能原因：竞品上市
20
步骤 5：调用报告生成 → 完成分析报告
21

22
=== 反思阶段 ===
23
评估：报告是否完整？
24
结论：缺少具体的改进建议
25
调整：补充步骤 6：生成改进建议
26
再次执行...

三、ReAct 范式：推理与行动的协同#

3.1 什么是 ReAct？#

ReAct（Reasoning + Acting）是 2022 年由普林斯顿大学和 Google Research 提出的 Agent 核心范式。

核心理念：让 LLM 在「思考」和「行动」之间交替进行。

1
Thought（思考）→ Action（行动）→ Observation（观察）→ Thought（再思考）→ ...

3.2 ReAct 循环详解#

flowchart TD A[用户任务] --> B[Thought: 分析当前状态] B --> C[Action: 选择并执行工具] C --> D[Observation: 获取执行结果] D --> E{任务是否完成?} E -->|否| B E -->|是| F[Final Answer: 输出结果]

3.3 ReAct 执行示例#

任务：「北京今天的天气适合户外运动吗？」

1
=== 第 1 轮 ===
2
Thought: 我需要先获取北京今天的天气信息
3
Action: get_weather(city="北京")
4
Observation: 温度 18°C，湿度 65%，空气质量指数 85（良好），无降雨
5

6
=== 第 2 轮 ===
7
Thought: 有了天气数据，现在需要判断是否适合户外运动。
8
        温度 18°C 适宜，湿度 65% 可接受，空气质量良好，无降雨。
9
        综合来看天气条件适合户外运动。
10
Action: finish()
11
Final Answer: 北京今天的天气适合户外运动。温度 18°C，湿度 65%，空气质量良好（AQI 85），
12
             无降雨。建议可以进行跑步、骑行等户外活动，但记得适当补水。

3.4 ReAct 与普通 LLM 对比#

flowchart LR subgraph 普通LLM A1[输入] --> A2[直接输出] end subgraph ReAct B1[输入] --> B2[思考] B2 --> B3[行动] B3 --> B4[观察] B4 --> B5{完成?} B5 -->|否| B2 B5 -->|是| B6[输出] end

普通 LLM 的局限：

只能基于训练数据回答
无法获取实时信息
无法执行实际操作

ReAct 的优势：

通过工具获取实时数据
可以执行具体操作
思考过程透明可解释
可以多步推理解决复杂问题

3.5 ReAct 的 Prompt 模板#

1
REACT_PROMPT = """
2
你是一个智能助手，使用 Thought-Action-Observation 循环完成任务。
3

4
可用工具：
5
{tools_description}
6

7
使用以下格式：
8

9
Thought: 思考下一步应该做什么
10
Action: 工具名称[参数]
11
Observation: 工具执行结果
12
... (重复 Thought/Action/Observation)
13
Thought: 我现在知道最终答案了
14
Final Answer: 最终回答
15

16
开始！
17

18
任务：{task}
19
"""

四、Agent 的三大特性#

4.1 特性一：自主性（Autonomy）#

定义：Agent 能够在最少人工干预的情况下完成任务。

自主性的三个层次：

层次	描述	示例
低自主性	每一步都需要用户确认	「我找到了航班，你确认要预订吗？」
中自主性	在明确范围内自主决策	「我选择了最便宜的航班，已预订」
高自主性	全流程自主执行	「机票已订好，酒店已预订，行程已添加到日历」

自主性的边界：

flowchart TD A[用户意图] --> B{风险等级} B -->|低风险| C[高自主性执行] B -->|中风险| D[事后通知] B -->|高风险| E[事前确认] C --> F[发送消息] D --> G[预订酒店] E --> H[转账支付]

4.2 特性二：主动性（Proactivity）#

定义：Agent 不仅是被动响应，还能主动提供建议和执行任务。

被动模式：

1
用户：帮我订机票
2
Agent：好的，已为你预订...
3

4
用户：帮我订酒店
5
Agent：好的，已为你预订...
6

7
用户：帮我安排接机
8
Agent：好的，已为你安排...

主动模式：

1
用户：帮我订去上海的机票
2
Agent：好的，已预订 CA1234 航班。
3

4
       我注意到你之前去过上海，住的是静安区的某酒店。
5
       这次需要帮你预订同一家吗？
6

7
       另外，你的航班 09:00 到达，是否需要安排接机服务？
8

9
用户：好的，都安排吧。
10
Agent：已全部安排妥当。行程清单已发送到你的邮箱。

主动性的实现：

上下文记忆：记住用户的历史行为和偏好
意图预测：推测用户可能需要什么
智能建议：在适当时机提出建议

4.3 特性三：交互性（Interactivity）#

定义：Agent 能够与用户、环境、其他 Agent 进行有效交互。

flowchart TD A[Agent] <--> B[用户交互] A <--> C[工具/环境交互] A <--> D[其他Agent交互] B --> B1[自然语言对话] B --> B2[多模态交互] B --> B3[反馈收集] C --> C1[API调用] C --> C2[数据库查询] C --> C3[系统操作] D --> D1[任务协作] D --> D2[信息共享] D --> D3[冲突协商]

交互性示例：多 Agent 协作

1
场景：组织一次会议
2

3
[调度Agent]：查询参会人员的日程安排...
4
             发现周三下午 3 点所有人都空闲
5

6
[邮件Agent]：好的，我来发送会议邀请...
7

8
[文档Agent]：我来创建会议纪要模板...
9

10
[提醒Agent]：我会在会议前 30 分钟提醒所有人...
11

12
调度Agent：会议已安排完毕，邀请已发送，提醒已设置。

五、从 LLM 到 Agent：演进路径#

5.1 演进阶梯#

flowchart LR A[基础LLM] --> B[指令微调模型] B --> C[工具调用能力] C --> D[规划能力] D --> E[记忆系统] E --> F[完整Agent] A --> A1[只能生成文本] B --> B1[遵循指令] C --> C1[调用外部工具] D --> D1[多步规划] E --> E1[记住上下文] F --> F1[自主完成任务]

5.2 各阶段详解#

阶段一：基础 LLM

只有文本生成能力，无法理解指令。

1
用户：帮我写一封邮件
2
LLM：帮我写一封邮件帮我写一封邮件...（续写模式）

阶段二：指令微调模型

能够理解并执行指令。

1
用户：帮我写一封邮件
2
模型：好的，请问邮件的主题和收件人是谁？

阶段三：工具调用能力

能够调用外部工具。

1
用户：今天北京天气如何？
2
模型：[调用天气API] 今天北京晴，温度 22°C...

阶段四：规划能力

能够分解复杂任务。

1
用户：帮我安排一次旅行
2
模型：
3
1. 先确定目的地和时间
4
2. 查询机票和酒店
5
3. 规划行程
6
4. 设置提醒

阶段五：记忆系统

能够记住历史交互。

1
用户：订一张去上海的机票
2
模型：好的，已预订。对了，上次你说喜欢吃本帮菜，
3
     需要我帮你预订餐厅吗？

阶段六：完整 Agent

具备自主完成复杂任务的能力。

六、Agent 的典型应用场景#

6.1 场景一：个人助理#

1
任务：「帮我安排明天的日程」
2

3
Agent 执行：
4
1. 查看明天的会议安排
5
2. 预留时间处理紧急邮件
6
3. 根据天气预报提醒带伞
7
4. 设置提醒事项
8
5. 发送日程摘要到手机

6.2 场景二：数据分析#

1
任务：「分析本月销售数据并生成报告」
2

3
Agent 执行：
4
1. 连接数据库，提取销售数据
5
2. 进行数据清洗和统计
6
3. 生成可视化图表
7
4. 撰写分析报告
8
5. 发送报告给相关人员

6.3 场景三：自动化运维#

1
任务：「监控系统异常并自动处理」
2

3
Agent 执行：
4
1. 持续监控服务器状态
5
2. 发现 CPU 使用率异常
6
3. 自动扩容实例
7
4. 发送告警通知
8
5. 记录处理日志

6.4 场景四：研究与调研#

1
任务：「调研 AI Agent 领域的最新进展」
2

3
Agent 执行：
4
1. 搜索最新论文和文章
5
2. 提取关键信息
6
3. 整理对比分析
7
4. 生成调研报告

七、Agent 面临的挑战#

7.1 挑战一：可靠性#

Agent 可能会：

调用错误的工具
生成不合理的计划
在循环中无法终止

解决方案：

设置最大迭代次数
引入人工确认机制
建立工具调用验证层

7.2 挑战二：安全性#

Agent 具有「行动能力」，可能带来风险：

误删重要数据
发送不当信息
执行危险操作

解决方案：

权限分级控制
敏感操作确认机制
操作日志审计

7.3 挑战三：成本控制#

Agent 可能需要多轮 LLM 调用：

Token 消耗大
响应时间长
API 费用高

解决方案：

优化提示词，减少 Token
缓存中间结果
选择性调用 LLM

7.4 挑战四：可解释性#

Agent 的决策过程复杂：

用户不知道 Agent 在做什么
调试困难
责任归属不清

解决方案：

记录完整的思考链
提供执行日志
设计透明的交互界面

常见问题 FAQ#

Q1：Agent 和 RPA（机器人流程自动化）有什么区别？

A：RPA 是基于规则的自动化，执行固定流程。Agent 是基于 AI 的智能化，能够理解自然语言、自主规划、动态调整。RPA 是「机械手」，Agent 是「智能助手」。

Q2：所有 LLM 都可以变成 Agent 吗？

A：理论上可以，但需要满足几个条件：具备指令遵循能力、支持工具调用、有足够的推理能力。目前 GPT-4、Claude、DeepSeek 等主流模型都支持 Agent 开发。

Q3：Agent 适合处理哪些任务？

A：适合处理多步骤任务、需要外部数据或工具的任务、需要一定自主决策的任务。不适合处理对可靠性要求极高的关键任务（如医疗诊断、金融交易），除非有人工监督。

Q4：如何评估 Agent 的性能？

A：主要指标包括：任务完成率、步骤效率、资源消耗、用户满意度。可以在标准数据集（如 AgentBench）上测试。

Q5：Agent 会取代人类工作吗？

A：Agent 更像是增强人类能力的工具。它能处理重复性、流程化的工作，但复杂决策、创造性工作、情感交互等领域仍需要人类。未来更可能是「人 + Agent」协作模式。

小结#

从 Chatbot 到 Agent，是从「对话」到「行动」的跨越：

特性	Chatbot	Agent
核心能力	文本生成	任务执行
交互模式	一问一答	目标驱动
知识来源	训练数据	训练数据 + 工具
自主程度	无	有