每次和 AI 对话,你都要重新自我介绍:“我是后端开发者,用 Go 语言,偏好简洁风格,项目用的是微服务架构……”
上周你们聊过的内容,AI 完全不记得。这就是 LLM 的 “无状态” 问题:每次对话都是一张白纸。
如果 AI 能记住你的偏好、连接你常用的工具和数据源、拥有特定领域的专业技能,那该多好。
这篇文章讲的就是实现这些能力的生态组件:记忆系统、MCP 协议、Skills 技能系统,以及其他让 AI 更强大的技术概念。
本文要点
- AI 记忆系统的分类和实现
- MCP 协议的架构和应用
- Skills 技能系统
- 对齐技术、量化、合成数据等重要概念
一、AI 记忆系统
1.1 为什么需要记忆
LLM 有一个根本问题:无状态。每次对话都是独立的,模型不记得之前说了什么。
这导致三个问题:
- 无法建立长期用户关系
- 无法提供个性化服务
- 每次都要重复提供上下文
记忆系统(Memory)解决的就是这些问题。
1.2 短期记忆
短期记忆管理当前会话的上下文窗口。
挑战: 上下文窗口有限(4K~200K tokens)。对话变长后,早期内容会被截断。
三种方案:
| 方案 | 做法 | 优点 | 缺点 |
|---|---|---|---|
| 滑动窗口 | 只保留最近 N 轮对话 | 简单 | 早期信息丢失 |
| 摘要压缩 | 定期总结早期对话 | 保留关键信息 | 摘要可能遗漏细节 |
| 关键信息提取 | 识别并单独存储重要信息 | 精准 | 实现复杂 |
摘要压缩示例:
1.3 长期记忆
长期记忆跨会话持久化存储,让 AI 在下次对话时 “记住” 你。
存储内容:
- 用户偏好:喜欢简洁的回答、常用 Go 语言
- 用户画像:职业、兴趣、技术栈
- 历史要点:讨论过的关键话题和决策
存储方式:
| 方式 | 特点 | 适用 |
|---|---|---|
| 向量数据库 | 语义检索 | 对话历史 |
| 关系数据库 | 结构化查询 | 用户画像 |
| 知识图谱 | 实体关系 | 复杂关联 |
1.4 语义记忆 vs 情节记忆
语义记忆: 事实性知识。用户是程序员用户喜欢简洁风格。
情节记忆: 具体事件。“上周二用户询问了 JWT 刷新的方案”、“昨天用户抱怨部署太慢”。
两者结合,AI 才能真正 “认识” 你。
1.5 MemGPT
MemGPT 模拟操作系统的内存管理,让 LLM 自主管理记忆。
1.6 生产系统中的记忆实现
class MemorySystem: def __init__(self): self.vector_store = VectorStore() self.user_profile = {}
def add_memory(self, content, metadata): entities = extract_entities(content) self.vector_store.add(content, metadata) self.user_profile.update(entities)
def build_prompt(self, query): memories = self.vector_store.search(query, top_k=5) return f""" 用户画像:{self.user_profile} 相关记忆:{memories} 当前问题:{query} """二、MCP 模型上下文协议
2.1 为什么需要 MCP
AI 应用需要连接各种数据源:文件系统、数据库、API、SaaS 服务。
当前的痛点: 每个 AI 应用都要单独对接每个数据源。3 个 AI 应用 × 5 个数据源 = 15 个对接工作。新增一个数据源,所有应用都要改。
MCP(Model Context Protocol,模型上下文协议) 是 Anthropic 在 2024 年底提出的标准化协议。核心思想:一次接入,处处可用。
类比:MCP 就像 USB-C 接口。以前每个设备配不同的充电线,现在统一用 USB-C。
2.2 MCP 架构
MCP Client: AI 应用(Claude Desktop、Cursor IDE 等)。
MCP Server: 数据源的封装层。把文件系统、数据库、API 等包装成统一接口。
通信协议: JSON-RPC 2.0。
2.3 核心能力
Resources(资源): 只读数据访问。读取文件内容、查询数据库记录、获取配置信息。
Prompts(提示模板): 可复用的提示词模板。代码审查模板、文档生成模板、翻译模板。
Tools(工具): 可执行操作。执行 SQL 查询、发送 HTTP 请求、创建文件、运行代码。
2.4 MCP 在实践中的应用
Cursor IDE 中的 MCP: 配置 MCP Server 后,AI 编程助手可以直接读写代码、执行终端命令、查询数据库。
Claude Desktop 中的 MCP: 连接文件系统后,Claude 可以读取本地文件并回答相关问题。
2.5 开发自定义 MCP Server
from mcp import Server
server = Server("my-company-server")
@server.list_tools()async def list_tools(): return [ Tool(name="query_sales", description="查询销售数据"), Tool(name="send_notification", description="发送通知") ]
@server.call_tool()async def call_tool(name: str, arguments: dict): if name == "query_sales": return query_sales_db(**arguments) elif name == "send_notification": return send_notification(**arguments)
server.run()2.6 已有的 MCP Server 生态
| Server | 功能 |
|---|---|
| filesystem | 文件系统访问 |
| postgres / sqlite | 数据库访问 |
| git | Git 操作 |
| github | GitHub API |
| slack | Slack 集成 |
| fetch | HTTP 请求 |
| brave-search | 搜索服务 |
2.7 A2A vs MCP
| 维度 | MCP | A2A |
|---|---|---|
| 连接对象 | AI ↔ 工具/数据源 | Agent ↔ Agent |
| 提出者 | Anthropic | |
| 解决问题 | AI 如何访问数据 | Agent 如何协作 |
| 类比 | USB-C 接口 | 跨公司合作协议 |
两者互补:MCP 解决 AI 与外部世界的连接,A2A 解决 Agent 之间的协作。
三、Skills 技能系统
3.1 什么是 Skills
Skills(技能)是 AI 能力的模块化封装。
Skills = 领域知识 + 最佳实践 + 工具定义 + 示例类比:浏览器有插件扩展功能,VS Code 有扩展增强编辑器。Skills 就是给 AI 安装的 能力插件。
3.2 Skills 的组成
一个完整的 Skill 包含:
- 元数据:名称、描述、版本
- 领域知识:专业知识文档
- 提示词模板:任务描述和输出格式
- 工具定义:可调用的 API
- 使用示例:输入输出样例
3.3 类型
公共 Skills: 社区贡献的通用能力(文档处理、代码生成、翻译)。
私有 Skills: 企业内部开发,包含专有知识。
个人 Skills: 用户自定义的个性化工作流。
3.4 Cursor Skills 系统
Cursor IDE 实现了 Skills 机制。开发者可以安装和创建 Skills,让 AI 获得特定领域的专业能力(如 Vue 开发规范、Go 最佳实践)。
3.5 Custom Instructions
OpenAI 和 Anthropic 都支持 Custom Instructions(自定义指令),让 AI 记住你的偏好和工作方式。
效果:减少重复沟通,提升输出一致性。
四、其他重要概念
4.1 模型蒸馏
将大模型的知识迁移到小模型。
教师模型(70B)生成大量回答 ↓学生模型(7B)学习这些回答 ↓学生获得教师 80%~90% 的能力,成本降低 10 倍用于边缘部署、成本优化和私有化。
4.2 推理时计算
OpenAI o1/o3 系列的核心创新:允许模型 思考更久,用更多计算换更好推理。
适用于复杂数学、多步逻辑推理、代码调试。不适用于简单问答和实时交互(太慢太贵)。
4.3 MoE 混合专家模型
模型由多个 专家 子网络组成,每次推理只激活部分专家。
DeepSeek V3 的设计:总参数 671B,每次只激活 37B。效果接近 GPT-4,但推理成本低很多。
4.4 对齐技术
让 AI 的行为符合人类意图。
| 方法 | 原理 | 特点 |
|---|---|---|
| RLHF | 人类反馈→训练奖励模型→强化学习 | 效果好但成本高 |
| DPO | 直接从偏好数据学习,跳过奖励模型 | 更简单、更稳定 |
| ORPO | 将对齐融入预训练,无需单独阶段 | 更高效 |
4.5 量化技术
用更少的位数表示模型参数,减少显存占用。
| 格式 | 特点 | 适用 |
|---|---|---|
| GPTQ | GPU 优化 | GPU 推理 |
| AWQ | 激活感知,精度更高 | GPU 推理 |
| GGUF | CPU 友好 | llama.cpp、边缘设备 |
量化效果:INT4 量化可将显存需求降低 75%,性能损失通常在 5% 以内。
4.6 合成数据生成
用大模型生成训练数据。
成本低、规模大,但需要质量控制。常用于微调数据不足的场景。
4.7 多模态模型
| 模态 | 代表模型 | 能力 |
|---|---|---|
| 视觉 | GPT-4V、Gemini | 图像理解、图文问答 |
| 音频 | Whisper、GPT-4o 语音 | 语音识别、语音对话 |
| 视频 | Sora、Runway | 文生视频 |
4.8 AI 安全与对齐
- 对齐问题:确保 AI 行为符合人类意图
- 红队测试:模拟攻击场景,发现安全漏洞
- 安全护栏:输入过滤 + 输出审查
- 监管趋势:EU AI Act(2024)、中国《生成式人工智能服务管理暂行办法》
图解
4.1 AI 生态组件全景
┌──────────────────────────────────────────────────┐│ AI 应用生态组件 │├──────────────────────────────────────────────────┤│ ││ 个性化层 ││ └── Memory(记忆)+ Skills(技能) ││ ││ 连接层 ││ └── MCP(连接工具)+ A2A(连接 Agent) ││ ││ 能力层 ││ └── Prompt Engineering + RAG + Function Calling ││ ││ 执行层 ││ └── Agent 架构(ReAct / Multi-Agent) ││ ││ 模型层 ││ └── 对齐 + 量化 + 蒸馏 + MoE ││ ││ 基础层 ││ └── Transformer + 预训练 + 推理优化 ││ │└──────────────────────────────────────────────────┘常见问题 FAQ
Q1:AI 的记忆会侵犯隐私吗?
A:需要注意。记忆系统存储用户信息,必须做好数据保护:加密存储、用户可查看和删除记忆、符合隐私法规(GDPR 等)。
Q2:MCP 和 API 有什么区别?
A:API 是通用的接口协议。MCP 是专为 AI 设计的标准化协议,定义了 AI 应用如何发现和使用工具。MCP 建立在 JSON-RPC 之上,添加了 Resources、Prompts、Tools 三种 AI 专用原语。
Q3:什么是对齐?为什么很重要?
A:对齐是让 AI 行为符合人类意图。没有对齐的模型可能生成有害内容、绕过安全限制。RLHF 和 DPO 是当前主流的对齐方法。
Q4:量化后模型能力会下降多少?
A:INT8 量化几乎无损(性能下降 1%~2%)。INT4 量化通常下降 3%~5%,但能节省 75% 显存。对大多数应用来说,这个折中完全可以接受。
Q5:Agent、MCP、Skills 之间是什么关系?
A:Agent 是执行者,MCP 是连接工具的标准协议,Skills 是领域知识和能力的封装。Agent 通过 MCP 连接外部工具,通过 Skills 获得专业知识,三者配合让 AI 更强大。
小结
AI 的强大不仅在于模型本身,更在于围绕模型构建的生态系统。记忆系统让 AI “认识” 你,MCP 让 AI 连接你的工具,Skills 让 AI 拥有专业能力,对齐和量化等技术让 AI 更安全、更高效。
下篇预告
了解了这么多 AI 技术,如何在日常开发工作中实际使用?Cursor、Claude Code、Copilot 这些工具怎么选?
参考资料
支持与分享
如果这篇文章对你有帮助,欢迎支持作者或分享给更多人
部分信息可能已经过时






