1065 字
3 分钟
LLM 安全漏洞发展史
系列简介
大语言模型(LLM)的安全性问题随着模型能力提升而日益凸显。从 2022 年底的 DAN 越狱攻击,到 2025 年的 AI 驱动自动化攻击,LLM 安全领域经历了翻天覆地的变化。
本系列按照时间线,系统梳理 LLM 发展的关键安全漏洞,帮助读者理解攻击原理、危害程度与防御策略。
核心问题
LLM 的安全机制本质上是”浅层”的,基于模式匹配而非真正理解。只要找到绕过模式匹配的方法,安全机制就会失效。
学习路径
第一阶段:越狱与提示注入├── 01 提示注入与越狱攻击└── 02 系统提示词泄露与数据提取
第二阶段:代码执行与基础设施├── 03 代码执行与基础设施攻击└── 04 对抗性自动化攻击
第三阶段:数据泄露与供应链├── 05 数据泄露与供应链攻击└── 06 特定领域高危漏洞
第四阶段:AI 驱动的攻击└── 07 AI 驱动的自动化攻击系列文章
0.1 第一章:越狱与提示注入(01-02)
| 文章 | 状态 | 简介 |
|---|---|---|
| 提示注入与越狱攻击 | 已发布 | DAN、间接注入、Base64 绕过、角色扮演攻击 |
| 系统提示词泄露与数据提取 | 已发布 | Bing Chat、GPT Store、记忆功能漏洞 |
0.2 第二章:代码执行与基础设施(03-04)
| 文章 | 状态 | 简介 |
|---|---|---|
| 代码执行与基础设施攻击 | 已发布 | Auto-GPT RCE、Cursor MCP、TensorRT 漏洞 |
| 对抗性自动化攻击 | 已发布 | GCG 攻击、ReNeLLM、CVE-GENIE |
0.3 第三章:数据泄露与供应链(05-06)
| 文章 | 状态 | 简介 |
|---|---|---|
| 数据泄露与供应链攻击 | 已发布 | DeepSeek 泄露、McDonald’s、三星事件 |
| 特定领域高危漏洞 | 已发布 | 医疗 LLM、FDA 药物推荐攻击 |
0.4 第四章:AI 驱动的攻击(07)
| 文章 | 状态 | 简介 |
|---|---|---|
| AI 驱动的自动化攻击 | 已发布 | Storm-0558、HexStrike、自主攻击 |
攻击演进时间线
timeline
title LLM 安全攻击演进
2022Q4 : DAN 越狱
: 首个广泛传播的越狱 prompt
2023Q1 : 间接提示注入
: 污染外部数据源
2023Q2 : Bing Chat 系统提示泄露
: 暴露隐藏的 system prompt
2023Q3 : Auto-GPT RCE
: 自主 Agent 远程代码执行
2024Q1 : GCG 对抗攻击
: 自动化梯度优化越狱
2024Q2 : Cursor MCP 漏洞
: CVE-2025-54135/54136
2025Q1 : GPT Store 泄露
: 专有指令和 API 密钥
2025Q3 : HexStrike
: 10 分钟攻击 8000+ 终端
2025Q4 : Claude Code 自主攻击
: 极少人工参与的自主攻击活动
攻击阶段演进
| 阶段 | 时间 | 特征 |
|---|---|---|
| 手工越狱 | 2022-2023 | DAN、角色扮演,社会工程学 |
| 自动化对抗 | 2023-2024 | GCG、梯度优化、通用后缀 |
| 间接注入 | 2023-2024 | 污染外部数据、RAG 攻击 |
| Agent/工具攻击 | 2024-2025 | Auto-GPT、Cursor MCP、Copilot |
| AI 原生攻击 | 2025-2026 | 自主发现漏洞、自动化渗透 |
核心洞察
0.5 安全机制的局限性
LLM 的 RLHF 安全机制基于模式匹配:
- 编码绕过(Base64、Unicode)
- 角色扮演绕过(DAN、AIM)
- 场景嵌套绕过(代码补全场景)
0.6 攻击门槛降低
| 年份 | 攻击门槛 |
|---|---|
| 2022 | 需要社会工程经验 |
| 2024 | 自动化工具生成对抗样本 |
| 2025 | AI 自主发现并利用漏洞 |
| 2026 | AI 自主发起大规模攻击 |
0.7 影响范围
| 攻击类型 | 影响范围 | 危害程度 |
|---|---|---|
| 提示注入 | 个人用户、企业 | 高 |
| 系统提示泄露 | 企业用户 | 中 |
| 代码执行 | 开发者、企业 | 极高 |
| AI 驱动攻击 | 全球范围 | 极高 |
防御策略
0.8 技术层面
| 防御措施 | 说明 |
|---|---|
| 输入过滤 | 检测恶意模式 |
| 输出验证 | 检查敏感信息泄露 |
| 沙箱执行 | 隔离代码执行环境 |
| 提示隔离 | 分离用户输入和系统指令 |
0.9 架构层面
graph TB
A["用户输入"] --> B["输入过滤层"]
B --> C{"检测恶意?"}
C -->|"是"| D["拒绝/脱敏"]
C -->|"否"| E["LLM 处理"]
E --> F["输出验证层"]
F --> G["返回用户"]
前置知识
- 大语言模型基本概念(可参考 从零理解大语言模型)
- Prompt 工程基础
- 基础安全概念(注入攻击、权限控制)
- Agent 架构理解(可参考 AI Agent 实战指南)
相关系列
本系列是机器学习学习路线的安全专题,推荐结合以下系列阅读:
| 系列 | 定位 | 关联内容 |
|---|---|---|
| AI Agent 实战指南 | 实战导向 | Agent 安全防御(第 16 篇)、工具调用安全 |
| LLM 论文发展史 | 历史视角 | RLHF 对齐原理、模型安全机制演进 |
| 从零理解大语言模型 | 入门教程 | LLM 基础概念、Prompt 工程、RAG 安全 |
阅读建议:
- 先学 从零理解大语言模型 建立 LLM 基础认知
- AI Agent 实战指南 第 16 篇提供 Agent 安全防御的工程实践
- 本系列按时间线梳理安全漏洞,帮助建立攻防全景视角
参考资源
安全研究
CVE 数据库
- CVE-2025-54135: Cursor MCP 远程代码执行
- CVE-2025-23254: NVIDIA TensorRT-LLM
- CVE-2025-7775: HexStrike 利用
支持与分享
如果这篇文章对你有帮助,欢迎支持作者或分享给更多人
部分信息可能已经过时
相关文章 智能推荐
1
提示注入与越狱攻击:LLM 安全的第一道防线
AI 深度解读 LLM 越狱与提示注入攻击——DAN、间接注入、Base64 绕过等技术原理与防御策略
2
特定领域高危漏洞:医疗 AI 的致命弱点
AI 深度解读医疗 AI 安全漏洞——FDA 药物推荐攻击、94.4% 攻击成功率的研究
3
系统提示词泄露与数据提取:LLM 的隐私危机
AI 深度解读系统提示词泄露与数据提取攻击——Bing Chat、GPT Store、ChatGPT 记忆功能等漏洞的原理与影响
4
AI 驱动的自动化攻击:超越人类的速度与规模
AI 深度解读 AI 驱动的网络攻击——Storm-0558、HexStrike、Claude Code 自主攻击
5
代码执行与基础设施攻击:AI Agent 的阿喀琉斯之踵
AI 深度解读 AI Agent 代码执行漏洞——Auto-GPT 远程代码执行、Cursor MCP 漏洞(CVE-2025-54135)、NVIDIA TensorRT 漏洞






