mobile wallpaper 1mobile wallpaper 2mobile wallpaper 3mobile wallpaper 4
1065 字
3 分钟
LLM 安全漏洞发展史
2025-04-21

系列简介#

大语言模型(LLM)的安全性问题随着模型能力提升而日益凸显。从 2022 年底的 DAN 越狱攻击,到 2025 年的 AI 驱动自动化攻击,LLM 安全领域经历了翻天覆地的变化。

本系列按照时间线,系统梳理 LLM 发展的关键安全漏洞,帮助读者理解攻击原理、危害程度与防御策略。

核心问题#

LLM 的安全机制本质上是”浅层”的,基于模式匹配而非真正理解。只要找到绕过模式匹配的方法,安全机制就会失效。

学习路径#

第一阶段:越狱与提示注入
├── 01 提示注入与越狱攻击
└── 02 系统提示词泄露与数据提取
第二阶段:代码执行与基础设施
├── 03 代码执行与基础设施攻击
└── 04 对抗性自动化攻击
第三阶段:数据泄露与供应链
├── 05 数据泄露与供应链攻击
└── 06 特定领域高危漏洞
第四阶段:AI 驱动的攻击
└── 07 AI 驱动的自动化攻击

系列文章#

0.1 第一章:越狱与提示注入(01-02)#

文章状态简介
提示注入与越狱攻击已发布DAN、间接注入、Base64 绕过、角色扮演攻击
系统提示词泄露与数据提取已发布Bing Chat、GPT Store、记忆功能漏洞

0.2 第二章:代码执行与基础设施(03-04)#

文章状态简介
代码执行与基础设施攻击已发布Auto-GPT RCE、Cursor MCP、TensorRT 漏洞
对抗性自动化攻击已发布GCG 攻击、ReNeLLM、CVE-GENIE

0.3 第三章:数据泄露与供应链(05-06)#

文章状态简介
数据泄露与供应链攻击已发布DeepSeek 泄露、McDonald’s、三星事件
特定领域高危漏洞已发布医疗 LLM、FDA 药物推荐攻击

0.4 第四章:AI 驱动的攻击(07)#

文章状态简介
AI 驱动的自动化攻击已发布Storm-0558、HexStrike、自主攻击

攻击演进时间线#

timeline title LLM 安全攻击演进 2022Q4 : DAN 越狱 : 首个广泛传播的越狱 prompt 2023Q1 : 间接提示注入 : 污染外部数据源 2023Q2 : Bing Chat 系统提示泄露 : 暴露隐藏的 system prompt 2023Q3 : Auto-GPT RCE : 自主 Agent 远程代码执行 2024Q1 : GCG 对抗攻击 : 自动化梯度优化越狱 2024Q2 : Cursor MCP 漏洞 : CVE-2025-54135/54136 2025Q1 : GPT Store 泄露 : 专有指令和 API 密钥 2025Q3 : HexStrike : 10 分钟攻击 8000+ 终端 2025Q4 : Claude Code 自主攻击 : 极少人工参与的自主攻击活动

攻击阶段演进#

阶段时间特征
手工越狱2022-2023DAN、角色扮演,社会工程学
自动化对抗2023-2024GCG、梯度优化、通用后缀
间接注入2023-2024污染外部数据、RAG 攻击
Agent/工具攻击2024-2025Auto-GPT、Cursor MCP、Copilot
AI 原生攻击2025-2026自主发现漏洞、自动化渗透

核心洞察#

0.5 安全机制的局限性#

LLM 的 RLHF 安全机制基于模式匹配

  • 编码绕过(Base64、Unicode)
  • 角色扮演绕过(DAN、AIM)
  • 场景嵌套绕过(代码补全场景)

0.6 攻击门槛降低#

年份攻击门槛
2022需要社会工程经验
2024自动化工具生成对抗样本
2025AI 自主发现并利用漏洞
2026AI 自主发起大规模攻击

0.7 影响范围#

攻击类型影响范围危害程度
提示注入个人用户、企业
系统提示泄露企业用户
代码执行开发者、企业极高
AI 驱动攻击全球范围极高

防御策略#

0.8 技术层面#

防御措施说明
输入过滤检测恶意模式
输出验证检查敏感信息泄露
沙箱执行隔离代码执行环境
提示隔离分离用户输入和系统指令

0.9 架构层面#

graph TB A["用户输入"] --> B["输入过滤层"] B --> C{"检测恶意?"} C -->|"是"| D["拒绝/脱敏"] C -->|"否"| E["LLM 处理"] E --> F["输出验证层"] F --> G["返回用户"]

前置知识#

相关系列#

本系列是机器学习学习路线的安全专题,推荐结合以下系列阅读:

系列定位关联内容
AI Agent 实战指南实战导向Agent 安全防御(第 16 篇)、工具调用安全
LLM 论文发展史历史视角RLHF 对齐原理、模型安全机制演进
从零理解大语言模型入门教程LLM 基础概念、Prompt 工程、RAG 安全

阅读建议

参考资源#

安全研究

CVE 数据库

  • CVE-2025-54135: Cursor MCP 远程代码执行
  • CVE-2025-23254: NVIDIA TensorRT-LLM
  • CVE-2025-7775: HexStrike 利用

支持与分享

如果这篇文章对你有帮助,欢迎支持作者或分享给更多人

LLM 安全漏洞发展史
https://blog.souloss.com/posts/machine-learning/llm-security/llm-security-series-guide/
作者
Souloss
发布于
2025-04-21
许可协议
CC BY-NC-SA 4.0

部分信息可能已经过时