专题概述
本专题系统介绍针对大语言模型(LLM)的对抗攻击与防御技术,涵盖从Token级攻击到Prompt注入的多种威胁向量,以及相应的防御策略和评估方法。
内容索引
1. 基础理论
- LLM对抗攻击概述 — 攻击分类、核心挑战、方法概述
2. 攻击技术
-
Token级对抗攻击 — 对抗Tokenization、重Tokenization攻击、梯度优化
-
Prompt注入与Jailbreak攻击 — 直接/间接注入、角色扮演、Many-shot Jailbreaking
3. 防御方法
- LLM对抗训练与防御 — PGD对抗训练、DefensiveTokens、PromptArmor
4. 评估方法论
- 自适应攻击与鲁棒性评估 — 对抗性评估、安全-效用权衡
快速导航
按主题分类
按学习路径
入门路径:
- llm-adversarial-attacks-overview → 了解基础概念
- prompt-injection-jailbreak-attacks → 理解常见攻击
- llm-adversarial-training-defenses → 掌握防御方法
进阶路径:
- token-level-adversarial-attacks → 深入Token级攻击
- adaptive-attacks-robustness-evaluation → 评估实践
- 阅读最新论文
相关领域
关联专题
- 对抗鲁棒性基础 — 传统对抗样本基础
- 对抗攻击方法 — 经典攻击技术
- 对抗训练 — 对抗训练基础
- Agent安全与对齐 — Agent系统安全
推荐阅读
- OWASP LLM Top 10 — LLM安全风险指南
- HarmBench — LLM安全评估基准
- JailbreakBench — Jailbreak攻击基准
最新研究
2025年重要进展
| 论文 | 主题 | 贡献 |
|---|---|---|
| DefensiveTokens | 防御Token | 插入优化Token增强安全 |
| PromptArmor | Prompt检测 | 基于Prompt的恶意检测 |
| C-AdvUL | 对抗训练 | 嵌入空间高效对抗训练 |
| ARCA | Token攻击 | 正则化对比攻击 |
最后更新: 2026-05-05