LLM对抗攻击与防御

专题概述

本专题系统介绍针对大语言模型（LLM）的对抗攻击与防御技术，涵盖从Token级攻击到Prompt注入的多种威胁向量，以及相应的防御策略和评估方法。

内容索引

1. 基础理论

LLM对抗攻击概述 — 攻击分类、核心挑战、方法概述

2. 攻击技术

Token级对抗攻击 — 对抗Tokenization、重Tokenization攻击、梯度优化
Prompt注入与Jailbreak攻击 — 直接/间接注入、角色扮演、Many-shot Jailbreaking

3. 防御方法

LLM对抗训练与防御 — PGD对抗训练、DefensiveTokens、PromptArmor

4. 评估方法论

自适应攻击与鲁棒性评估 — 对抗性评估、安全-效用权衡

快速导航

按主题分类

主题	文件
攻击概述	llm-adversarial-attacks-overview
Token级攻击	token-level-adversarial-attacks
Prompt攻击	prompt-injection-jailbreak-attacks
防御技术	llm-adversarial-training-defenses
鲁棒性评估	adaptive-attacks-robustness-evaluation

按学习路径

入门路径：

llm-adversarial-attacks-overview → 了解基础概念
prompt-injection-jailbreak-attacks → 理解常见攻击
llm-adversarial-training-defenses → 掌握防御方法

进阶路径：

token-level-adversarial-attacks → 深入Token级攻击
adaptive-attacks-robustness-evaluation → 评估实践
阅读最新论文

相关领域

关联专题

对抗鲁棒性基础 — 传统对抗样本基础
对抗攻击方法 — 经典攻击技术
对抗训练 — 对抗训练基础
Agent安全与对齐 — Agent系统安全

推荐阅读

OWASP LLM Top 10 — LLM安全风险指南
HarmBench — LLM安全评估基准
JailbreakBench — Jailbreak攻击基准

最新研究

2025年重要进展

论文	主题	贡献
DefensiveTokens	防御Token	插入优化Token增强安全
PromptArmor	Prompt检测	基于Prompt的恶意检测
C-AdvUL	对抗训练	嵌入空间高效对抗训练
ARCA	Token攻击	正则化对比攻击

最后更新: 2026-05-05

此文件夹下有5条笔记。