专题概述

本专题系统介绍针对大语言模型(LLM)的对抗攻击与防御技术,涵盖从Token级攻击到Prompt注入的多种威胁向量,以及相应的防御策略和评估方法。


内容索引

1. 基础理论

2. 攻击技术

3. 防御方法

4. 评估方法论


快速导航

按主题分类

按学习路径

入门路径

  1. llm-adversarial-attacks-overview → 了解基础概念
  2. prompt-injection-jailbreak-attacks → 理解常见攻击
  3. llm-adversarial-training-defenses → 掌握防御方法

进阶路径

  1. token-level-adversarial-attacks → 深入Token级攻击
  2. adaptive-attacks-robustness-evaluation → 评估实践
  3. 阅读最新论文

相关领域

关联专题

推荐阅读

  1. OWASP LLM Top 10 — LLM安全风险指南
  2. HarmBench — LLM安全评估基准
  3. JailbreakBench — Jailbreak攻击基准

最新研究

2025年重要进展

论文主题贡献
DefensiveTokens防御Token插入优化Token增强安全
PromptArmorPrompt检测基于Prompt的恶意检测
C-AdvUL对抗训练嵌入空间高效对抗训练
ARCAToken攻击正则化对比攻击

最后更新: 2026-05-05