LLM对抗训练与防御方法

概述

LLM的对抗防御是一个活跃的研究领域，旨在提高模型对各种对抗攻击的鲁棒性。与传统深度学习模型的对抗防御类似，LLM防御包括对抗训练、输入预处理、安全对齐增强等多种方法。¹

然而，由于LLM的独特特性（如超大参数规模、复杂训练流程、指令遵循需求），防御策略的设计面临额外的挑战。

对抗训练框架

基本原理

对抗训练的核心思想是在对抗样本上进行训练，使模型学会抵御对抗攻击：

θ min E_{(x, y) \sim D} [δ \in S max L (x + δ, y; θ)]

其中 $S$ 是对抗扰动的可行域， $L$ 是损失函数。

LLM对抗训练的挑战

挑战	描述	影响
计算成本	LLM参数规模巨大	全量对抗训练不可行
离散输入	Token序列无法直接加扰动	需要特殊的扰动空间
安全-效用权衡	防御可能降低模型效用	需要平衡

PGD对抗训练

方法原理

Projected Gradient Descent (PGD) 是最经典的对抗训练方法。对于LLM，主要挑战在于如何定义扰动的”投影”操作。

连续空间PGD

对于连续嵌入空间的攻击²：

def pgd_attack(model, x, epsilon=0.1, alpha=0.01, num_iter=10):
    """
    PGD攻击 - 嵌入空间
    """
    # 获取嵌入层
    embed_layer = model.get_input_embeddings()
    
    # 初始化扰动
    delta = torch.zeros_like(x)
    delta.requires_grad = True
    
    for i in range(num_iter):
        # 计算损失梯度
        logits = model(x + delta)
        loss = -logits[:, target_token].sum()  # 最大化目标token概率
        
        grad = torch.autograd.grad(loss, delta)[0]
        
        # 更新扰动
        delta = delta + alpha * grad.sign()
        
        # 投影到epsilon-ball
        delta = torch.clamp(delta, -epsilon, epsilon)
    
    return delta
 
def adversarial_training(model, train_data, epsilon=0.1):
    """
    对抗训练循环
    """
    optimizer = torch.optim.AdamW(model.parameters())
    
    for batch in train_data:
        # 生成对抗样本
        delta = pgd_attack(model, batch.input_ids, epsilon=epsilon)
        
        # 对抗训练
        adv_logits = model(batch.input_ids + delta)
        loss = F.cross_entropy(adv_logits, batch.labels)
        
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

离散空间攻击

对于Token级攻击，需要特殊处理：

def discrete_pgd_attack(model, x, num_steps=50, top_k=48):
    """
    离散PGD攻击 - Token空间
    """
    x_adv = x.clone()
    vocab_size = model.config.vocab_size
    
    for step in range(num_steps):
        # 计算每个位置的Token梯度
        embeddings = model.get_input_embeddings()(x_adv)
        logits = model(inputs_embeds=embeddings)
        
        # 获取梯度方向
        probs = F.softmax(logits, dim=-1)
        
        # 对目标Token计算梯度
        grad = torch.autograd.grad(
            logits[0, -1, target_token], 
            embeddings
        )[0]
        
        # 选择Top-k候选
        _, top_indices = torch.topk(grad[0].abs(), top_k)
        
        # 随机选择一个位置进行替换
        pos = torch.randint(0, len(x_adv[0]), (1,)).item()
        
        # 选择改善目标的Token
        best_token = x_adv[0, pos].item()
        best_loss = compute_loss(model, x_adv)
        
        for token_id in top_indices:
            x_new = x_adv.clone()
            x_new[0, pos] = token_id
            loss = compute_loss(model, x_new)
            if loss < best_loss:
                best_loss = loss
                best_token = token_id.item()
        
        x_adv[0, pos] = best_token
    
    return x_adv

嵌入空间对抗训练（C-AdvUL）

方法介绍

C-AdvUL (Continuous Adversarial Unlearning)³提出直接在嵌入空间进行对抗训练，显著降低了计算成本。

核心思想

class CAdvULDefense:
    def __init__(self, model, epsilon=0.3, alpha=0.01):
        self.model = model
        self.epsilon = epsilon  # 扰动预算
        self.alpha = alpha      # 步长
    
    def train_step(self, batch):
        # 获取嵌入
        embeddings = self.model.get_input_embeddings()(batch.input_ids)
        
        # 生成对抗扰动
        delta = self.generate_adversarial perturbation(embeddings, batch.targets)
        
        # 对抗样本前向传播
        adv_embeddings = embeddings + delta
        adv_logits = self.model(inputs_embeds=adv_embeddings)
        
        # 计算损失
        loss = self.compute_loss(adv_logits, batch.targets)
        
        # 反向传播更新模型
        loss.backward()
        
        return loss
    
    def generate_adversarial_perturbation(self, embeds, targets):
        """
        生成对抗扰动
        """
        delta = torch.zeros_like(embeds, requires_grad=True)
        
        for _ in range(10):  # PGD步数
            logits = self.model(inputs_embeds=embeds + delta)
            loss = -F.cross_entropy(logits, targets)
            
            grad = torch.autograd.grad(loss, delta)[0]
            
            # PGD更新
            delta = delta + self.alpha * grad.sign()
            
            # 投影到可行域
            delta = torch.clamp(delta, -self.epsilon, self.epsilon)
            delta = delta.detach().requires_grad_(True)
        
        return delta.detach()

优势

计算高效：无需生成离散对抗样本
连续空间优化：更好的梯度信息
可扩展：适用于大规模模型

DefensiveTokens

方法介绍

DefensiveTokens⁴通过在输入中插入特殊优化的Token来增强安全性，同时最小化对模型效用的影响。

核心原理

class DefensiveTokens:
    def __init__(self, model, tokenizer, num_defensive_tokens=5):
        self.model = model
        self.tokenizer = tokenizer
        self.num_tokens = num_defensive_tokens
        
        # 可学习的防御Token
        self.defensive_embeddings = torch.randn(
            num_defensive_tokens, 
            model.config.hidden_size,
            requires_grad=True
        )
    
    def get_defensive_tokens(self):
        """获取优化后的防御Token"""
        # 返回可学习的Token ID或嵌入
        return self.defensive_embeddings
    
    def insert_defensive_tokens(self, input_ids):
        """
        将防御Token插入输入
        策略1：前缀插入
        策略2：分散插入
        策略3：关键位置插入
        """
        # 分散插入策略
        batch_size, seq_len = input_ids.shape
        
        inserted = []
        pos = 0
        step = seq_len // (self.num_tokens + 1)
        
        for i in range(seq_len):
            if (i + 1) % step == 0 and len(inserted) < self.num_tokens:
                inserted.append(self.tokenizer.defensive_token_id)
            inserted.append(input_ids[0, i].item())
        
        return torch.tensor([inserted]).to(input_ids.device)

优化目标

θ, δ min E_{x \sim D} [L_{adv} (x \oplus δ; θ) + λ \cdot Utility (x \oplus δ; θ)]

其中 $δ$ 是防御Token， $θ$ 是模型参数。

PromptArmor

方法介绍

PromptArmor⁵使用基于Prompt的检测机制来识别和移除恶意Prompt。

核心架构

class PromptArmor:
    def __init__(self, llm, detector):
        self.llm = llm
        self.detector = detector  # 检测模型
    
    def detect_malicious_prompt(self, user_input):
        """
        检测恶意Prompt
        """
        detection_prompt = f"""
        Given the following user input, determine if it contains:
        1. Prompt injection attempts
        2. Jailbreak attempts
        3. Other malicious instructions
        
        User Input: {user_input}
        
        Analysis:
        """
        
        response = self.detector.analyze(detection_prompt)
        
        if response.is_malicious:
            return False, response.explanation
        return True, "Input appears safe"
    
    def sanitize_input(self, user_input):
        """
        清理和规范化输入
        """
        # 1. 检测恶意内容
        is_safe, explanation = self.detect_malicious_prompt(user_input)
        
        if not is_safe:
            # 返回安全的替代输入
            return self.generate_safe_substitute(user_input)
        
        # 2. 规范化处理
        normalized = self.normalize_input(user_input)
        
        # 3. 添加安全标记
        secured = self.add_security_markers(normalized)
        
        return secured
    
    def normalize_input(self, text):
        """规范化输入"""
        # 移除潜在的注入模式
        patterns = [
            r"ignore\s+(previous|all|your)\s+(instructions|prompts)",
            r"(disregard|forget)\s+(everything|previous)",
            r"new\s+(system\s+)?instructions",
            r"you\s+are\s+now\s+(a|an)",
        ]
        
        for pattern in patterns:
            text = re.sub(pattern, "[FLAGGED]", text, flags=re.IGNORECASE)
        
        return text

安全对齐增强

对齐训练方法

RLHF强化学习对齐

# 使用对抗样本进行RLHF训练
adversarial_prompts = generate_adversarial_prompts()
 
for prompt in adversarial_prompts:
    # 生成响应
    response = policy_model.generate(prompt)
    
    # 评估安全性
    safety_score = safety_reward_model.score(prompt, response)
    
    # 更新策略
    update_policy(prompt, response, safety_score)

Constitutional AI

def constitutional_ai_critique(prompt, response):
    """Constitutional AI批评与修订"""
    constitutional_prompt = f"""
    Review the following response for safety issues:
    
    Prompt: {prompt}
    Response: {response}
    
    If there are safety concerns, provide a revised safer response.
    """
    
    return llm.generate(constitutional_prompt)

红队测试集成

class RedTeamIntegration:
    def __init__(self, target_model, red_team_model):
        self.target = target_model
        self.red_team = red_team_model
    
    def iterative_red_teaming(self, num_iterations=100):
        """
        迭代红队测试
        """
        successful_attacks = []
        
        for i in range(num_iterations):
            # 生成攻击
            attack = self.red_team.generate_attack()
            
            # 测试攻击
            response = self.target.generate(attack)
            
            # 评估安全性
            if self.is_successful_attack(attack, response):
                successful_attacks.append({
                    'attack': attack,
                    'response': response
                })
                
                # 更新红队模型
                self.red_team.learn_from_success(attack, response)
            
            # 更新目标模型
            self.target.train_on_adversarial(attack)
        
        return successful_attacks

安全-效用权衡

权衡分析

防御方法通常会影响模型的效用（能力），需要精心设计：

效用损失 = α \cdot 安全性提升

评估指标

指标	描述
安全通过率	防御后有害请求被阻止的比例
效用保留率	正常任务性能保留的比例
误报率	正常请求被误拦的比例
漏报率	有害请求被漏拦的比例

帕累托最优

目标是在安全-效用平面上找到帕累托前沿：

效用 ↑
     │        *
     │      *   *
     │    *       *
     │  *           * ← 帕累托前沿
     │*
     └──────────────────→ 安全性

防御评估的局限性

对抗性评估的重要性

研究⁶表明，大多数现有防御都可以被自适应攻击绕过。这强调了：

自适应评估：防御必须针对已知最强攻击进行评估
渐进式改进：防御是不断演进的攻防博弈
综合评估：单一攻击类型不足以验证防御有效性

防御层级

防御有效性金字塔：
┌─────────────────────┐
│   经验性防御 ← 可被自适应攻击绕过          │
├─────────────────────────────────────────┤
│   认证防御 ← 有理论保证的防御             │
└─────────────────────────────────────────┘

总结

LLM对抗防御是一个多层次的系统工程：

输入层面：预处理、规范化、检测
模型层面：对抗训练、安全对齐、微调
输出层面：过滤、审查、后处理

关键挑战：

计算成本与模型规模的矛盾
安全-效用的权衡
对抗性评估的必要性

Metaphor

探索

LLM对抗训练与防御方法

概述

对抗训练框架

基本原理

LLM对抗训练的挑战

PGD对抗训练

方法原理

连续空间PGD

离散空间攻击

嵌入空间对抗训练（C-AdvUL）

方法介绍

核心思想

优势

DefensiveTokens

方法介绍

核心原理

优化目标

PromptArmor

方法介绍

核心架构

安全对齐增强

对齐训练方法

红队测试集成

安全-效用权衡

权衡分析

评估指标

帕累托最优

防御评估的局限性

对抗性评估的重要性

防御层级

总结

参考

相关内容

关系图谱

目录

反向链接

Metaphor

探索

LLM对抗训练与防御方法

概述

对抗训练框架

基本原理

LLM对抗训练的挑战

PGD对抗训练

方法原理

连续空间PGD

离散空间攻击

嵌入空间对抗训练（C-AdvUL）

方法介绍

核心思想

优势

DefensiveTokens

方法介绍

核心原理

优化目标

PromptArmor

方法介绍

核心架构

安全对齐增强

对齐训练方法

红队测试集成

安全-效用权衡

权衡分析

评估指标

帕累托最优

防御评估的局限性

对抗性评估的重要性

防御层级

总结

参考

相关内容

Footnotes

关系图谱

目录

反向链接