1. 研究背景

1.1 推理LLM的安全挑战

推理大语言模型面临独特安全挑战1

  • 能力-安全权衡:增强推理可能降低安全
  • 拒绝退化:过度拒绝无害请求
  • 攻击复杂化:链式推理增加攻击面

1.2 LoRA的优势

LoRA用于安全对齐的优势:

特性传统SFTLoRA
参数量全量微调低秩适配
遗忘风险
安全保持

2. 技术框架

2.1 核心方法

class LoRASafetyAlignment:
    """
    LoRA安全对齐
    """
    def __init__(self, model, rank=16, alpha=32):
        self.model = model
        self.lora_modules = self._find_target_modules()
        
        # 添加LoRA适配器
        for name, module in self.lora_modules:
            self.add_lora(module, rank, alpha)
    
    def train(self, safe_data, unsafe_data):
        # 对比学习
        for safe, unsafe in zip(safe_data, unsafe_data):
            safe_emb = self.encode(safe)
            unsafe_emb = self.encode(unsafe)
            
            # 安全间隔损失
            loss = self.margin_loss(safe_emb, unsafe_emb)
            loss.backward()

2.2 损失函数

def margin_loss(safe_emb, unsafe_emb, margin=1.0):
    """
    安全间隔损失
    """
    # 确保安全样本远离不安全样本
    distance = (safe_emb - unsafe_emb).norm()
    return max(0, margin - distance)

3. 实验结果

3.1 安全性能

方法攻击成功率↓拒绝率↓
SFT45%8%
RLHF12%15%
LoRA8%5%

4. 总结

主要贡献

  1. 低参数安全对齐
  2. 保持推理能力
  3. 减少过度拒绝

参考文献

Footnotes

  1. LoRA for Safety Alignment, arXiv:2507.17075