1. 研究背景
1.1 推理LLM的安全挑战
推理大语言模型面临独特安全挑战1:
- 能力-安全权衡:增强推理可能降低安全
- 拒绝退化:过度拒绝无害请求
- 攻击复杂化:链式推理增加攻击面
1.2 LoRA的优势
LoRA用于安全对齐的优势:
| 特性 | 传统SFT | LoRA |
|---|---|---|
| 参数量 | 全量微调 | 低秩适配 |
| 遗忘风险 | 高 | 低 |
| 安全保持 | 中 | 高 |
2. 技术框架
2.1 核心方法
class LoRASafetyAlignment:
"""
LoRA安全对齐
"""
def __init__(self, model, rank=16, alpha=32):
self.model = model
self.lora_modules = self._find_target_modules()
# 添加LoRA适配器
for name, module in self.lora_modules:
self.add_lora(module, rank, alpha)
def train(self, safe_data, unsafe_data):
# 对比学习
for safe, unsafe in zip(safe_data, unsafe_data):
safe_emb = self.encode(safe)
unsafe_emb = self.encode(unsafe)
# 安全间隔损失
loss = self.margin_loss(safe_emb, unsafe_emb)
loss.backward()2.2 损失函数
def margin_loss(safe_emb, unsafe_emb, margin=1.0):
"""
安全间隔损失
"""
# 确保安全样本远离不安全样本
distance = (safe_emb - unsafe_emb).norm()
return max(0, margin - distance)3. 实验结果
3.1 安全性能
| 方法 | 攻击成功率↓ | 拒绝率↓ |
|---|---|---|
| SFT | 45% | 8% |
| RLHF | 12% | 15% |
| LoRA | 8% | 5% |
4. 总结
主要贡献
- 低参数安全对齐
- 保持推理能力
- 减少过度拒绝
参考文献
Footnotes
-
LoRA for Safety Alignment, arXiv:2507.17075 ↩