无训练大语言模型对齐综述

引言

大语言模型（LLM）在自然语言处理领域取得了显著成就，然而如何使这些模型的行为与人类意图和价值观保持一致，仍是核心挑战。传统对齐方法如RLHF、DPO等需要大量标注数据和昂贵的计算资源进行模型微调。¹

近年来，无训练对齐（Training-Free Alignment） 方法兴起，旨在不修改模型参数的情况下，通过调整推理过程实现模型行为的对齐。这类方法具有成本低、速度快、无需存储微调权重等优势，逐渐成为研究热点。

无训练对齐的优势

与传统的基于训练的对齐方法相比，无训练对齐具有以下优势：

优势类别	具体表现
成本效率	无需GPU集群进行梯度计算和参数更新
部署灵活性	直接应用于预训练模型，无需额外存储微调权重
知识保留	避免灾难性遗忘，保留预训练阶段学到的知识
快速迭代	可实时调整对齐策略，无需重新训练
模型无关	可应用于任意预训练模型，具有通用性

三阶段分类体系

无训练对齐方法可按其在生成过程中的介入时机分为三个阶段：

┌─────────────────────────────────────────────────────────────────┐
│                    LLM 文本生成流程                              │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  [1. Pre-Decoding]  →  [2. In-Decoding]  →  [3. Post-Decoding]  │
│        ↓                     ↓                    ↓            │
│   输入重塑              令牌级权重调整          输出后处理         │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

Pre-Decoding 阶段（解码前）

此阶段在模型开始生成之前调整输入或模型激活。

核心方法：

方法	年份	核心思想	关键创新
URIAL	2024	利用少量示例进行上下文对齐学习	仅需3-5个示例，无需梯度
CoSA	2024	对比推理时搜索	通过对比不同响应的激活模式
BPO	2024	双向提示优化	利用人类偏好数据优化提示

URIAL 方法详解

URIAL（Untuned LLMs with Right Responses via In-context Learning）通过精心设计的提示模板和少量对齐示例，使未微调的LLM能够生成符合人类偏好的响应。其核心公式为：

P (y ∣ x) = Softmax (\frac{1}{T} \cdot logits_{x})

其中 $T$ 为温度参数，通过调整可控制响应的随机性。

BPO 方法

BPO（Better Prompting for Aligning LLMs）利用偏好数据集训练一个轻量级的提示优化器，直接作用于用户输入：

Prompt_{optimized} = f_{θ} (Prompt_{original})

In-Decoding 阶段（解码中）

此阶段在令牌逐个生成过程中调整 logits 或注意力。

核心方法：

方法	年份	核心思想	关键技术
Proxy Tuning	2024	代理模型调优	计算调优/未调优模型的 logits 差异
Linear Alignment	2024	线性对齐	在激活空间中线性变换
RAIN	2024	递归思考	自适应地影响生成过程

Proxy Tuning 原理

Proxy Tuning 利用一个小型辅助模型来模拟微调效果。设 $M_{base}$ 为基础模型， $M_{proxy}$ 为代理模型，则对齐后的 logits 为：

logits_{aligned} = logits_{base} + α \cdot (logits_{proxy} - logits_{base})

其中 $α$ 为插值系数，控制对齐强度。

Linear Alignment

Linear Alignment 假设对齐过程可以在激活空间中表示为线性变换：

h_{aligned} = W \cdot h_{base} + b

通过学习矩阵 $W$ 和偏置 $b$ ，可以在不改变模型参数的情况下实现特征空间的转换。

Post-Decoding 阶段（解码后）

此阶段在模型生成完整响应后进行后处理或校正。

核心方法：

方法	年份	核心思想	应用场景
LLM SELF DEFENSE	2024	自我防御检测	识别和过滤有害输出
Aligner	2024	奖励对齐器	基于奖励模型重排响应

LLM SELF DEFENSE

该方法让模型在生成后主动检查自身输出的潜在问题：

有害性检测：识别生成内容中的敏感词或危险指令
事实一致性检验：与已知事实进行比对
自我修正：在检测到问题后触发重生成

Aligner 架构

Aligner 使用一个独立的神经网络对模型输出进行评分和修正：

s = A_{ϕ} (y ∣ x) \Rightarrow 最终得分 = Score_{LLM} + λ \cdot s

功能对齐 vs 规范对齐

根据对齐目标的性质，可将无训练对齐方法分为两类：

功能对齐（Functional Alignment）

关注模型输出是否有用且正确：

响应质量：答案的准确性、完整性
指令遵循：是否按用户要求生成
任务完成度：是否达成用户目标

规范对齐（Normative Alignment）

关注模型输出是否符合人类价值观和伦理规范：

安全性：不生成有害、歧视性内容
诚实性：不产生幻觉或误导性信息
隐私保护：不泄露敏感信息

对齐类型	评估指标	代表任务	典型方法
功能对齐	Accuracy、Helpfulness	问答、摘要、翻译	URIAL、Linear Alignment
规范对齐	Safety Score、Harmlessness	有害内容检测、隐私保护	LLM SELF DEFENSE、Aligner

评估方法

基准驱动评估（Benchmark-Driven）

使用标准化的基准测试评估对齐效果：

MT-Bench：多轮对话能力评估
AlpacaEval：遵循指令能力评估
HH-RLHF：人类偏好数据集

评估指标计算：

Win Rate = \frac{对齐模型获胜次数}{总比较次数}

人类中心评估（Human-Centric）

人工标注偏好：让人类评估者直接打分
红队测试：专业团队尝试诱导模型产生有害输出
A/B 测试：线上环境中对比不同方法效果

模型辅助评估（Model-Assisted）

利用强大模型（如GPT-4）进行自动评估：

Score_{model} = JudgeModel (y_{target}, y_{reference})

无训练对齐方法总览

方法对比表

方法	阶段	是否需要参考模型	可解释性	计算开销
URIAL	Pre-Decoding	否	高	低
CoSA	Pre-Decoding	是	中	中
BPO	Pre-Decoding	是	高	中
Proxy Tuning	In-Decoding	是	中	中
Linear Alignment	In-Decoding	是	高	低
RAIN	In-Decoding	否	中	高
LLM SELF DEFENSE	Post-Decoding	否	高	中
Aligner	Post-Decoding	是	低	中

选择指南

┌──────────────────────────────────────────────────────┐
│                   方法选择决策树                       │
├──────────────────────────────────────────────────────┤
│                                                      │
│  是否有参考模型？                                      │
│      │                                               │
│      ├── 否 → 资源受限？                              │
│      │         ├── 是 → URIAL / Linear Alignment     │
│      │         └── 否 → RAIN / LLM SELF DEFENSE       │
│      │                                               │
│      └── 是 → 关注可解释性？                           │
│                ├── 是 → CoSA / Linear Alignment       │
│                └── 否 → Proxy Tuning / Aligner        │
│                                                      │
└──────────────────────────────────────────────────────┘

挑战与未来方向

当前挑战

理论理解不足：缺乏对无训练方法为何有效的深层理论解释
泛化能力有限：在特定领域可能表现不佳
可扩展性：某些方法在大规模模型上计算开销大
评估一致性：不同评估方法可能给出矛盾结果

未来研究方向

方向	潜在突破
混合方法	结合训练与无训练方法的优势
自适应对齐	根据输入动态调整对齐策略
多模态扩展	将无训练对齐扩展到视觉-语言模型
理论框架	建立统一的数学框架解释无训练对齐机制
安全保证	形式化验证对齐方法的安全性

参考文献

本文为无训练LLM对齐方法的综合性综述，旨在为研究者和工程师提供全面的技术参考。

Lin, Y. et al. (2025). Training-Free LLM Alignment: A Survey. arXiv:2508.09016. https://arxiv.org/abs/2508.09016 ↩

Metaphor

探索

无训练大语言模型对齐综述

引言

无训练对齐的优势

三阶段分类体系

Pre-Decoding 阶段（解码前）

URIAL 方法详解

BPO 方法

In-Decoding 阶段（解码中）

Proxy Tuning 原理

Linear Alignment

Post-Decoding 阶段（解码后）

LLM SELF DEFENSE

Aligner 架构

功能对齐 vs 规范对齐

功能对齐（Functional Alignment）

规范对齐（Normative Alignment）

评估方法

基准驱动评估（Benchmark-Driven）

人类中心评估（Human-Centric）

模型辅助评估（Model-Assisted）

无训练对齐方法总览

方法对比表

选择指南

挑战与未来方向

当前挑战

未来研究方向

参考文献

关系图谱

目录

Metaphor

探索

无训练大语言模型对齐综述

引言

无训练对齐的优势

三阶段分类体系

Pre-Decoding 阶段（解码前）

URIAL 方法详解

BPO 方法

In-Decoding 阶段（解码中）

Proxy Tuning 原理

Linear Alignment

Post-Decoding 阶段（解码后）

LLM SELF DEFENSE

Aligner 架构

功能对齐 vs 规范对齐

功能对齐（Functional Alignment）

规范对齐（Normative Alignment）

评估方法

基准驱动评估（Benchmark-Driven）

人类中心评估（Human-Centric）

模型辅助评估（Model-Assisted）

无训练对齐方法总览

方法对比表

选择指南

挑战与未来方向

当前挑战

未来研究方向

参考文献

Footnotes

关系图谱

目录