1. 概述
In-Decoding(解码时)方法是一类重要的无训练(Training-Free, TF)对齐技术,它们在模型推理阶段直接调整生成过程,使预训练大语言模型(LLM)产生符合人类偏好的输出,而无需进行任何参数更新或微调。
核心思想
根据 arxiv:2508.09016 的分类框架,In-Decoding 方法的核心在于在自回归解码过程中干预模型行为。与训练时对齐(RLHF、DPO)相比,这些方法具有以下优势:
| 特性 | 训练时对齐 | In-Decoding对齐 |
|---|---|---|
| 计算成本 | 高(需梯度计算) | 低 |
| 参数访问 | 需要 | 可黑盒 |
| 实时调整 | 不可 | 可 |
| 知识保留 | 可能遗忘 | 完全保留 |
In-Decoding 方法可分为四大类:
- 隐状态调整(Hidden States Adjustment)
- Logits差分计算(Logits Difference Calculation)
- 基于引导的方法(Guidance-Based)
- 动态搜索策略(Dynamic Search Strategy)
2. 隐状态调整方法
隐状态调整方法通过直接修改 Transformer 各层的中间表示(hidden states)来实现对齐。这类方法的核心假设是:对齐信息可以在特定的隐空间中表示和操作。
2.1 CMRM(Cross-Modality Representation Manipulation)
CMRM 针对视觉-语言模型(VLM)中的安全对齐退化问题而提出。1
问题背景
当VLM集成了视觉模块后,其安全对齐能力相比纯LLM骨干会出现显著下降。这种现象称为安全对齐退化(Safety Alignment Degradation)。
研究发现,这种退化源于表征空间中的模态差距:多模态输入的表征偏离了LLM优化目标所在的纯文本表征分布。
核心方法
CMRM通过以下步骤恢复对齐能力:
-
提取偏移向量(Shifting Vector):计算多模态输入与纯文本输入的隐状态差异方向
-
表征校准:将多模态输入的隐状态沿偏移向量的反方向移动
设 为第 层最后一个token的隐状态, 为估计的偏移向量,则校准后的隐状态为:
其中 为干预强度系数。
实验结果
在LLaVA-7B上,CMRM将多模态输入的不安全率从 61.53% 降低至 3.15%,同时对模型的流畅性和语言能力影响极小。
2.2 VLM-Guard
VLM-Guard 是另一种针对VLM安全对齐的推理时干预方法。2
核心思想
VLM-Guard利用VLM中LLM组件的安全对齐信息来监督整个VLM的安全行为。其关键操作是将VLM的表征投影到与安全引导方向正交的子空间。
数学推导
-
从安全对齐的LLM中提取安全 steering 方向(Safety Steering Direction, SSD)
-
对第 层最后一个token的隐状态 ,计算其投影到与SSD正交子空间的结果:
其中 是SSD的第一主成分。
- 二元门控机制:仅对有害意图的输入激活隐状态操作
- 最终的隐状态干预:
关键洞察
VLM-Guard的核心发现是:**模态差距(Modality Gap)**导致有害和无害查询在VLM中的表征差异被削弱,而这种差异在LLM中是明显的。
3. Logits差分计算方法
Logits差分计算方法通过对齐模型与基模型的输出logits进行运算,产生改进的下一个token概率分布。这类方法的核心是利用对齐知识改变token的相对概率。
3.1 Proxy Tuning
Proxy Tuning 是最具代表性的Logits差分方法,由 Liu 等人提出。3
核心思想
无需访问大模型参数,仅通过其输出logits进行调节。具体做法是:
- 在一个小模型上进行微调
- 用小模型的微调前后logits差异来调整大模型的输出
数学推导
设 为基大模型的token分布, 为小模型微调后的分布, 为小模型基版本的分布。
Proxy Tuning的核心公式为:
其中 为第 个token, 为调节超参数。
关键性质
- 线性可加性:Logits差异可以直接相加
- 弱到强泛化:7B小模型的微调信号可以指导70B大模型
- 黑盒兼容性:仅需访问输出logits,不依赖模型架构
Python实现
import torch
import torch.nn.functional as F
def proxy_tuning(
base_logits: torch.Tensor, # 大模型基版本的logits [batch, seq_len, vocab_size]
small_ft_logits: torch.Tensor, # 小模型微调版本的logits
small_base_logits: torch.Tensor, # 小模型基版本的logits
alpha: float = 1.0, # 调节强度
temperature: float = 1.0, # 温度参数
) -> torch.Tensor:
"""
Proxy Tuning: 用小模型的logits差异调整大模型输出
参数:
base_logits: 基大模型的logits
small_ft_logits: 小模型微调后的logits
small_base_logits: 小模型基版本的logits
alpha: 调节强度系数
temperature: 采样温度
"""
# 计算小模型的logits差异(代理信号)
proxy_diff = small_ft_logits - small_base_logits
# 将差异加到基大模型的logits上
adjusted_logits = base_logits + alpha * proxy_diff
# 应用温度缩放
adjusted_logits = adjusted_logits / temperature
# 转换为概率分布
adjusted_probs = F.softmax(adjusted_logits, dim=-1)
return adjusted_probs
def proxy_tuning_decoding(
base_model,
small_ft_model,
small_base_model,
prompt: str,
alpha: float = 1.0,
max_length: int = 100,
tokenizer=None
):
"""完整的Proxy Tuning解码流程"""
input_ids = tokenizer.encode(prompt, return_tensors='pt')
generated = input_ids.clone()
for _ in range(max_length):
# 获取各模型的logits
with torch.no_grad():
base_logits = base_model(generated).logits[:, -1, :]
small_ft_logits = small_ft_model(generated).logits[:, -1, :]
small_base_logits = small_base_model(generated).logits[:, -1, :]
# 应用Proxy Tuning
adjusted_probs = proxy_tuning(
base_logits, small_ft_logits, small_base_logits, alpha
)
# 采样下一个token
next_token = torch.multinomial(adjusted_probs, num_samples=1)
generated = torch.cat([generated, next_token], dim=1)
if next_token.item() == tokenizer.eos_token_id:
break
return tokenizer.decode(generated[0], skip_special_tokens=True)实验结果
在 Llama2-70B 上使用仅 7B 大小的代理模型,Proxy Tuning 可以弥补 88% 的基础模型与Chat版本之间的性能差距。
3.2 DeRa(Decoding-time Realignment)
DeRa 旨在解决RLHF中正则化强度选择的难题。4
核心问题
RLHF的优化目标通常为:
其中 控制与参考模型(通常是SFT模型)的KL散度约束。传统方法需要重训练多个模型来找到最优 ,这在资源上非常昂贵。
DeRa解决方案
DeRa通过解码时操作实现正则化强度的连续调节。设 和 分别为微调模型和参考模型在某个位置的token分布:
取对数形式:
当 时,得到完全微调的分布; 时,得到参考模型的分布。通过调整 ,可以在两者之间平滑插值。
应用场景
- 对齐强度控制:用户可调节模型的无害性与有用性平衡
- 超参数快速搜索:无需重训练即可评估不同正则化强度
- 对齐修复:对过度对齐导致的能力下降进行补偿
3.3 Linear Alignment
Linear Alignment 提出一种闭式(closed-form)解的对齐方法,无需迭代优化。5
核心观察
设基模型策略为 ,目标对齐策略为 。Linear Alignment发现:
对齐过程可以在logits空间中通过简单的线性变换近似。
数学推导
考虑RLHF的KL正则化目标:
其最优解在logits空间可以表示为:
其中 是从原则提示(Principle Prompt)扰动中估计的偏好梯度方向。
具体而言:
- 对每个输入 ,构造 (正面回答)和 (负面回答)
- 计算 logits 差异:
- 提取偏好方向并进行一步梯度上升
优势
- 单次推理:无需多轮优化
- 闭式解:避免了迭代收敛问题
- 高效:计算复杂度与标准解码相当
3.4 δ-UNLEARNING
δ-UNLEARNING 将”遗忘”(unlearning)问题转化为logits偏移学习。6
目标
在黑盒LLM中”遗忘”特定训练数据(如版权内容、私人信息),同时保持其他任务性能。
核心方法
不需要访问LLM内部权重,而是学习一个logits偏移量 :
偏移量通过对比一对小型模型的logits差异来学习:
其中 是从遗忘目标数据的小模型到偏移量的映射函数。
与其他方法对比
| 方法 | 黑盒支持 | 保留隐私数据 |
|---|---|---|
| 梯度上升 | ❌ | ✅ |
| 数据重标注 | ❌ | ✅ |
| 上下文遗忘 | ✅ | ❌ |
| δ-UNLEARNING | ✅ | ✅ |
3.5 GOOD(Guided Online Optimal Decoding)
GOOD 是一种黑盒友好的解码时对齐方法。7
核心发现
不同对齐模型在对齐相关token的决策上存在相似性。
方法流程
- 使用一对引导模型识别对齐相关的关键位置
- 动态调整模型在解码阶段的输出
- 字符串级交互:无需共享词汇表
设目标模型的logits为 ,引导模型的决策信号为 :
实验结果
- 弱到强对齐:使用7B引导模型使70B模型达到102%的目标性能
- 跨模型族引导:不同词汇表的模型间对齐可达98%
3.6 CoCA(Concept Concentration)
CoCA 针对表示干预方法在非线性设置下的失效问题而提出。8
问题背景
传统表示干预方法假设可以在线性可分的表征空间中进行概念操纵。但在实际模型中,安全相关概念往往是非线性分布的。
CoCA解决方案
与其直接定位要干预的概念,不如简化训练数据的决策边界:
- 识别潜在的不安全概念
- 显式推理决策过程
- 用结构化格式重构训练响应
具体而言,CoCA将响应格式化为:
安全推理:{输入是否包含有害内容}
└── 概念识别:{识别的具体概念}
└── 决策:{应拒绝/应回答}
└── 响应:{实际回答内容}
通过这种方式,LLM学会了显式推理安全概念,而非依赖隐式的模式匹配。
4. 基于引导的方法
基于引导的方法通过外部信号(另一个模型、奖励函数、提示)来引导目标模型的生成过程。
4.1 InferAligner
InferAligner 利用跨模型引导实现无害性对齐。9
核心设计
InferAligner将无害性(harmlessness)与有用性(helpfulness)解耦:
- 训练阶段:专注于提升下游任务能力
- 推理阶段:利用安全steering向量引导模型行为
安全Steering向量提取
从安全对齐模型中提取安全相关向量(Safety Related Vectors, SRVs):
引导门控
对第 层,计算输入指令的意图监督信号:
最终干预:
特点
- ✅ 可应用于金融、医疗、数学等领域特定模型
- ✅ 可扩展到多模态大语言模型(MLLMs)
- ✅ 几乎不影响推理时间
4.2 Nudging
Nudging 基于一个关键发现:对齐主要影响一小部分文体标记token(如话语标记词)的生成。10
核心洞察
基模型在生成这些对齐相关token时表现出更高的不确定性。Nudging利用对齐的小模型在不确定性高时生成”引导token”来指导基模型。
算法流程
- 检测不确定性:当基模型对当前token的熵超过阈值时
- 请求引导:使用小型对齐模型生成候选token
- 选择性干预:仅在关键位置采纳引导模型的输出
设基模型的token分布为 ,引导模型的分布为 ,则:
其中 是熵函数, 是阈值。
实验发现
- 使用 7×-14× 更小的对齐模型即可有效引导大模型
- Gemma-2-27B + Llama-2-7b-chat 的组合超越 Llama-2-70b-chat
4.3 GenARM(Reward Guided Generation with Autoregressive Reward Model)
GenARM 解决了传统轨迹级奖励模型无法高效评估部分响应的难题。11
核心创新
传统奖励模型只能评估完整响应,而自回归生成需要逐token的奖励信号。GenARM提出**自回归奖励模型(Autoregressive Reward Model)**直接预测下一个token的奖励。
数学框架
设自回归奖励模型输出的token-level奖励为 ,则引导生成分布为:
取对数形式:
理论保证
论文证明:自回归奖励模型的参数化方式可以保证引导分布能达到传统轨迹级奖励模型能达到的任意分布。
应用场景
- 弱到强引导:7B奖励模型引导70B大模型
- 多目标对齐:同时优化有用性、无害性等多个维度
4.4 Chat Vector
Chat Vector 通过模型权重算术实现对齐迁移。12
核心定义
其中 表示模型权重。
应用方式
对目标模型 :
特点
- 无需训练:直接通过权重加法实现
- 跨语言迁移:可用于将英语对齐能力迁移到其他语言
- 可组合性:多个chat vector可以加权叠加
4.5 Category-Specific Steering
Category-Specific Steering(类别特定引导)方法通过学习不同偏好维度的Alignment Vectors (AV) 来实现细粒度控制。13
核心思想
AV定义为对齐模型与基模型权重之差:
动态调节
推理时,通过调整AV的强度来控制响应偏好:
应用
- 医学、法律、金融等领域的专业偏好控制
- 个性化对齐:不同用户可定制不同的 组合
- 推理效率:比提示工程方法快12倍
5. 动态搜索策略
动态搜索策略将解码过程视为启发式引导的搜索问题,在生成过程中探索多个可能的输出路径。
5.1 RAIN(Rewindable Auto-regressive INference)
RAIN 允许模型在推理时自我评估并回退已生成的token。14
核心机制
- 自评估:让模型评估当前生成是否与人类偏好一致
- 回退机制:如果评估为负面,回退并重新生成
- 无需训练:完全依赖预训练模型的能力
算法流程
设 为已生成的token序列, 为评估信号(+1表示正面,-1表示负面):
如果 且当前不是起始位置,则回退到上一个决策点并选择替代token。
实验结果
- LLaMA-30B 无害率从 82% 提升到 97%
- TruthfulQA上,LLaMA-2-chat 13B 真实性提升 5%
- 无需额外数据、梯度计算或参数更新
5.2 DeAL(Decoding-time Alignment of LLMs)
DeAL 将解码视为启发式引导的搜索过程。15
核心框架
DeAL支持多种对齐目标,包括:
- 程序化约束:关键词约束、长度约束
- 抽象目标:无害性、有用性
搜索过程
设奖励函数为 ,DeAL的解码目标为:
其中 控制生成质量与参考分布的KL散度。
与RLHF的关系
DeAL的关键洞察是:解码时可以复现训练时的对齐效果,甚至可以超越,因为可以针对具体输入定制对齐目标。
5.3 TreeBoN(Tree-Search with Best-of-N)
TreeBoN 将推测性树搜索策略集成到Best-of-N采样中。16
核心思想
标准BoN生成N个完整响应再选择最佳,计算成本高。TreeBoN通过树搜索剪枝减少计算开销。
算法流程
- 维护一组父节点
- 迭代分支和剪枝:扩展高分节点,丢弃低分路径
- 使用DPO token级奖励指导树的扩展和剪枝
树结构
root
/ | \
/ | \
n1 n2 n3
/ \ / \ / \
... ... ... ...
剪枝策略
设token级奖励为 ,则节点得分:
仅保留得分最高的 个子节点。
实验结果
- 在响应长度为192和384token时达到 65%胜率
- 长响应(更长生成)场景下约 60%胜率
- 在相同计算成本下超越标准BoN
5.4 DARWIN
DARWIN 利用奖励模型引导的树搜索实现推理时对齐。17
方法特点
- 使用Monte Carlo Tree Search (MCTS) 探索响应空间
- 奖励模型评估每条路径的价值
- 在AlpacaEval 2和MT-Bench上超越BoN和ARGS
6. 数学推导与实现
6.1 Proxy Tuning的完整推导
目标
利用小模型的微调信号调整大模型输出,核心假设是:
预训练模型的logits空间包含足够的知识,微调主要改变相对于基模型的偏差方向。
数学形式化
设:
- :大基模型
- :小基模型
- :小微调模型
核心假设:微调对logits的改变在大小模型间存在线性关系
其中 是与模型规模相关的缩放因子。
近似估计
由于无法访问 ,Proxy Tuning使用:
采样公式
最终采样分布为:
6.2 Linear Alignment的闭式解
KL正则化RL的目标
闭式解
该问题的最优解为:
其中 是归一化常数。
从偏好数据估计
设有偏好数据 ,其中 。 Bradley-Terry模型给出:
其中 是隐式奖励函数。
Linear Alignment的单步估计
通过在输入端添加原则提示(principle prompt)扰动来估计梯度方向。
6.3 GenARM的奖励参数化
传统轨迹级奖励
设 ,其中 通常是最后输出的标量奖励。
自回归奖励参数化
即奖励模型直接预测下一个token的log概率。
引导分布的等价性
设传统方法的token概率为:
GenARM证明存在自回归奖励模型参数化使得:
当且仅当奖励满足:
7. 关键洞察
7.1 方法选择指南
| 场景 | 推荐方法 | 原因 |
|---|---|---|
| 黑盒模型 | Proxy Tuning, GOOD, δ-UNLEARNING | 仅需logits访问 |
| 领域适配 | InferAligner, GenARM | 支持多目标优化 |
| 安全对齐 | CMRM, VLM-Guard, RAIN | 针对安全场景设计 |
| 效率优先 | Linear Alignment, Nudging | 单次推理开销 |
| 多轮搜索 | TreeBoN, DeAL | 支持复杂约束 |
7.2 核心规律
- Logits空间的线性可加性:大多数方法利用对齐操作在logits空间的线性可加性
- 弱到强泛化:小型对齐信号可以有效指导大型模型
- 对齐知识稀疏性:对齐主要影响少数关键token的分布
- 模态差距问题:多模态模型中存在特有的对齐退化现象
7.3 局限性
- 计算开销:搜索类方法(TreeBoN、DeAL)计算成本较高
- 引导模型依赖:需要访问小型对齐模型
- 超参数敏感:调节强度等超参数需要经验性调整
- 通用性限制:某些方法针对特定对齐维度设计
7.4 未来方向
- 自适应引导:根据输入动态选择引导策略
- 跨模型泛化:减少对特定模型族的依赖
- 效率优化:降低搜索方法的计算开销
- 可验证性:建立In-Decoding方法效果的理论保证
参考文献
Footnotes
-
Pan et al. “Unraveling and Mitigating Safety Alignment Degradation of Vision Language Models.” ACL Findings 2025. ↩
-
“VLM-Guard: Safeguarding Vision-Language Models via Fulfilling Safety Alignment Gap.” arXiv:2502.10486. ↩
-
Liu et al. “Tuning Language Models by Proxy.” arXiv:2401.08565. ↩
-
“Decoding-time Realignment of Language Models.” arXiv:2402.02992. ↩
-
Gao et al. “Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback.” ICML 2024. ↩
-
“Offset Unlearning for Large Language Models.” arXiv:2404.11045. ↩
-
“GOOD: Decoding-Time Black-Box LLM Alignment.” ICLR 2026 (Under Review). ↩
-
“CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration.” arXiv:2409.11365. ↩
-
“InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance.” EMNLP 2024. ↩
-
Fei et al. “Nudging: Inference-time Alignment of LLMs via Guided Decoding.” ACL 2025. ↩
-
Xu et al. “GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-Time Alignment.” ICLR 2025. ↩
-
Huang et al. “Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages.” ACL 2024. ↩
-
“Inference Time LLM Alignment in Single and Multidomain Preference Spectrum.” OpenReview. ↩
-
“RAIN: Your Language Models Can Align Themselves without Finetuning.” arXiv:2309.07124. ↩
-
“DeAL: Decoding-time Alignment for Large Language Models.” arXiv:2402.06147. ↩
-
“TreeBoN: Enhancing Inference-Time Alignment with Speculative Tree-Search and Best-of-N Sampling.” ACL Findings 2025. ↩
-
“Inference Time Alignment with Reward-Guided Tree Search.” arXiv:2406.15193. ↩