因果启发的视频推理去偏优化
1. 概述
中山大学 Wu Jingze 等人在 CVPR 2026 提出 VideoThinker 框架(与 ICLR 2026 的同名方法不同)12,核心问题:
强化学习(RL)虽然显著提升了视频推理能力,但模型常陷入”感知捷径”——过度依赖表面视觉模式而非真正的因果推理。
论文提出因果启发的去偏优化(Causal-Inspired Debiasing Optimization),将因果推断中的**结构因果模型(SCM)**引入视频推理训练,使模型从”感知匹配”转向”因果推理”。
2. 感知捷径问题
2.1 什么是感知捷径?
视频推理中的”感知捷径”指模型利用表面视觉模式而非真正推理的”作弊”策略:
| 感知捷径类型 | 示例 |
|---|---|
| 位置偏见 | 总是预测视频结尾是答案 |
| 频率偏见 | 总是预测最常见类别 |
| 外观偏见 | 根据物体颜色而非动作推理 |
| 时序偏见 | 总是假设事件按顺序发生 |
| 背景偏见 | 根据背景场景而非物体行为推理 |
2.2 RL 加剧感知捷径
论文通过实验观察到:
- 标准 RL(如 GRPO):在标准基准上准确率高,但在去偏基准(Counterfactual Bench)上准确率下降 30-40%
- SFT:去偏能力较好,但泛化能力弱
- 感知捷径通常在 RL 训练中被”奖励”,因为它们在大多数情况下是相关的(但不是因果的)
2.3 数学形式化
定义感知捷径 与真实推理 :
但实际上:
其中 是答案, 是真实推理, 是感知捷径。
这是典型的混淆偏差(confounding bias)。
3. 结构因果模型
3.1 因果图设计
论文设计的 SCM:
┌─────────────┐ ┌─────────────┐
│ 问题 Q │────────▶│ 真实推理 R │
└─────────────┘ └──────┬──────┘
│
▼
┌─────────────┐ ┌─────────────┐
│ 视频 V │────────▶│ 答案 A │
└──────┬──────┘ └─────────────┘
│ ▲
│ │
▼ │
┌─────────────┐ │
│ 感知捷径 S │────────────────┘
└─────────────┘
关键路径:
- (因果路径)
- (捷径路径)
- (推理引导)
3.2 因果效应估计
干预(Intervention)的因果效应:
其中 表示 do-calculus 的干预操作。
3.3 反事实推理
反事实问题:“如果模型使用真实推理而非感知捷径,答案会如何变化?“
4. 去偏优化方法
4.1 总体目标
VideoThinker 的优化目标:
其中:
- :标准 RL 损失(GRPO)
- :因果干预损失
- :反事实一致性损失
4.2 因果干预损失
通过 do-calculus 模拟”移除捷径”的效果:
实现方法:
- 捷径识别:训练一个捷径检测器
- 捷径掩码:将捷径特征从表示中移除
- 重新推理:使用去偏表示重新生成答案
def causal_loss(video_feat, question_feat, answer):
# 1. 识别捷径特征
shortcut_feat, true_feat = split_features(video_feat, g_phi)
# 2. 干预:移除捷径特征
intervened_feat = mask_shortcut(true_feat, shortcut_feat)
# 3. 用去偏特征重新预测
pred_answer = predict(intervened_feat, question_feat)
# 4. 因果损失
loss = cross_entropy(pred_answer, answer)
return loss4.3 反事实一致性损失
鼓励模型在”使用捷径”和”不使用捷径”两种情况下都尽量正确:
直观解释:当捷径移除后,模型的输出不应该剧烈变化(因为它应该学会不依赖捷径)。
4.4 完整训练流程
for batch in dataloader:
videos, questions, answers = batch
# 标准 RL 损失
rl_loss = grpo_loss(model, videos, questions, answers)
# 因果干预损失
causal_loss = compute_causal_loss(model, videos, questions, answers)
# 反事实一致性损失
counterfactual_loss = compute_counterfactual_loss(model, videos, questions)
# 总损失
total_loss = rl_loss + alpha * causal_loss + beta * counterfactual_loss
# 反向传播
total_loss.backward()
optimizer.step()5. 去偏基准与评估
5.1 Counterfactual VideoQA 基准
论文构建的去偏评估基准:
| 基准 | 类别 | 样本数 | 评估内容 |
|---|---|---|---|
| CF-VQA-Location | 位置偏见 | 5,000 | 答案不应仅依赖位置 |
| CF-VQA-Frequency | 频率偏见 | 5,000 | 答案不应仅依赖频率 |
| CF-VQA-Appearance | 外观偏见 | 5,000 | 答案应基于动作而非外观 |
| CF-VQA-Temporal | 时序偏见 | 5,000 | 答案应基于真实时序 |
| CF-VQA-Background | 背景偏见 | 5,000 | 答案应基于物体而非背景 |
5.2 评估指标
- 标准准确率:在标准基准上的准确率
- 去偏准确率:在 CF-VQA 上的准确率
- 去偏增益:去偏准确率 - 标准准确率
- 泛化比:去偏准确率 / 标准准确率
6. 实验结果
6.1 主要结果
在轻量级 MLLM(7B 参数)上的对比:
| 方法 | Video-MME | CF-VQA | 去偏增益 |
|---|---|---|---|
| 基础 MLLM (SFT) | 56.4 | 48.2 | -8.2 |
| + GRPO | 62.1 | 38.5 | -23.6 |
| + GRPO + 去偏 | 64.3 | 52.7 | -11.6 |
| + 因果去偏 (本文) | 66.8 | 61.4 | -5.4 |
关键发现:标准 GRPO 在去偏基准上表现变差(-23.6),而因果去偏方法能保持较好性能(-5.4)。
6.2 消融实验
| 配置 | Video-MME | CF-VQA | Δ |
|---|---|---|---|
| GRPO (baseline) | 62.1 | 38.5 | -23.6 |
| + | 65.4 | 55.2 | -10.2 |
| + | 66.2 | 58.9 | -7.3 |
| + Both (完整) | 66.8 | 61.4 | -5.4 |
6.3 捷径类型分析
各捷径类型的缓解效果:
| 捷径类型 | 缓解前 | 缓解后 | 改善 |
|---|---|---|---|
| 位置 | 32% | 58% | +26% |
| 频率 | 41% | 64% | +23% |
| 外观 | 28% | 56% | +28% |
| 时序 | 35% | 59% | +24% |
| 背景 | 39% | 62% | +23% |
7. 理论分析
7.1 反事实一致性定理
定理 7.1:在因果假设下,最小化反事实一致性损失等价于最小化感知捷径与真实推理的依赖:
证明思路:反事实 KL 散度衡量”移除捷径后的变化”,如果变化小,说明模型对捷径依赖低。
7.2 因果干预的理论保证
定理 7.2:因果干预损失 是真实因果效应的蒙特卡洛估计:
其中 是采样数。
7.3 与其他去偏方法的关系
| 方法 | 核心思想 | 与本文关系 |
|---|---|---|
| Reweighting | 样本权重调整 | 互补,本文是模型层面去偏 |
| IRM | 不变风险最小化 | 共享因果思想 |
| Counterfactual Augmentation | 数据增强 | 本文无需数据增强 |
| Causal Attention | 注意力去偏 | 本文的扩展方向 |
8. 实现细节
8.1 捷径检测器
捷径检测器 的实现:
class ShortcutDetector(nn.Module):
def __init__(self, input_dim):
self.shortcut_head = nn.Linear(input_dim, shortcut_dim)
self.truth_head = nn.Linear(input_dim, truth_dim)
def forward(self, x):
shortcut_feat = self.shortcut_head(x)
truth_feat = self.truth_head(x)
return shortcut_feat, truth_feat训练 使用对抗目标:
其中 是判别器, 是检测器参数。
8.2 do-calculus 的实现
def do_intervention(features, shortcut_mask):
"""模拟 do(S=0) 操作"""
# 移除捷径特征
intervened = features * (1 - shortcut_mask)
return intervened
def counterfactual_inference(model, original_feat, intervened_feat):
"""反事实推理"""
pred_original = model(original_feat)
pred_intervened = model(intervened_feat)
# 强制一致性
kl_loss = kl_divergence(pred_original, pred_intervened)
return kl_loss8.3 超参数选择
| 超参数 | 值 | 说明 |
|---|---|---|
| (因果损失权重) | 0.5 | 经过 grid search |
| (反事实损失权重) | 0.3 | 经过 grid search |
| 学习率 | 标准 RL 设置 | |
| 批量大小 | 32 | 受 GPU 内存限制 |
| 捷径维度 | 64 | 控制捷径容量 |
9. 应用与扩展
9.1 在不同任务上的应用
| 任务 | 标准准确率 | 去偏准确率 | 改善 |
|---|---|---|---|
| 视频问答 | +4.7 | +22.9 | 显著 |
| 视频描述 | +3.2 | +18.6 | 显著 |
| 动作识别 | +2.8 | +15.4 | 中等 |
| 视频推理 | +5.1 | +24.3 | 显著 |
9.2 扩展到其他模态
因果去偏方法可扩展到:
- 图像推理:去除外观、位置偏见
- 音频推理:去除音色、响度偏见
- 跨模态推理:去除跨模态对齐偏见
9.3 与世界模型的联系
“Thinking with Video” 范式中,去偏优化同样重要:
- 视频生成模型可能学会”幻觉捷径”
- 因果去偏可应用于生成模型的训练
10. 局限性与未来方向
10.1 当前局限
- 依赖捷径检测器:检测器的准确性影响去偏效果
- SCM 假设:假设 SCM 正确,可能不总是成立
- 计算成本:因果干预增加训练成本约 30%
- 泛化边界:去偏效果可能不迁移到所有任务
10.2 未来方向
- 自适应捷径检测:无需人工指定捷径类型
- 多捷径联合去偏:同时处理多种捷径
- 因果表征学习:学习更鲁棒的因果特征
- 理论保证:更严格的因果效应估计界
11. 与现有 Wiki 内容联系
- 基础:
[[../multimodal-reasoning/thinking-with-videos-survey|Thinking with Videos 综述]] - 因果:
[[../machine-learning/causal-inference|因果推断]]- 因果推断理论基础 - 去偏:
[[../machine-learning/causal-foundation-model-partial-graphs|因果基础模型]]- 因果基础模型 - RL:
[[../machine-learning/grpo-group-relative-policy-optimization|GRPO]]- GRPO 算法 - 捷径:
[[../machine-learning/implicit-bias-gradient-descent|隐式偏差]]- 隐式偏差与捷径
12. 参考文献
Footnotes
-
Wu J., Zhang Q., Suo H., et al. “Beyond Perceptual Shortcuts: Causal-Inspired Debiasing Optimization for Generalizable Video Reasoning in Lightweight MLLMs.” CVPR 2026. arXiv:2605.01324 ↩