因果启发的视频推理去偏优化

1. 概述

中山大学 Wu Jingze 等人在 CVPR 2026 提出 VideoThinker 框架（与 ICLR 2026 的同名方法不同）¹²，核心问题：

强化学习（RL）虽然显著提升了视频推理能力，但模型常陷入”感知捷径”——过度依赖表面视觉模式而非真正的因果推理。

论文提出因果启发的去偏优化（Causal-Inspired Debiasing Optimization），将因果推断中的**结构因果模型（SCM）**引入视频推理训练，使模型从”感知匹配”转向”因果推理”。

2. 感知捷径问题

2.1 什么是感知捷径？

视频推理中的”感知捷径”指模型利用表面视觉模式而非真正推理的”作弊”策略：

感知捷径类型	示例
位置偏见	总是预测视频结尾是答案
频率偏见	总是预测最常见类别
外观偏见	根据物体颜色而非动作推理
时序偏见	总是假设事件按顺序发生
背景偏见	根据背景场景而非物体行为推理

2.2 RL 加剧感知捷径

论文通过实验观察到：

标准 RL（如 GRPO）：在标准基准上准确率高，但在去偏基准（Counterfactual Bench）上准确率下降 30-40%
SFT：去偏能力较好，但泛化能力弱
感知捷径通常在 RL 训练中被”奖励”，因为它们在大多数情况下是相关的（但不是因果的）

2.3 数学形式化

定义感知捷径 $S$ 与真实推理 $R$ ：

P (正确 ∣ 捷径成立) > P (正确 ∣ 捷径不成立)

但实际上：

A \neq ⊥ ⊥ S ∣ R, 即 A 与 S 在给定 R 下不独立

其中 $A$ 是答案， $R$ 是真实推理， $S$ 是感知捷径。

这是典型的混淆偏差（confounding bias）。

3. 结构因果模型

3.1 因果图设计

论文设计的 SCM：

┌─────────────┐         ┌─────────────┐
│   问题 Q     │────────▶│  真实推理 R   │
└─────────────┘         └──────┬──────┘
                               │
                               ▼
┌─────────────┐         ┌─────────────┐
│  视频 V     │────────▶│  答案 A     │
└──────┬──────┘         └─────────────┘
       │                       ▲
       │                       │
       ▼                       │
┌─────────────┐                │
│  感知捷径 S  │────────────────┘
└─────────────┘

关键路径：

$V \to R \to A$ （因果路径）
$V \to S \to A$ （捷径路径）
$Q \to R \to A$ （推理引导）

3.2 因果效应估计

干预（Intervention）的因果效应：

CATE (v) = E [A ∣ do (R = r), V = v] - E [A ∣ do (R = r^{'}), V = v]

其中 $do (\cdot)$ 表示 do-calculus 的干预操作。

3.3 反事实推理

反事实问题：“如果模型使用真实推理而非感知捷径，答案会如何变化？“

A_{counterfactual} = A ∣ do (S = 0), keep others as observed

4. 去偏优化方法

4.1 总体目标

VideoThinker 的优化目标：

L_{total} = L_{RL} + α L_{causal} + β L_{counterfactual}

其中：

$L_{RL}$ ：标准 RL 损失（GRPO）
$L_{causal}$ ：因果干预损失
$L_{counterfactual}$ ：反事实一致性损失

4.2 因果干预损失

通过 do-calculus 模拟”移除捷径”的效果：

L_{causal} = - E_{(V, Q, A^{*})} lo g P (A^{*} ∣ V, Q, do (S = 0))

实现方法：

捷径识别：训练一个捷径检测器 $g_{ϕ}$
捷径掩码：将捷径特征从表示中移除
重新推理：使用去偏表示重新生成答案

def causal_loss(video_feat, question_feat, answer):
    # 1. 识别捷径特征
    shortcut_feat, true_feat = split_features(video_feat, g_phi)
    
    # 2. 干预：移除捷径特征
    intervened_feat = mask_shortcut(true_feat, shortcut_feat)
    
    # 3. 用去偏特征重新预测
    pred_answer = predict(intervened_feat, question_feat)
    
    # 4. 因果损失
    loss = cross_entropy(pred_answer, answer)
    return loss

4.3 反事实一致性损失

鼓励模型在”使用捷径”和”不使用捷径”两种情况下都尽量正确：

L_{counterfactual} = E_{(V, Q, A^{*})} [D_{KL} (P (A ∣ V, Q) ∥ P (A ∣ V, Q, do (S = 0)))]

直观解释：当捷径移除后，模型的输出不应该剧烈变化（因为它应该学会不依赖捷径）。

4.4 完整训练流程

for batch in dataloader:
    videos, questions, answers = batch
    
    # 标准 RL 损失
    rl_loss = grpo_loss(model, videos, questions, answers)
    
    # 因果干预损失
    causal_loss = compute_causal_loss(model, videos, questions, answers)
    
    # 反事实一致性损失
    counterfactual_loss = compute_counterfactual_loss(model, videos, questions)
    
    # 总损失
    total_loss = rl_loss + alpha * causal_loss + beta * counterfactual_loss
    
    # 反向传播
    total_loss.backward()
    optimizer.step()

5. 去偏基准与评估

5.1 Counterfactual VideoQA 基准

论文构建的去偏评估基准：

基准	类别	样本数	评估内容
CF-VQA-Location	位置偏见	5,000	答案不应仅依赖位置
CF-VQA-Frequency	频率偏见	5,000	答案不应仅依赖频率
CF-VQA-Appearance	外观偏见	5,000	答案应基于动作而非外观
CF-VQA-Temporal	时序偏见	5,000	答案应基于真实时序
CF-VQA-Background	背景偏见	5,000	答案应基于物体而非背景

5.2 评估指标

标准准确率：在标准基准上的准确率
去偏准确率：在 CF-VQA 上的准确率
去偏增益：去偏准确率 - 标准准确率
泛化比：去偏准确率 / 标准准确率

6. 实验结果

6.1 主要结果

在轻量级 MLLM（7B 参数）上的对比：

方法	Video-MME	CF-VQA	去偏增益
基础 MLLM (SFT)	56.4	48.2	-8.2
+ GRPO	62.1	38.5	-23.6
+ GRPO + 去偏	64.3	52.7	-11.6
+ 因果去偏 (本文)	66.8	61.4	-5.4

关键发现：标准 GRPO 在去偏基准上表现变差（-23.6），而因果去偏方法能保持较好性能（-5.4）。

6.2 消融实验

配置	Video-MME	CF-VQA	Δ
GRPO (baseline)	62.1	38.5	-23.6
+ $L_{causal}$	65.4	55.2	-10.2
+ $L_{counterfactual}$	66.2	58.9	-7.3
+ Both (完整)	66.8	61.4	-5.4

6.3 捷径类型分析

各捷径类型的缓解效果：

捷径类型	缓解前	缓解后	改善
位置	32%	58%	+26%
频率	41%	64%	+23%
外观	28%	56%	+28%
时序	35%	59%	+24%
背景	39%	62%	+23%

7. 理论分析

7.1 反事实一致性定理

定理 7.1：在因果假设下，最小化反事实一致性损失等价于最小化感知捷径与真实推理的依赖：

min L_{counterfactual} ⟺ min MI (S; A ∣ R)

证明思路：反事实 KL 散度衡量”移除捷径后的变化”，如果变化小，说明模型对捷径依赖低。

7.2 因果干预的理论保证

定理 7.2：因果干预损失 $L_{causal}$ 是真实因果效应的蒙特卡洛估计：

L_{causal} \to CATE (v) as N \to \infty

其中 $N$ 是采样数。

7.3 与其他去偏方法的关系

方法	核心思想	与本文关系
Reweighting	样本权重调整	互补，本文是模型层面去偏
IRM	不变风险最小化	共享因果思想
Counterfactual Augmentation	数据增强	本文无需数据增强
Causal Attention	注意力去偏	本文的扩展方向

8. 实现细节

8.1 捷径检测器

捷径检测器 $g_{ϕ}$ 的实现：

class ShortcutDetector(nn.Module):
    def __init__(self, input_dim):
        self.shortcut_head = nn.Linear(input_dim, shortcut_dim)
        self.truth_head = nn.Linear(input_dim, truth_dim)
    
    def forward(self, x):
        shortcut_feat = self.shortcut_head(x)
        truth_feat = self.truth_head(x)
        return shortcut_feat, truth_feat

训练 $g_{ϕ}$ 使用对抗目标：

ϕ min ψ max E [lo g D_{ψ} (捷径特征) + lo g (1 - D_{ψ} (真实特征))]

其中 $D_{ψ}$ 是判别器， $ϕ$ 是检测器参数。

8.2 do-calculus 的实现

def do_intervention(features, shortcut_mask):
    """模拟 do(S=0) 操作"""
    # 移除捷径特征
    intervened = features * (1 - shortcut_mask)
    return intervened
 
def counterfactual_inference(model, original_feat, intervened_feat):
    """反事实推理"""
    pred_original = model(original_feat)
    pred_intervened = model(intervened_feat)
    
    # 强制一致性
    kl_loss = kl_divergence(pred_original, pred_intervened)
    return kl_loss

8.3 超参数选择

超参数	值	说明
$α$ (因果损失权重)	0.5	经过 grid search
$β$ (反事实损失权重)	0.3	经过 grid search
学习率	$2 \times 1 0^{- 5}$	标准 RL 设置
批量大小	32	受 GPU 内存限制
捷径维度	64	控制捷径容量

9. 应用与扩展

9.1 在不同任务上的应用

任务	标准准确率	去偏准确率	改善
视频问答	+4.7	+22.9	显著
视频描述	+3.2	+18.6	显著
动作识别	+2.8	+15.4	中等
视频推理	+5.1	+24.3	显著

9.2 扩展到其他模态

因果去偏方法可扩展到：

图像推理：去除外观、位置偏见
音频推理：去除音色、响度偏见
跨模态推理：去除跨模态对齐偏见

9.3 与世界模型的联系

“Thinking with Video” 范式中，去偏优化同样重要：

视频生成模型可能学会”幻觉捷径”
因果去偏可应用于生成模型的训练

10. 局限性与未来方向

10.1 当前局限

依赖捷径检测器：检测器的准确性影响去偏效果
SCM 假设：假设 SCM 正确，可能不总是成立
计算成本：因果干预增加训练成本约 30%
泛化边界：去偏效果可能不迁移到所有任务

10.2 未来方向

自适应捷径检测：无需人工指定捷径类型
多捷径联合去偏：同时处理多种捷径
因果表征学习：学习更鲁棒的因果特征
理论保证：更严格的因果效应估计界

11. 与现有 Wiki 内容联系

基础：[[../multimodal-reasoning/thinking-with-videos-survey|Thinking with Videos 综述]]
因果：[[../machine-learning/causal-inference|因果推断]] - 因果推断理论基础
去偏：[[../machine-learning/causal-foundation-model-partial-graphs|因果基础模型]] - 因果基础模型
RL：[[../machine-learning/grpo-group-relative-policy-optimization|GRPO]] - GRPO 算法
捷径：[[../machine-learning/implicit-bias-gradient-descent|隐式偏差]] - 隐式偏差与捷径

12. 参考文献

Wu J., Zhang Q., Suo H., et al. “Beyond Perceptual Shortcuts: Causal-Inspired Debiasing Optimization for Generalizable Video Reasoning in Lightweight MLLMs.” CVPR 2026. arXiv:2605.01324 ↩
代码仓库：github.com/falonss703/VideoThinker ↩

Metaphor

探索

因果启发的视频推理去偏优化

因果启发的视频推理去偏优化

1. 概述

2. 感知捷径问题

2.1 什么是感知捷径？

2.2 RL 加剧感知捷径

2.3 数学形式化

3. 结构因果模型

3.1 因果图设计

3.2 因果效应估计

3.3 反事实推理

4. 去偏优化方法

4.1 总体目标

4.2 因果干预损失

4.3 反事实一致性损失

4.4 完整训练流程

5. 去偏基准与评估

5.1 Counterfactual VideoQA 基准

5.2 评估指标

6. 实验结果

6.1 主要结果

6.2 消融实验

6.3 捷径类型分析

7. 理论分析

7.1 反事实一致性定理

7.2 因果干预的理论保证

7.3 与其他去偏方法的关系

8. 实现细节

8.1 捷径检测器

8.2 do-calculus 的实现

8.3 超参数选择

9. 应用与扩展

9.1 在不同任务上的应用

9.2 扩展到其他模态

9.3 与世界模型的联系

10. 局限性与未来方向

10.1 当前局限

10.2 未来方向

11. 与现有 Wiki 内容联系

12. 参考文献

Footnotes

关系图谱

目录