因果启发的视频推理去偏优化

1. 概述

中山大学 Wu Jingze 等人在 CVPR 2026 提出 VideoThinker 框架(与 ICLR 2026 的同名方法不同)12,核心问题:

强化学习(RL)虽然显著提升了视频推理能力,但模型常陷入”感知捷径”——过度依赖表面视觉模式而非真正的因果推理。

论文提出因果启发的去偏优化(Causal-Inspired Debiasing Optimization),将因果推断中的**结构因果模型(SCM)**引入视频推理训练,使模型从”感知匹配”转向”因果推理”。

2. 感知捷径问题

2.1 什么是感知捷径?

视频推理中的”感知捷径”指模型利用表面视觉模式而非真正推理的”作弊”策略:

感知捷径类型示例
位置偏见总是预测视频结尾是答案
频率偏见总是预测最常见类别
外观偏见根据物体颜色而非动作推理
时序偏见总是假设事件按顺序发生
背景偏见根据背景场景而非物体行为推理

2.2 RL 加剧感知捷径

论文通过实验观察到:

  • 标准 RL(如 GRPO):在标准基准上准确率高,但在去偏基准(Counterfactual Bench)上准确率下降 30-40%
  • SFT:去偏能力较好,但泛化能力弱
  • 感知捷径通常在 RL 训练中被”奖励”,因为它们在大多数情况下是相关的(但不是因果的)

2.3 数学形式化

定义感知捷径 与真实推理

但实际上:

其中 是答案, 是真实推理, 是感知捷径。

这是典型的混淆偏差(confounding bias)。

3. 结构因果模型

3.1 因果图设计

论文设计的 SCM:

┌─────────────┐         ┌─────────────┐
│   问题 Q     │────────▶│  真实推理 R   │
└─────────────┘         └──────┬──────┘
                               │
                               ▼
┌─────────────┐         ┌─────────────┐
│  视频 V     │────────▶│  答案 A     │
└──────┬──────┘         └─────────────┘
       │                       ▲
       │                       │
       ▼                       │
┌─────────────┐                │
│  感知捷径 S  │────────────────┘
└─────────────┘

关键路径

  • (因果路径)
  • (捷径路径)
  • (推理引导)

3.2 因果效应估计

干预(Intervention)的因果效应:

其中 表示 do-calculus 的干预操作。

3.3 反事实推理

反事实问题:“如果模型使用真实推理而非感知捷径,答案会如何变化?“

4. 去偏优化方法

4.1 总体目标

VideoThinker 的优化目标:

其中:

  • :标准 RL 损失(GRPO)
  • :因果干预损失
  • :反事实一致性损失

4.2 因果干预损失

通过 do-calculus 模拟”移除捷径”的效果:

实现方法:

  1. 捷径识别:训练一个捷径检测器
  2. 捷径掩码:将捷径特征从表示中移除
  3. 重新推理:使用去偏表示重新生成答案
def causal_loss(video_feat, question_feat, answer):
    # 1. 识别捷径特征
    shortcut_feat, true_feat = split_features(video_feat, g_phi)
    
    # 2. 干预:移除捷径特征
    intervened_feat = mask_shortcut(true_feat, shortcut_feat)
    
    # 3. 用去偏特征重新预测
    pred_answer = predict(intervened_feat, question_feat)
    
    # 4. 因果损失
    loss = cross_entropy(pred_answer, answer)
    return loss

4.3 反事实一致性损失

鼓励模型在”使用捷径”和”不使用捷径”两种情况下都尽量正确:

直观解释:当捷径移除后,模型的输出不应该剧烈变化(因为它应该学会不依赖捷径)。

4.4 完整训练流程

for batch in dataloader:
    videos, questions, answers = batch
    
    # 标准 RL 损失
    rl_loss = grpo_loss(model, videos, questions, answers)
    
    # 因果干预损失
    causal_loss = compute_causal_loss(model, videos, questions, answers)
    
    # 反事实一致性损失
    counterfactual_loss = compute_counterfactual_loss(model, videos, questions)
    
    # 总损失
    total_loss = rl_loss + alpha * causal_loss + beta * counterfactual_loss
    
    # 反向传播
    total_loss.backward()
    optimizer.step()

5. 去偏基准与评估

5.1 Counterfactual VideoQA 基准

论文构建的去偏评估基准:

基准类别样本数评估内容
CF-VQA-Location位置偏见5,000答案不应仅依赖位置
CF-VQA-Frequency频率偏见5,000答案不应仅依赖频率
CF-VQA-Appearance外观偏见5,000答案应基于动作而非外观
CF-VQA-Temporal时序偏见5,000答案应基于真实时序
CF-VQA-Background背景偏见5,000答案应基于物体而非背景

5.2 评估指标

  • 标准准确率:在标准基准上的准确率
  • 去偏准确率:在 CF-VQA 上的准确率
  • 去偏增益:去偏准确率 - 标准准确率
  • 泛化比:去偏准确率 / 标准准确率

6. 实验结果

6.1 主要结果

在轻量级 MLLM(7B 参数)上的对比:

方法Video-MMECF-VQA去偏增益
基础 MLLM (SFT)56.448.2-8.2
+ GRPO62.138.5-23.6
+ GRPO + 去偏64.352.7-11.6
+ 因果去偏 (本文)66.861.4-5.4

关键发现:标准 GRPO 在去偏基准上表现变差(-23.6),而因果去偏方法能保持较好性能(-5.4)。

6.2 消融实验

配置Video-MMECF-VQAΔ
GRPO (baseline)62.138.5-23.6
+ 65.455.2-10.2
+ 66.258.9-7.3
+ Both (完整)66.861.4-5.4

6.3 捷径类型分析

各捷径类型的缓解效果:

捷径类型缓解前缓解后改善
位置32%58%+26%
频率41%64%+23%
外观28%56%+28%
时序35%59%+24%
背景39%62%+23%

7. 理论分析

7.1 反事实一致性定理

定理 7.1:在因果假设下,最小化反事实一致性损失等价于最小化感知捷径与真实推理的依赖:

证明思路:反事实 KL 散度衡量”移除捷径后的变化”,如果变化小,说明模型对捷径依赖低。

7.2 因果干预的理论保证

定理 7.2:因果干预损失 是真实因果效应的蒙特卡洛估计:

其中 是采样数。

7.3 与其他去偏方法的关系

方法核心思想与本文关系
Reweighting样本权重调整互补,本文是模型层面去偏
IRM不变风险最小化共享因果思想
Counterfactual Augmentation数据增强本文无需数据增强
Causal Attention注意力去偏本文的扩展方向

8. 实现细节

8.1 捷径检测器

捷径检测器 的实现:

class ShortcutDetector(nn.Module):
    def __init__(self, input_dim):
        self.shortcut_head = nn.Linear(input_dim, shortcut_dim)
        self.truth_head = nn.Linear(input_dim, truth_dim)
    
    def forward(self, x):
        shortcut_feat = self.shortcut_head(x)
        truth_feat = self.truth_head(x)
        return shortcut_feat, truth_feat

训练 使用对抗目标:

其中 是判别器, 是检测器参数。

8.2 do-calculus 的实现

def do_intervention(features, shortcut_mask):
    """模拟 do(S=0) 操作"""
    # 移除捷径特征
    intervened = features * (1 - shortcut_mask)
    return intervened
 
def counterfactual_inference(model, original_feat, intervened_feat):
    """反事实推理"""
    pred_original = model(original_feat)
    pred_intervened = model(intervened_feat)
    
    # 强制一致性
    kl_loss = kl_divergence(pred_original, pred_intervened)
    return kl_loss

8.3 超参数选择

超参数说明
(因果损失权重)0.5经过 grid search
(反事实损失权重)0.3经过 grid search
学习率标准 RL 设置
批量大小32受 GPU 内存限制
捷径维度64控制捷径容量

9. 应用与扩展

9.1 在不同任务上的应用

任务标准准确率去偏准确率改善
视频问答+4.7+22.9显著
视频描述+3.2+18.6显著
动作识别+2.8+15.4中等
视频推理+5.1+24.3显著

9.2 扩展到其他模态

因果去偏方法可扩展到:

  • 图像推理:去除外观、位置偏见
  • 音频推理:去除音色、响度偏见
  • 跨模态推理:去除跨模态对齐偏见

9.3 与世界模型的联系

“Thinking with Video” 范式中,去偏优化同样重要:

  • 视频生成模型可能学会”幻觉捷径”
  • 因果去偏可应用于生成模型的训练

10. 局限性与未来方向

10.1 当前局限

  1. 依赖捷径检测器:检测器的准确性影响去偏效果
  2. SCM 假设:假设 SCM 正确,可能不总是成立
  3. 计算成本:因果干预增加训练成本约 30%
  4. 泛化边界:去偏效果可能不迁移到所有任务

10.2 未来方向

  1. 自适应捷径检测:无需人工指定捷径类型
  2. 多捷径联合去偏:同时处理多种捷径
  3. 因果表征学习:学习更鲁棒的因果特征
  4. 理论保证:更严格的因果效应估计界

11. 与现有 Wiki 内容联系

  • 基础[[../multimodal-reasoning/thinking-with-videos-survey|Thinking with Videos 综述]]
  • 因果[[../machine-learning/causal-inference|因果推断]] - 因果推断理论基础
  • 去偏[[../machine-learning/causal-foundation-model-partial-graphs|因果基础模型]] - 因果基础模型
  • RL[[../machine-learning/grpo-group-relative-policy-optimization|GRPO]] - GRPO 算法
  • 捷径[[../machine-learning/implicit-bias-gradient-descent|隐式偏差]] - 隐式偏差与捷径

12. 参考文献

Footnotes

  1. Wu J., Zhang Q., Suo H., et al. “Beyond Perceptual Shortcuts: Causal-Inspired Debiasing Optimization for Generalizable Video Reasoning in Lightweight MLLMs.” CVPR 2026. arXiv:2605.01324

  2. 代码仓库:github.com/falonss703/VideoThinker