对比学习理论

对比学习（Contrastive Learning）作为自监督表示学习的主流范式，其理论根基植根于信息论与统计学习理论。本文系统梳理对比学习的信息论基础、泛化保证、表示坍塌机制，以及与Transformer架构的深层联系。

1. 对比学习的信息论基础

1.1 InfoNCE目标函数详解

InfoNCE（Information Noise-Contrastive Estimation）损失是现代对比学习的核心目标函数，其形式为：¹

L_{NCE} = - E_{P^{(N)}} [lo g \frac{exp ( f ( x , x ^{+} ) / τ )}{\sum _{i = 1}^{N} exp ( f ( x _{i} , x _{i}^{+} ) / τ )}]

其中 $P^{(N)} = p (x, x^{+}) \prod_{i = 1}^{N - 1} p (x_{i}^{-})$ 表示正样本与 $N - 1$ 个负样本的联合分布， $f (\cdot, \cdot)$ 为相似度函数， $τ$ 为温度参数。

分解为交叉熵形式：设 $S = {x_{1}^{-}, \dots, x_{N - 1}^{-}}$ 为负样本集，则：

L_{NCE} = - lo g σ (\frac{f ( x , x ^{+} )}{τ}) - i = 1 \sum N - 1 1_{x_{i}^{-} \sim P_{n e g}} lo g (1 - σ (\frac{f ( x , x _{i}^{-} )}{τ}))

其中 $σ$ 为sigmoid函数。这表明InfoNCE同时优化正样本的分类置信度与负样本的排斥力。

1.2 互信息下界推导

核心定理（InfoNCE与互信息的关系）：在温和条件下，有²

I (x; x^{+}) \geq F_{NCE} - \frac{lo g ( N - 1 )}{N - 1} - o (1)

其中互信息下界 $F_{NCE} = lo g N - L_{NCE}$ 。

详细推导：

步骤1：互信息的定义与分解

I (x; x^{+}) = D_{K L} (p (x, x^{+}) ∥ p (x) p (x^{+})) = E_{p (x, x^{+})} [lo g \frac{p ( x ^{+} ∣ x )}{p ( x ^{+} )}]

步骤2：引入噪声对比分布

设噪声分布为 $q (x^{-})$ ，定义分类器 $p (c = 1∣ x) = \frac{p ( x ^{+} ∣ x )}{p ( x ^{+} ∣ x ) + α \cdot q ( x ^{-} )}$ ，其中 $α$ 为正负样本比例参数。

步骤3：F-divergence下界

利用f-divergence的性质，对于最优分类器 $p^{*}$ ：

D_{K L} (p ∥ q) \geq \frac{( p ( x ^{+} ) - α q ( x ^{-} ) ) ^{2}}{2 ( p ( x ^{+} ) + α q ( x ^{-} ))} (Cram \overset{e}{ˊ} r 下界)

步骤4：NCE下界的显式形式

当 $τ \to 0$ 时，InfoNCE逼近最优贝叶斯分类器：

τ \to 0 lim L_{NCE} = - lo g \frac{p ( x ^{+} ∣ x )}{p ( x ^{+} ∣ x ) + ( N - 1 ) q ( x ^{-} )} + lo g N

定义 $s^{*} (x) = lo g p (x^{+} ∣ x) - lo g q (x^{-})$ ，则：

I (x; x^{+}) \geq E_{p (x)} [softplus (s^{*} (x) - lo g (N - 1))]

其中 $softplus (u) = lo g (1 + e^{u})$ 。

下界紧性分析：

条件	下界紧度
$N \to \infty$	下界趋向真实互信息
$τ \to 0$	指数分布趋向硬分类
$q (x^{-}) \approx p (x^{+})$	噪声分布匹配时最优
$f$ 为充分统计量	表达能力保证

1.3 Noise Contrastive Estimation原理

NCE将密度估计问题转化为二分类问题。³

问题设定：

真实数据分布： $p_{d} (x)$
噪声分布： $p_{n} (x)$
混合分布： $p (x) = \frac{1}{2} p_{d} (x) + \frac{1}{2} p_{n} (x)$

NCE优化目标：

J_{N} = E_{p_{d} (x)} [lo g D (x)] + E_{p_{n} (x)} [lo g (1 - D (x))]

其中 $D (x) = σ (s_{θ} (x))$ 为判别器， $s_{θ} (x) = lo g p_{θ} (x) - lo g p_{n} (x)$ 为对数似然比。

与InfoNCE的联系：

当噪声分布为均匀分布 $p_{n} (x) = \frac{1}{N - 1} \sum_{i = 1}^{N - 1} δ_{x_{i}^{-}}$ 时，NCE目标等价于InfoNCE。此时：

lo g p_{θ} (x^{+} ∣ x) \approx f (x, x^{+}) - lo g (N - 1)

这解释了为什么对比学习可以无需显式建模 $p (x^{+})$ 而学习有用表示。

2. 对比学习的泛化理论

2.1 样本复杂度分析

PAC-Bayes框架下的分析：

设 $F$ 为表示函数族， $Q$ 为算法输出的后验分布。对于任意 $δ > 0$ ，以至少 $1 - δ$ 的概率：⁴

R (h) \leq \hat{R}_{S} (h) + \frac{KL ( Q ∥ P ) + ln ( 2 m / δ )}{2 m}

对于对比学习，我们需要重新定义经验风险。设 $ℓ_{cos}$ 为余弦相似度损失，则：

\hat{R}_{S}^{C L} = \frac{1}{m N} i = 1 \sum m j = 1 \sum N ℓ_{cos} (z_{i}, z_{i, j}^{-})

样本复杂度上界：

m \geq \frac{2}{ϵ ^{2}} (C (F) + ln \frac{2}{δ})

其中 $C (F)$ 为函数空间的覆盖数复杂度：

C (F) \leq \int_{0}^{2 R} N (F, ϵ) d ϵ

$N (F, ϵ)$ 为 $ϵ$ -覆盖数。

表示空间的Rademacher复杂度：

对于神经网络表示 $f_{θ} : X \to R^{d}$ ，Rademacher复杂度为：

R_{m} (F) = E_{σ, S} [f \in F sup \frac{1}{m} i = 1 \sum m σ_{i} \cdot f (x_{i})]

对于Lipschitz表示映射，有：

R_{m} (F) \leq \frac{L \cdot d}{m}

其中 $L$ 为Lipschitz常数。

2.2 负采样数量与性能的关系

理论分析：

设负样本数量为 $K$ ，则InfoNCE损失的不确定性来源于：

Var (L_{NCE}) \approx \frac{1}{K} \cdot \frac{\partial ^{2} L}{\partial p ^{2}} \cdot Var (p_{n e g})

最优负样本数推导：

考虑边际收益递减，设正样本相似度为 $s^{+} = E [f (x, x^{+})]$ ，负样本相似度为 $s^{-} = E [f (x, x^{-})]$ 。

InfoNCE梯度：

\frac{\partial L}{\partial s ^{+}} = - (1 - \frac{e ^{s^{+} / τ}}{e ^{s^{+} / τ} + K e ^{s^{-} / τ}}) \cdot \frac{1}{τ}

定义对比信号为 $Δ = s^{+} - s^{-}$ ，有效梯度量级：

\frac{\partial L}{\partial s ^{+}} \propto \frac{1}{τ} \cdot \frac{K e ^{Δ/ τ}}{1 + K e ^{Δ/ τ}}

饱和条件：当 $K e^{Δ/ τ} ≫ 1$ 时，增加负样本的边际收益接近零。

实际最优 $K$ ：

数据规模	推荐 $K$	理论依据
小规模（ $\sim 1 0^{4}$ ）	32-64	覆盖分布
中规模（ $\sim 1 0^{5}$ ）	256-512	信息论最优
大规模（ $\sim 1 0^{6} +$ ）	2048-8192	内存效率平衡

过拟合风险：当 $K$ 过大时，模型可能过拟合到特定负样本分布，泛化到新类别时性能下降。⁵

2.3 不同增强策略的理论分析

数据增强的信息论视角：

设 $T_{1}, T_{2}$ 为两种数据增强操作， $Z = T_{1} (x)$ 和 $Z^{'} = T_{2} (x)$ 为增强视图。增强策略应满足：⁶

保留信息： $I (x; Z) \approx I (x; Z^{'})$ ，即增强不应丢失关键语义信息
增加变化： $H (Z) + H (Z^{'}) ≫ H (x)$ ，即增强应引入多样视图
控制复杂度： $I (Z; Z^{'}) \leq I (x; y)$ ，避免引入虚假相关性

语义保持度量化：

η (T) = \frac{I ( T ( x ) ; y )}{I ( x ; y )} \in [0, 1]

其中 $y$ 为语义标签。理想增强应保持 $η \approx 1$ 。

增强组合的信息瓶颈：

设 $β$ 为信息瓶颈参数，最优增强策略满足：

T_{1}, T_{2} max I (Z; Z^{'}) s.t. I (x; Z) \leq β

这解释了为何SimCLR的增强组合（Crop + Color + GaussianBlur）有效：它们在保持语义的同时最大化视图差异。

不同增强的理论特性：

增强类型	$η$	$I (Z; Z^{'})$	适用场景
随机裁剪	高	中-高	通用视觉
颜色抖动	高	中	纹理任务
高斯噪声	低-中	高	鲁棒性
Cutout	中	中	局部特征
MixUp	中	低	分类任务

3. 表示坍塌问题

3.1 坍塌机制分类

完全坍塌（Complete Collapse）：

所有表示趋于常数向量：

\forall x, f_{θ} (x) \to c, ∥ c ∥ = 1

此时InfoNCE损失最小化为：

L_{co ll a p se} = - lo g \frac{1}{N} = lo g N

维数坍塌（Dimensional Collapse）：

表示退化为低维子空间：

rank (Z) < d, Z \in R^{m \times d}

数学上表现为协方差矩阵的谱衰减：

λ_{1} \geq λ_{2} \geq \dots \geq λ_{d}, i = k + 1 \sum d λ_{i} ≪ i = 1 \sum k λ_{i}

Hua等人证明维数坍塌源于对比学习对协方差结构的隐式正则化⁷。

坍塌的谱分析：

设表示矩阵 $Z = [z_{1}, \dots, z_{m}]^{⊤} \in R^{m \times d}$ ，其协方差：

Σ = \frac{1}{m} Z^{⊤} Z

对比损失对 $Σ$ 的梯度：

\frac{\partial L}{\partial Σ} = - \frac{1}{τ} (\frac{P}{m} - \frac{1 1 ^{⊤}}{m ^{2}})

其中 $P_{ij} = exp (z_{i}^{⊤} z_{j} / τ)$ 。

这表明对比学习倾向于使 $Σ$ 接近均匀分布，从而压缩低方差方向。

3.2 对策与正则化方法

Contrastive Loss的正则化效应：

标准对比损失可以视为同时优化：

对齐性（Alignment）：

L_{a l i g n} = E_{p (x, x^{+})} ∥ z - z^{+} ∥_{2}^{2}

均匀性（Uniformity）：

L_{u ni f or m} = lo g E_{p (x, x^{'})} [exp (- ∥ z - z^{'} ∥^{2} /4 τ)]

Wang和Isola证明最优表示同时最小化这两个目标。⁸

熵最大化正则化：

为防止维数坍塌，可在表示空间添加熵正则项：

L_{e n t ro p y} = H (z) = - i = 1 \sum d λ_{i} lo g λ_{i}

其中 $λ_{i}$ 为协方差矩阵的特征值。最大化熵鼓励表示在各维度均匀分布。

实例判别正则化：

SimCLR等方法通过投影头 $g (\cdot)$ 隐式正则化表示：

g (z) = W^{(2)} σ (W^{(1)} z)

投影头的非线性 $σ$ 防止信息在表示层过早压缩。

梯度截断分析：

设停止梯度操作符为 $sg [\cdot]$ ，SimSiam的损失：

L = 2 - tr (D \cdot D^{'}) - tr (D^{'} \cdot D)

其中 $D = sg [g (z)]$ 。停止梯度防止平凡解，因为：

\frac{\partial L}{\partial g ( z )} = - 2 (D^{'} - sg [D^{'}])

若不使用停止梯度，则 $D^{'} = D$ ，损失恒为零。

3.3 Batch Augmentation的作用

传统Batch Augmentation：

在同一batch内交换正负样本配对，增加有效样本数：

# 原始: N个样本 → 2N个视图
# 增强: N个样本 → 2N个视图 + 额外的负样本配对
 
# 交换增强
z_all = torch.cat([z_i, z_j], dim=0)
# 原始配对: (z_i[j], z_j[j])
# 交换配对: (z_i[j], z_j[i]) for i≠j

理论分析：

设batch大小为 $N$ ，增强后负样本数量从 $N - 1$ 增加到 $2 (N - 1)$ ：

\hat{I}_{NCE}^{a ug} = lo g (2 N) - L_{NCE}^{a ug}

根据信息论：

I (x; x^{+}) \geq \hat{I}_{NCE}^{a ug} \geq \hat{I}_{NCE}

指数级有效负样本：

MoCo通过队列维护历史负样本，实现指数级有效负样本数：⁹

K_{e ff} = K_{q u e u e} \cdot T

其中 $T$ 为训练轮数， $K_{q u e u e}$ 为队列大小。

批内对比与跨批对比的权衡：

策略	负样本来源	一致性	规模
SimCLR	Batch内	高（同时更新）	$O (N)$
MoCo	队列	低（过期）	$O (K)$
混合	Batch + 队列	中	$O (N + K)$

4. 对比学习与Transformer

4.1 SSL预训练的理论分析

Transformer的表示能力：

设输入序列 $x_{1}, \dots, x_{L}$ ，多头自注意力定义为：

Attention (Q, K, V) = softmax (\frac{Q K ^{⊤}}{d _{k}}) V

其中 $Q = x W_{Q}, K = x W_{K}, V = x W_{V}$ 。

SSL预训练的信息流：

预训练目标可分解为：

L_{SS L} = I (x^{c l i pp e d}; y) - β \cdot I (x; x^{c l i pp e d})

其中 $x^{c l i pp e d}$ 为被掩盖/破坏的输入， $y$ 为预测目标。

表示的几何性质：

对比学习预训练在Transformer中产生以下几何效应：

对齐性：同语义标记的表示靠近
均匀性：不同语义表示在超球面均匀分布
局部性：相邻标记表示形成聚类

4.2 DINO、SimCLR、MoCo的理论解释

DINO（Distillation with No Labels）：

DINO使用师生网络框架，损失函数为：¹⁰

L_{D I NO} = - x \sum p_{t} (x) lo g p_{s} (x)

其中 $p_{t} = softmax (z_{t} / τ_{t})$ ， $p_{s} = softmax (z_{s} / τ_{s})$ 。

理论解释：DINO等价于最大化互信息的变分下界：

I (z_{t}; z_{s}) \geq E_{x \sim p_{t e a c h er}} [softplus (- s (x))]

教师网络提供更sharp的分布，学生被迫学习其结构。

DINO的坍塌防止机制：

Sharp温度 $τ_{t} ≪ 1$ ：教师分布高度peaked
中心化： $c \leftarrow m \cdot c + (1 - m) \cdot z_{m e an}$
Sharp学生： $τ_{s} ≪ τ_{t}$

SimCLR的理论分析：

SimCLR的NT-Xent损失：

L = - \frac{1}{2 N} i = 1 \sum 2 N lo g \frac{e ^{s_{i, j_{i}} / τ}}{\sum _{k = 1}^{2 N} 1 _{k \neq = i} e ^{s_{i, k} / τ}}

渐近行为分析：

当表示维度 $d \to \infty$ 且正样本相似度 $s^{+} \to 1$ 时：

E [L] \to - lo g \frac{1}{2 N - 1} + O (1/ d)

这解释了为何SimCLR在高维空间表现更好。

MoCo的队列一致性：

MoCo的动量更新：

θ_{k} \leftarrow m \cdot θ_{k} + (1 - m) \cdot θ_{q}

一致性分析：

设 $f_{q}$ 和 $f_{k}$ 分别为查询和键编码器，相邻迭代的键表示：

z_{k}^{(t + 1)} = f_{θ_{k}^{(t + 1)}} (x) \approx f_{θ_{q}^{(t)}} (x) + \to 0 (m^{t} - 1) \cdot \nabla f (x)

当 $m \to 1$ 时， $z_{k}$ 几乎与 $z_{q}$ 一致，保证负样本的一致性。

4.3 对比 vs 非对比学习

BYOL的理论分析：

BYOL损失：¹¹

L_{B Y O L} = ∥ s g [z_{θ}^{+}] - q_{ϕ} (z_{θ}) ∥^{2} + ∥ s g [z_{θ}] - q_{ϕ} (z_{θ}^{+}) ∥^{2}

为何不坍塌？

非对称架构：预测器 $q_{ϕ}$ 是非线性的，与停止梯度操作结合
隐式正则化：预测器的存在使模型无法学到平凡常数解
动量更新：教师网络平滑提供稳定目标

Siamese Network的崩溃空间分析：

若两个分支完全相同且无预测器，最优解为：

z_{1} = z_{2} = c \cdot 1, ∥ z ∥ = 1

此时任意正交变换 $R$ 满足 $R z = z$ ，产生无穷多崩溃解。

SimSiam的理论保证：

SimSiam证明：¹²

对于任何数据集和任何增强分布，如果网络和预测器足够强大，则SimSiam的梯度更新会收敛到不包含完全崩溃的解。

核心条件：

预测器 $h$ 非常数
停止梯度打破对称性
增强分布不为点质量

对比学习的理论基础优势：

特性	对比学习	BYOL/SimSiam
理论保证	互信息下界明确	经验有效
负样本需求	必要（防坍塌）	可选
超参敏感性	中等（ $τ$ ）	高（动量 $m$ ）
理论理解	充分	部分

5. 最新进展（2024-2025）

5.1 对比学习的Scaling Laws

Cherti等人的实证研究¹³：

对比学习模型性能与模型规模、数据规模的关系：

Performance \propto N^{0.1} \cdot D^{0.3} \cdot T^{0.5}

其中 $N$ 为负样本数， $D$ 为模型参数， $T$ 为训练tokens。

理论解释：

基于信息论的Scaling分析：

I (z; y) \approx min (\frac{lo g N}{lo g ( 1/ δ )}, η \cdot D)

其中 $η$ 为表示效率， $δ$ 为估计误差。

涌现能力阈值：

模型规模	涌现能力
$< 1 B$	基础表示
$1 B - 7 B$	零样本分类
$> 7 B$	多模态理解

5.2 无负样本对比学习

最新进展：

SaSD（Self-supervised Augmentation with Skip Connections）：
通过跳过连接保持表示多样性
MSE正则化：
$L_{MSE} = ∥ z - z^{+} ∥^{2} + λ \cdot ∥Σ - I / d ∥_{F}^{2}$
第二项强制协方差矩阵接近单位矩阵，防止维数坍塌。
VICReg（Variance-Invariance-Covariance）：

三个正则项：
$L_{V I CR e g} = invariance ∥ z - z^{+} ∥^{2} + μ variance Var (z) + ν covariance off-diag (Σ)$

理论证明：

对于VICReg，若 $μ > 0$ 且 $ν > 0$ ，则：

E [L_{V I CR e g}] = 0 ⟺ z = z^{+} = c \cdot 1 (崩溃)

但联合优化使崩溃解不稳定，模型收敛到有意义表示。

5.3 多模态对比学习理论

CLIP的理论分析¹⁴：

CLIP的对比损失：

L = - \frac{1}{2 N} i = 1 \sum N [lo g \frac{e ^{s_{ii}^{I} / τ}}{\sum _{j} e ^{s_{ij}^{I} / τ}} + lo g \frac{e ^{s_{ii}^{T} / τ}}{\sum _{j} e ^{s_{ji}^{T} / τ}}]

跨模态表示对齐：

定义图像-文本对齐度：

A = E_{p (i, t)} [σ (z_{i}^{⊤} z_{t} / τ)]

理想情况下 $A \approx 1$ ，表示完美对齐。

多模态表示空间的几何性质：

设 $Z_{I}$ 和 $Z_{T}$ 分别为图像和文本表示矩阵，则CLIP优化：

max tr (Z_{I}^{⊤} Z_{T} U V^{⊤}) s.t. ∥ U ∥_{F} = ∥ V ∥_{F} = 1

这等价于最大化 $Z_{I}$ 和 $Z_{T}$ 的Procrustes相似度。

对齐与均匀性的权衡：

min alignment E [∥ z_{I} - z_{T} ∥^{2}] + λ uniformity E [lo g j \neq = i \sum e^{z_{i}^{⊤} z_{j}}]

最新理论工作（2024-2025）：

ConClusion¹⁵：统一对比学习和掩码语言建模
SigLIP¹⁶：基于Sigmoid损失的改进
Eva02¹⁷：跨模态对齐的深层结构

核心公式总结

概念	公式
InfoNCE损失	$L_{NCE} = - lo g \frac{e ^{s_{i, j} / τ}}{\sum _{k} e ^{s_{i, k} / τ}}$
互信息下界	$I (x; x^{+}) \geq lo g N - L_{NCE}$
对齐性损失	$L_{a l i g n} = E ∥ z - z^{+} ∥^{2}$
均匀性损失	$L_{u ni f or m} = lo g E_{i, j} [e^{- ∥ z_{i} - z_{j} ∥^{2} /4 τ}]$
PAC-Bayes边界	$R (Q) \leq \hat{R} (Q) + \frac{KL ( Q ∥ P ) + l n ( 2 m / δ )}{2 m}$
DINO损失	$L_{D I NO} = - \sum_{x} p_{t} (x) lo g p_{s} (x)$
BYOL损失	$L_{B Y O L} = ∥ s g [z^{+}] - q (z) ∥^{2}$

参考

对比学习与InfoNCE — 损失函数的实现细节
信息论基础 — 熵、互信息基础
Transformer Scaling Laws — 大规模预训练理论
大模型的涌现能力 — 规模与能力的关系

Oord, A., Li, Y., & Vinyals, O. (2018). “Representation Learning with Contrastive Predictive Coding”. arXiv:1807.03748. ↩
Poole, B., Ozair, S., Van Den Oord, A., Alemi, A., & Tucker, G. (2019). “On Variational Bounds of Mutual Information”. ICML. ↩
Gutmann, M., & Hyvärinen, A. (2010). “Noise-Contrastive Estimation of Unnormalized Statistical Models”. AISTATS. ↩
McAllester, D. (1999). “PAC-Bayesian Model Averaging”. COLT. ↩
Wu, C., et al. (2020). “On the Generalization of contrastive Learning”. ICLR 2020. ↩
Tian, Y., Sun, C., Poole, B., Krishnan, D., Schmid, C., & Isola, P. (2020). “What Makes for Good Views for Contrastive Learning”. NeurIPS. ↩
Hua, T., Wang, W., Xue, Z., Ren, Y., Zhao, D., & Chen, Y. (2021). “On Feature Diversity in Hard Negative Mining for Contrastive Learning”. arXiv. ↩
Wang, T., & Isola, P. (2020). “Understanding Contrastive Representation Learning through Alignment and Uniformity on the Hypersphere”. ICML. ↩
He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2020). “Momentum Contrast for Unsupervised Visual Representation Learning”. CVPR. ↩
Caron, M., et al. (2021). “Emerging Properties in Self-Supervised Vision Transformers”. ICCV. ↩
Grill, J.B., et al. (2020). “Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning”. NeurIPS. ↩
Chen, X., & He, K. (2021). “Exploring Simple Siamese Representation Learning”. CVPR. ↩
Cherti, M., Beaumont, R., Wightman, R., Wortsman, M., Ilharco, G., Gordon, C., … & Jernite, Y. (2023). “Reproducible Scaling Laws for Contrastive Language-Image Learning”. NeurIPS. ↩
Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., … & Sutskever, I. (2021). “Learning Transferable Visual Models From Natural Language Supervision”. ICML. ↩
Gal, R., et al. (2024). “ConClusion: Unifying Contrastive and Non-Contrastive Learning”. arXiv. ↩
Zhai, X., Mustafa, B., Kolesnikov, A., & Beyer, L. (2023). “Sigmoid Loss for Language Image Pre-Training”. ICML. ↩
Sun, Q., et al. (2023). “Eva-02: A Visual Representation for Neon Genesis”. ICLR. ↩

Metaphor

探索

对比学习理论

对比学习理论

1. 对比学习的信息论基础

1.1 InfoNCE目标函数详解

1.2 互信息下界推导

1.3 Noise Contrastive Estimation原理

2. 对比学习的泛化理论

2.1 样本复杂度分析

2.2 负采样数量与性能的关系

2.3 不同增强策略的理论分析

3. 表示坍塌问题

3.1 坍塌机制分类

3.2 对策与正则化方法

3.3 Batch Augmentation的作用

4. 对比学习与Transformer

4.1 SSL预训练的理论分析

4.2 DINO、SimCLR、MoCo的理论解释

4.3 对比 vs 非对比学习

5. 最新进展（2024-2025）

5.1 对比学习的Scaling Laws

5.2 无负样本对比学习

5.3 多模态对比学习理论

核心公式总结

参考

相关文章

关系图谱

目录

Metaphor

探索

对比学习理论

对比学习理论

1. 对比学习的信息论基础

1.1 InfoNCE目标函数详解

1.2 互信息下界推导

1.3 Noise Contrastive Estimation原理

2. 对比学习的泛化理论

2.1 样本复杂度分析

2.2 负采样数量与性能的关系

2.3 不同增强策略的理论分析

3. 表示坍塌问题

3.1 坍塌机制分类

3.2 对策与正则化方法

3.3 Batch Augmentation的作用

4. 对比学习与Transformer

4.1 SSL预训练的理论分析

4.2 DINO、SimCLR、MoCo的理论解释

4.3 对比 vs 非对比学习

5. 最新进展（2024-2025）

5.1 对比学习的Scaling Laws

5.2 无负样本对比学习

5.3 多模态对比学习理论

核心公式总结

参考

相关文章

Footnotes

关系图谱

目录