缩放定律的冗余理论

相关深入内容：

Transformer缩放定律 — 经典缩放定律

统一缩放定律 — Scale-time等价性

NTK理论 — 核回归视角

概述

深度学习的缩放定律（Scaling Laws）揭示了一个令人惊讶的现象：模型性能随规模增长呈可预测的幂律改善。然而，这一现象的数学根源长期以来并不清楚。

冗余理论（Redundancy Theory）给出了根本性的答案：缩放定律本质上是冗余定律（Redundancy Laws）。数据协方差谱的幂律尾结构，决定了泛化误差的幂律衰减速率。¹

核心结论

缩放定律的指数不是普适的，而是由数据冗余度决定的。

$α = \frac{2 s + 1}{β}$

其中 $β$ 控制谱尾， $1/ β$ 测量冗余度。

1. 问题的数学形式化

1.1 核回归Setup

考虑标准核回归问题：

$\hat{f}_{P} = ar g min_{f \in H_{K}} \frac{1}{N} \sum_{i = 1}^{N} (y_{i} - f (x_{i}))^{2} + λ ∥ f ∥_{H_{K}}^{2}$

其中 $H_{K}$ 是由核 $K$ 定义的再生核希尔伯特空间。

1.2 数据协方差算子

定义数据协方差算子：

$Σ = E_{x \sim ρ} [K (x, x)]$

设 $Σ$ 的特征分解为：

$Σ = \sum_{j = 1}^{\infty} λ_{j} v_{j} \otimes v_{j}$

其中 $λ_{1} \geq λ_{2} \geq λ_{3} \geq \dots \geq 0$ 。

1.3 目标函数结构

设真实函数 $f^{*}$ 在特征基下的表示为：

$f^{*} (x) = \sum_{j = 1}^{\infty} c_{j} λ_{j} v_{j} (x)$

其中系数 $c_{j}$ 满足 $\sum c_{j}^{2} < \infty$ 。

2. 谱的幂律结构

2.1 数据驱动的幂律谱

核心假设：数据协方差谱服从幂律衰减：

$λ_{j} ≍ j^{- β}, β > 1$

其中 $β$ 是谱指数，控制数据的冗余程度。

2.2 谱指数的物理意义

$β$ 值	谱衰减速度	冗余程度	缩放指数 $α$
$β \to 1^{+}$	极慢	极高	$α \to \infty$
$β = 2$	中等	中等	$α \approx 2.5$
$β \to \infty$	极快	极低	$α \to 1$

直观理解：

$β$ 小 → 谱衰减慢 → 大量特征具有相似重要性 → 高冗余
$β$ 大 → 谱衰减快 → 只有少数特征重要 → 低冗余

2.3 典型数据集的谱指数

def estimate_spectral_exponent(covariance_matrix: np.ndarray) -> float:
    """
    估计数据协方差谱指数
    
    通过拟合 λ_j ~ j^(-β) 估计 β
    """
    eigenvalues = np.linalg.eigvalsh(covariance_matrix)
    eigenvalues = np.sort(eigenvalues)[::-1]  # 降序
    
    # 只使用大特征值区域（避免数值噪声）
    n_eigenvalues = len(eigenvalues)
    cutoff = n_eigenvalues // 2
    j = np.arange(1, cutoff + 1)
    lambdas = eigenvalues[:cutoff]
    
    # 对数-对数线性回归
    log_j = np.log(j)
    log_lambda = np.log(lambdas)
    
    beta = -np.polyfit(log_j, log_lambda, 1)[0]
    
    return beta
 
# 典型数据集的谱指数（经验值）
DATASET_BETAS = {
    'MNIST': 1.5,      # 相对高冗余
    'CIFAR-10': 2.0,   # 中等冗余
    'ImageNet': 2.5,    # 相对低冗余
    'Text (Wiki)': 3.0, # 低冗余
}

3. 核心定理：冗余导出幂律

3.1 核回归泛化误差

定理1（有限样本泛化误差界）¹：

设数据协方差谱满足 $λ_{j} ≍ j^{- β}$ ，目标函数系数满足 $∣ c_{j} ∣^{2} ≍ j^{- 2 s - 1}$ ，则核回归的期望泛化误差为：

$E [R (\hat{f}_{P})] ≍ P^{- \frac{2 s + 1}{β}} = P^{- α}$

其中 $α = \frac{2 s + 1}{β}$ 。

3.2 定理的直观理解

泛化误差 ~ P^(-α)

    α = (2s+1)/β

    │  s: 目标函数光滑度 (越大越光滑)
    │  β: 数据谱指数 (越大冗余越少)
    │
    └─→ 泛化改善速度由 "函数难度/数据质量" 决定

3.3 证明思路

泛化误差由两部分组成：

偏差项（Bias）：由正则化导致
$Bias^{2} \sim \frac{1}{P ^{2/ β}}$
方差项（Variance）：由有限样本导致
$Variance \sim \frac{1}{P ^{(2 s + 1) / β}}$

综合两部分得到幂律衰减。

4. 缩放定律的统一框架

4.1 多模态混合

真实数据通常是多个分布的混合：

$ρ = \sum_{k = 1}^{K} π_{k} ρ_{k}$

定理2（多模态混合下的缩放）¹：

对于混合分布，若各模态具有不同谱指数 $β_{k}$ ，则有效谱指数为：

$β_{e ff} = min_{k} β_{k}$

直觉：最困难（最不冗余）的模态主导缩放行为。

4.2 有界可逆变换

对输入进行可逆变换（如数据增强）：

定理3（变换不变性）¹：

若变换 $T : R^{d} \to R^{d}$ 满足 $∥ T (x) - T (x^{'}) ∥ ≍ ∥ x - x^{'} ∥$ ，则谱指数在变换下保持不变。

意义：标准数据增强技术不影响缩放定律的有效性。

4.3 有限宽度修正

真实神经网络的有限宽度效应：

定理4（有限宽度修正）¹：

对于神经网络（宽度 $m$ ），有效泛化误差为：

$R ≍ 理想 P^{- α} + 有限宽度修正 O (1/ m)$

当 $m ≫ P^{α / (2 - α)}$ 时，有限宽度效应可忽略。

5. Transformer架构的理论验证

5.1 NTK Regime

在NTK Regime下，Transformer的缩放定律：

$L (N) ≍ N^{- \frac{2 s + 1}{β _{e ff}}}$

其中 $β_{e ff}$ 是数据经Transformer结构变换后的有效谱指数。

5.2 Feature Learning Regime

超越NTK Regime，特征学习 Regime 的缩放：

$L (N) ≍ N^{- \frac{2 s + 1}{β _{e ff}}} \cdot 对数修正 g (lo g N)$

其中 $g (\cdot)$ 是缓慢增长的对数函数，反映特征学习的额外收益。

5.3 实验验证

def verify_redundancy_theory(
    model_losses: dict,  # {model_size: loss_curve}
    data_spectral_beta: float,
    target_smoothness_s: float
) -> dict:
    """
    验证冗余理论预测
    
    预测缩放指数 α = (2s+1)/β
    """
    predicted_alpha = (2 * target_smoothness_s + 1) / data_spectral_beta
    
    # 从实验中估计实际缩放指数
    sizes = np.array(list(model_losses.keys()))
    final_losses = np.array([loss[-1] for loss in model_losses.values()])
    
    # 拟合幂律
    log_sizes = np.log(sizes)
    log_losses = np.log(final_losses)
    
    actual_alpha = -np.polyfit(log_sizes, log_losses, 1)[0]
    
    return {
        'predicted_alpha': predicted_alpha,
        'actual_alpha': actual_alpha,
        'match': abs(predicted_alpha - actual_alpha) < 0.1,
        'discrepancy_explanation': '可能原因：目标函数结构更复杂'
    }

6. 冗余度的测量与估计

6.1 从学习曲线估计β

def estimate_beta_from_learning_curves(
    model_configs: list,      # [{'n_params': N, 'loss_curve': [...]}, ...]
    target_s: float = 1.0    # 目标函数光滑度估计
) -> dict:
    """
    从学习曲线估计数据冗余度 β
    """
    # 提取各模型的最优损失
    losses = np.array([np.min(cfg['loss_curve']) for cfg in model_configs])
    params = np.array([cfg['n_params'] for cfg in model_configs])
    
    # 拟合幂律 L ~ N^(-α)
    log_params = np.log(params)
    log_losses = np.log(losses)
    
    alpha_estimate = -np.polyfit(log_params, log_losses, 1)[0]
    
    # 反推 β
    beta_estimate = (2 * target_s + 1) / alpha_estimate
    
    return {
        'estimated_alpha': alpha_estimate,
        'estimated_beta': beta_estimate,
        'estimated_redundancy': 1 / beta_estimate,
        'confidence': 'high' if np.std(log_losses) < 0.1 else 'medium'
    }

6.2 直接估计协方差谱

def direct_spectrum_analysis(
    X: np.ndarray,  # 数据矩阵 (N x d)
    n_components: int = 1000
) -> dict:
    """
    直接分析数据协方差谱
    """
    # 计算协方差矩阵
    cov = np.cov(X.T)
    
    # 特征值分解
    eigenvalues = np.linalg.eigvalsh(cov)
    eigenvalues = np.sort(eigenvalues)[::-1]
    
    # 拟合谱指数
    j = np.arange(1, len(eigenvalues) + 1)
    log_j = np.log(j)
    log_lambda = np.log(eigenvalues + 1e-10)  # 避免log(0)
    
    beta = -np.polyfit(log_j, log_lambda, 1)[0]
    
    # 计算谱熵（冗余度量）
    total = np.sum(eigenvalues)
    probs = eigenvalues / total
    spectral_entropy = -np.sum(probs * np.log(probs + 1e-10))
    
    return {
        'beta': beta,
        'spectral_entropy': spectral_entropy,
        'effective_rank': np.exp(spectral_entropy),
        'top_eigenvalues': eigenvalues[:10]
    }

7. 对实践的指导意义

7.1 数据质量评估

核心洞察：数据冗余度（ $β$ ）是决定缩放效果的关键因素。

数据类型	估计 $β$	预期缩放难度
合成数据（低冗余）	3-4	困难
自然图像	2-3	中等
自然语言	2-2.5	相对容易
用户行为数据	1.5-2	容易

7.2 数据增强策略

理论预测：有界可逆变换不影响 $β$ ，因此：

有效：颜色抖动、随机裁剪（不改变谱结构）
可能有害：过度增强（可能引入噪声，减小等效 $β$ ）

7.3 缩放策略选择

def recommend_scaling_strategy(
    estimated_beta: float,
    compute_budget: float,
    data_volume: float
) -> dict:
    """
    基于冗余理论推荐缩放策略
    """
    # 计算各策略的预期回报
    strategies = {
        'scale_params': lambda P: P ** (-(2*1+1)/estimated_beta),  # 假设s=1
        'scale_data': lambda D: D ** (-1/estimated_beta),
        'both': lambda P, D: (P * D) ** (-(2*1+1)/(2*estimated_beta))
    }
    
    # 评估边际收益
    if estimated_beta < 2:
        # 高冗余：增加数据更有效
        return {
            'primary_strategy': 'increase_data',
            'rationale': f'β={estimated_beta:.2f}<2，数据冗余高，增加数据边际收益大'
        }
    else:
        # 低冗余：增加参数更有效
        return {
            'primary_strategy': 'scale_params',
            'rationale': f'β={estimated_beta:.2f}>2，数据冗余低，增加参数边际收益大'
        }

8. 与其他理论的关系

8.1 与经典统计学习的联系

理论	泛化界	冗余理论视角
Rademacher复杂度	$R (F) \leq \frac{l o g d}{N}$	假设独立同分布，忽略谱结构
VC维度	$VC = O (d)$	忽略数据分布
冗余理论	$P^{- α}$ ， $α = f (β)$	显式利用谱结构

8.2 与频率原则的联系

频率原则指出神经网络按频率学习特征。冗余理论提供数学基础：

高频特征：对应小的 $λ_{j}$ → 晚学习
低频特征：对应大的 $λ_{j}$ → 早学习
幂律谱： $λ_{j} \sim j^{- β}$ → 频率分布的结构化

8.3 与NTK的关系

Regime	缩放指数	主导因素
NTK	$α = \frac{2 s + 1}{β}$	核结构
Feature Learning	$α = \frac{2 s + 1}{β} + ϵ$	特征学习收益

9. 开放问题与未来方向

9.1 理论开放问题

非平稳谱：真实数据协方差可能随规模变化
多任务学习：不同任务的有效 $β$ 如何耦合
分布外泛化：谱结构与分布转移的关系

9.2 实践开放问题

动态 $β$ ：数据分布可能随模型规模改变
计算预算约束：实际中 $P$ 和 $D$ 不是独立的
任务相关性：不同任务如何影响有效 $s$

10. 代码实现：核心定理验证

import numpy as np
from scipy.optimize import curve_fit
 
class RedundancyTheoryValidator:
    """
    验证冗余理论的实验框架
    """
    
    def __init__(self, spectral_beta: float, target_s: float = 1.0):
        self.beta = spectral_beta
        self.s = target_s
        self.predicted_alpha = (2 * target_s + 1) / spectral_beta
    
    def generate_synthetic_spectrum(self, n_components: int) -> np.ndarray:
        """
        生成服从幂律的谱
        """
        j = np.arange(1, n_components + 1)
        return j ** (-self.beta)
    
    def compute_theoretical_error(self, n_params: int) -> float:
        """
        计算理论泛化误差
        """
        return n_params ** (-self.predicted_alpha)
    
    def validate_across_scales(
        self, 
        param_range: np.ndarray
    ) -> dict:
        """
        跨规模验证
        """
        theoretical_errors = self.compute_theoretical_error(param_range)
        
        # 拟合验证
        log_params = np.log(param_range)
        log_errors = np.log(theoretical_errors)
        
        fitted_alpha = -np.polyfit(log_params, log_errors, 1)[0]
        
        return {
            'predicted_alpha': self.predicted_alpha,
            'fitted_alpha': fitted_alpha,
            'relative_error': abs(fitted_alpha - self.predicted_alpha) / self.predicted_alpha,
            'validation_passed': abs(fitted_alpha - self.predicted_alpha) < 1e-6
        }
 
 
# 示例使用
validator = RedundancyTheoryValidator(spectral_beta=2.0, target_s=1.0)
result = validator.validate_across_scales(np.logspace(3, 8, 50))
print(f"理论 α = {result['predicted_alpha']:.4f}")
print(f"拟合 α = {result['fitted_alpha']:.4f}")

11. 参考

Bi, Y., et al. (2025). Scaling Laws Are Redundancy Laws. arXiv:2509.20721. https://arxiv.org/abs/2509.20721 ↩ ↩² ↩³ ↩⁴ ↩⁵

Metaphor

探索