缩放定律起源理论

概述

缩放定律（Scaling Laws）是深度学习最重要的经验发现之一：神经网络的性能通常遵循模型参数量（ $N$ ）、训练数据量（ $D$ ）和计算量（ $C$ ）的幂律关系。然而，一个根本性问题始终未得到解答：为什么神经网络会展现出这种规律性的缩放行为？

本文档介绍的论文¹通过一系列精心设计的实验，从随机图到bigram模型再到真实语言模型，逐步揭示了缩放定律的起源。研究表明，即使数据完全没有幂律结构，神经网络缩放定律仍然存在，这颠覆了此前的认知。

核心发现

主要结论

缩放定律不需要数据具有幂律结构！

这一发现具有深远意义：它表明缩放定律是神经网络优化的内在特性，而非数据的外部属性。

关键实验设置

研究者设计了一个控制复杂度实验框架，逐步增加数据复杂度：

实验阶梯：
┌─────────────────────────────────────────────────────────┐
│                                                          │
│   Level 0: 随机图（Erdős–Rényi）                         │
│   ├── 无语义结构                                         │
│   ├── 无语法规则                                         │
│   └── 纯粹的空间关系                                     │
│                                                          │
│   Level 1: Bigram语言模型                               │
│   ├── 基础语法（相邻token依赖）                          │
│   ├── 简单模式                                           │
│   └── 一阶马尔可夫链                                     │
│                                                          │
│   Level 2: Transformer-1L（TnL）                        │
│   ├── 有限上下文（长度=100）                             │
│   ├── 基础归纳偏置                                       │
│   └── 上下文学习                                         │
│                                                          │
│   Level 3: 自然语言（NL）                                │
│   ├── 复杂语法                                           │
│   ├── 长程依赖                                           │
│   └── 真实语义                                           │
│                                                          │
└─────────────────────────────────────────────────────────┘

理论框架

1. 基本缩放定律模型

一维幂律

$L (N)_{D} = E_{D} + A_{D} \cdot N^{- α_{D}}$

其中：

$L (N)_{D}$ ：固定数据量 $D$ 下，模型规模 $N$ 的损失
$E_{D}$ ：不可约损失（数据集固有噪声）
$A_{D}$ ：幅度参数
$α_{D}$ ：幂律指数

二维Chinchilla公式

$L (N, D) = E + A \cdot N^{- α} + B \cdot D^{- β}$

数据幂律（可选假设）

$p (x) \propto x^{- (κ + 1)}$

2. 关键数学发现

发现1：幂律指数的稳定性

数据集	复杂度	$α_{D}$ 均值	$β_{N}$ 均值
ER图（κ=0）	无	~1.0	~0.75
ER图（κ=1）	过渡	~0.93	~0.74
语言Bigram	低	~0.98	~0.55
T1L	中	~0.55	~0.47
自然语言	高	~0.07-0.18	~0.50

观察：即使在完全随机的ER图中，幂律指数仍然存在且显著！

发现2：数据幂律并非必要条件

传统观点认为，缩放定律源于数据的幂律分布（如Zipf定律）。本论文通过消融实验证明：

消融实验设计：
┌─────────────────────────────────────────────────────────┐
│ 假设：数据幂律 → 缩放定律                                │
│                                                          │
│ 实验：移除非语言数据中的幂律结构                          │
│ └── 结果：缩放定律依然存在                               │
│                                                          │
│ 结论：数据幂律不是缩放定律的必要条件                       │
└─────────────────────────────────────────────────────────┘

实验细节

1. 随机图实验（Erdős–Rényi）

设置

图规模： $V \in {100, 200, 500, 1000}$
边概率： $p \in {0.1, 0.2, 0.3}$
任务：给定图结构，预测某节点的颜色

结果

图规模 vs 测试损失（对数-对数坐标）：

损失
  │                    ●
  │               ●
  │          ●
  │     ●
  │●
  └─────────────────────→ 图规模 (log)

发现：即使是无结构的随机图，仍呈现明显的幂律关系！

2. 语言模型实验

Bigram模型

词汇表：10K tokens
训练数据：10M tokens
测试数据：1M tokens

Transformer-1L（T1L）

# 简化的T1L配置
config = {
    'd_model': 256,
    'n_heads': 4,
    'n_layers': 1,
    'max_seq_len': 100,
    'vocab_size': 10000
}

3. 自然语言实验

使用标准语言建模数据集：

WikiText-2
Penn Treebank
C4

理论解释

信息论视角

熵与缩放

对于随机过程生成的序列 $X_{1}, X_{2}, \dots, X_{n}$ ：

$H (X_{1}, \dots, X_{n}) \approx n \cdot h$

其中 $h$ 是熵率（entropy rate）。

条件熵链

$H (X_{n} ∣ X_{1}, \dots, X_{n - 1}) \leq H (X_{n} ∣ X_{1}, \dots, X_{n - 1})$

神经网络视角

参数容量与表达能力

对于参数量为 $N$ 的网络：

$∣ f_{θ} ∣ \leq O (N^{d})$

其中 $d$ 是网络深度相关常数。

泛化误差界

$E [L - L^{*}] \leq O (\frac{N ^{α}}{D ^{β}})$

最优传输视角

Wasserstein距离与缩放

$W_{p} (\overset{p}{^}, p) \leq C \cdot N^{- γ}$

与经典缩放定律的关系

Kaplan vs Chinchilla

方面	Kaplan	Chinchilla	本论文
变量	仅 $N$	$N$ 和 $D$	$N$ 、 $D$ 、 $C$
最优分配	无	有	视数据量而定
不可约损失	忽略	部分考虑	强调必须包含
数据假设	隐含幂律	无	无

关键修正

问题：Kaplan公式的缺陷

$L (N) \approx (\frac{N _{0}}{N})^{α}$

当 $N \to \infty$ 时， $L (N) \to 0$ ，这在现实中是不成立的！

解决：包含不可约损失

$L (N)_{D} = E_{D} + A_{D} \cdot N^{- α_{D}}$

重要性：如果不包含 $E_{D}$ ，会低估幂律指数超过2倍！

实践意义

1. 资源分配

资源分配决策框架：
┌─────────────────────────────────────────────────────────┐
│                                                          │
│  Step 1: 确定目标性能 L*                                 │
│                                                          │
│  Step 2: 估计不可约损失 E                                │
│  └── 使用当前最小模型估计                                 │
│                                                          │
│  Step 3: 计算所需参数量                                   │
│  └── N ≈ (A/(L* - E))^(1/α)                             │
│                                                          │
│  Step 4: 验证预算可行性                                   │
│                                                          │
└─────────────────────────────────────────────────────────┘

2. 数据收集策略

发现：在低数据regime，数据量比模型大小更重要

$L (N, D) \approx E + \frac{A}{N ^{α}} + \frac{B}{D ^{β}}$

当 $D$ 较小时，增加 $D$ 的收益大于增加 $N$ 。

3. 预训练策略

对于高质量大数据集：模型大小更重要
对于低质量小数据集：数据量更重要
对于高质量小数据集：两者都重要

方法论贡献

1. 神经网络回归方法

研究者发现，使用3层全连接神经网络拟合 $L (N, D)$ 优于Chinchilla的2D公式：

# 3层MLP回归器
model = nn.Sequential(
    nn.Linear(2, 64),  # 输入：log(N), log(D)
    nn.ReLU(),
    nn.Linear(64, 64),
    nn.ReLU(),
    nn.Linear(64, 1)   # 输出：log(L - E)
)

2. 不可约损失估计

def estimate_irreducible_loss(losses, model_sizes):
    """
    使用最小模型估计不可约损失
    """
    min_model_idx = np.argmin(model_sizes)
    return losses[min_model_idx] * 0.9  # 保守估计

3. 参数计数修正

重要发现：Kaplan和Chinchilla差异的关键因素之一是是否包含embedding参数！

$N_{t o t a l} = N_{t r an s f or m er} + N_{e mb e dd in g}$

Kaplan：包含embedding
Chinchilla：通常不包含

代码实现

幂律拟合

import numpy as np
from scipy.optimize import curve_fit
 
def power_law(x, a, alpha, e):
    """一维幂律模型（含不可约损失）"""
    return e + a * np.power(x, -alpha)
 
def fit_scaling_law(x_data, y_data):
    """
    拟合缩放定律
    
    Parameters:
    -----------
    x_data : array
        模型参数量数组
    y_data : array
        对应损失数组
        
    Returns:
    --------
    popt : dict
        拟合参数 {a, alpha, e}
    """
    popt, pcov = curve_fit(
        power_law,
        x_data,
        y_data,
        p0=[1.0, 0.5, 2.0],  # 初始猜测
        bounds=([0, 0, 0], [np.inf, np.inf, np.inf]),
        maxfev=10000
    )
    
    return {'a': popt[0], 'alpha': popt[1], 'e': popt[2]}
 
# 使用示例
params = fit_scaling_law(model_sizes, val_losses)
print(f"不可约损失 E = {params['e']:.4f}")
print(f"幂律指数 α = {params['alpha']:.4f}")

2D曲面拟合

from sklearn.neural_network import MLPRegressor
 
def fit_2d_scaling_surface(N_data, D_data, L_data, E_est):
    """
    使用MLP拟合L(N, D)曲面
    
    Parameters:
    -----------
    E_est : float
        估计的不可约损失
    """
    # 预处理
    X = np.log(np.stack([N_data, D_data], axis=1))
    y = np.log(L_data - E_est + 1e-8)
    
    # MLP回归
    mlp = MLPRegressor(
        hidden_layer_sizes=(64, 64),
        activation='relu',
        max_iter=1000
    )
    mlp.fit(X, y)
    
    return mlp

局限性与未来方向

局限性

局限性	描述
实验规模有限	仅在小规模模型上验证
任务单一	主要关注语言建模
架构固定	主要使用Transformer

未来方向

多模态扩展：图像、视频等模态
强化学习：策略缩放定律
Transformer变体：SSM、混合架构
理论证明：从经验观察到严格理论

参考

On the origin of neural scaling laws: from random graphs to natural language. arXiv:2601.10684 (2026) ↩

Metaphor

探索