概述

缩放定律(Scaling Laws)是深度学习最重要的经验发现之一:神经网络的性能通常遵循模型参数量()、训练数据量()和计算量()的幂律关系。然而,一个根本性问题始终未得到解答:为什么神经网络会展现出这种规律性的缩放行为?

本文档介绍的论文1通过一系列精心设计的实验,从随机图bigram模型再到真实语言模型,逐步揭示了缩放定律的起源。研究表明,即使数据完全没有幂律结构,神经网络缩放定律仍然存在,这颠覆了此前的认知。


核心发现

主要结论

缩放定律不需要数据具有幂律结构!

这一发现具有深远意义:它表明缩放定律是神经网络优化的内在特性,而非数据的外部属性。

关键实验设置

研究者设计了一个控制复杂度实验框架,逐步增加数据复杂度:

实验阶梯:
┌─────────────────────────────────────────────────────────┐
│                                                          │
│   Level 0: 随机图(Erdős–Rényi)                         │
│   ├── 无语义结构                                         │
│   ├── 无语法规则                                         │
│   └── 纯粹的空间关系                                     │
│                                                          │
│   Level 1: Bigram语言模型                               │
│   ├── 基础语法(相邻token依赖)                          │
│   ├── 简单模式                                           │
│   └── 一阶马尔可夫链                                     │
│                                                          │
│   Level 2: Transformer-1L(TnL)                        │
│   ├── 有限上下文(长度=100)                             │
│   ├── 基础归纳偏置                                       │
│   └── 上下文学习                                         │
│                                                          │
│   Level 3: 自然语言(NL)                                │
│   ├── 复杂语法                                           │
│   ├── 长程依赖                                           │
│   └── 真实语义                                           │
│                                                          │
└─────────────────────────────────────────────────────────┘

理论框架

1. 基本缩放定律模型

一维幂律

其中:

  • :固定数据量 下,模型规模 的损失
  • :不可约损失(数据集固有噪声)
  • :幅度参数
  • :幂律指数

二维Chinchilla公式

数据幂律(可选假设)

2. 关键数学发现

发现1:幂律指数的稳定性

数据集复杂度 均值 均值
ER图(κ=0)~1.0~0.75
ER图(κ=1)过渡~0.93~0.74
语言Bigram~0.98~0.55
T1L~0.55~0.47
自然语言~0.07-0.18~0.50

观察:即使在完全随机的ER图中,幂律指数仍然存在且显著!

发现2:数据幂律并非必要条件

传统观点认为,缩放定律源于数据的幂律分布(如Zipf定律)。本论文通过消融实验证明:

消融实验设计:
┌─────────────────────────────────────────────────────────┐
│ 假设:数据幂律 → 缩放定律                                │
│                                                          │
│ 实验:移除非语言数据中的幂律结构                          │
│ └── 结果:缩放定律依然存在                               │
│                                                          │
│ 结论:数据幂律不是缩放定律的必要条件                       │
└─────────────────────────────────────────────────────────┘

实验细节

1. 随机图实验(Erdős–Rényi)

设置

  • 图规模:
  • 边概率:
  • 任务:给定图结构,预测某节点的颜色

结果

图规模 vs 测试损失(对数-对数坐标):

损失
  │                    ●
  │               ●
  │          ●
  │     ●
  │●
  └─────────────────────→ 图规模 (log)

发现:即使是无结构的随机图,仍呈现明显的幂律关系!

2. 语言模型实验

Bigram模型

  • 词汇表:10K tokens
  • 训练数据:10M tokens
  • 测试数据:1M tokens

Transformer-1L(T1L)

# 简化的T1L配置
config = {
    'd_model': 256,
    'n_heads': 4,
    'n_layers': 1,
    'max_seq_len': 100,
    'vocab_size': 10000
}

3. 自然语言实验

使用标准语言建模数据集:

  • WikiText-2
  • Penn Treebank
  • C4

理论解释

信息论视角

熵与缩放

对于随机过程生成的序列

其中 熵率(entropy rate)。

条件熵链

神经网络视角

参数容量与表达能力

对于参数量为 的网络:

其中 是网络深度相关常数。

泛化误差界

最优传输视角

Wasserstein距离与缩放


与经典缩放定律的关系

Kaplan vs Chinchilla

方面KaplanChinchilla本论文
变量
最优分配视数据量而定
不可约损失忽略部分考虑强调必须包含
数据假设隐含幂律

关键修正

问题:Kaplan公式的缺陷

时,,这在现实中是不成立的!

解决:包含不可约损失

重要性:如果不包含 ,会低估幂律指数超过2倍


实践意义

1. 资源分配

资源分配决策框架:
┌─────────────────────────────────────────────────────────┐
│                                                          │
│  Step 1: 确定目标性能 L*                                 │
│                                                          │
│  Step 2: 估计不可约损失 E                                │
│  └── 使用当前最小模型估计                                 │
│                                                          │
│  Step 3: 计算所需参数量                                   │
│  └── N ≈ (A/(L* - E))^(1/α)                             │
│                                                          │
│  Step 4: 验证预算可行性                                   │
│                                                          │
└─────────────────────────────────────────────────────────┘

2. 数据收集策略

发现:在低数据regime,数据量比模型大小更重要

较小时,增加 的收益大于增加

3. 预训练策略

  • 对于高质量大数据集:模型大小更重要
  • 对于低质量小数据集:数据量更重要
  • 对于高质量小数据集:两者都重要

方法论贡献

1. 神经网络回归方法

研究者发现,使用3层全连接神经网络拟合 优于Chinchilla的2D公式:

# 3层MLP回归器
model = nn.Sequential(
    nn.Linear(2, 64),  # 输入:log(N), log(D)
    nn.ReLU(),
    nn.Linear(64, 64),
    nn.ReLU(),
    nn.Linear(64, 1)   # 输出:log(L - E)
)

2. 不可约损失估计

def estimate_irreducible_loss(losses, model_sizes):
    """
    使用最小模型估计不可约损失
    """
    min_model_idx = np.argmin(model_sizes)
    return losses[min_model_idx] * 0.9  # 保守估计

3. 参数计数修正

重要发现:Kaplan和Chinchilla差异的关键因素之一是是否包含embedding参数

  • Kaplan:包含embedding
  • Chinchilla:通常不包含

代码实现

幂律拟合

import numpy as np
from scipy.optimize import curve_fit
 
def power_law(x, a, alpha, e):
    """一维幂律模型(含不可约损失)"""
    return e + a * np.power(x, -alpha)
 
def fit_scaling_law(x_data, y_data):
    """
    拟合缩放定律
    
    Parameters:
    -----------
    x_data : array
        模型参数量数组
    y_data : array
        对应损失数组
        
    Returns:
    --------
    popt : dict
        拟合参数 {a, alpha, e}
    """
    popt, pcov = curve_fit(
        power_law,
        x_data,
        y_data,
        p0=[1.0, 0.5, 2.0],  # 初始猜测
        bounds=([0, 0, 0], [np.inf, np.inf, np.inf]),
        maxfev=10000
    )
    
    return {'a': popt[0], 'alpha': popt[1], 'e': popt[2]}
 
# 使用示例
params = fit_scaling_law(model_sizes, val_losses)
print(f"不可约损失 E = {params['e']:.4f}")
print(f"幂律指数 α = {params['alpha']:.4f}")

2D曲面拟合

from sklearn.neural_network import MLPRegressor
 
def fit_2d_scaling_surface(N_data, D_data, L_data, E_est):
    """
    使用MLP拟合L(N, D)曲面
    
    Parameters:
    -----------
    E_est : float
        估计的不可约损失
    """
    # 预处理
    X = np.log(np.stack([N_data, D_data], axis=1))
    y = np.log(L_data - E_est + 1e-8)
    
    # MLP回归
    mlp = MLPRegressor(
        hidden_layer_sizes=(64, 64),
        activation='relu',
        max_iter=1000
    )
    mlp.fit(X, y)
    
    return mlp

局限性与未来方向

局限性

局限性描述
实验规模有限仅在小规模模型上验证
任务单一主要关注语言建模
架构固定主要使用Transformer

未来方向

  1. 多模态扩展:图像、视频等模态
  2. 强化学习:策略缩放定律
  3. Transformer变体:SSM、混合架构
  4. 理论证明:从经验观察到严格理论

相关工作


参考

Footnotes

  1. On the origin of neural scaling laws: from random graphs to natural language. arXiv:2601.10684 (2026)