概述
缩放定律(Scaling Laws)是深度学习最重要的经验发现之一:神经网络的性能通常遵循模型参数量()、训练数据量()和计算量()的幂律关系。然而,一个根本性问题始终未得到解答:为什么神经网络会展现出这种规律性的缩放行为?
本文档介绍的论文1通过一系列精心设计的实验,从随机图到bigram模型再到真实语言模型,逐步揭示了缩放定律的起源。研究表明,即使数据完全没有幂律结构,神经网络缩放定律仍然存在,这颠覆了此前的认知。
核心发现
主要结论
缩放定律不需要数据具有幂律结构!
这一发现具有深远意义:它表明缩放定律是神经网络优化的内在特性,而非数据的外部属性。
关键实验设置
研究者设计了一个控制复杂度实验框架,逐步增加数据复杂度:
实验阶梯:
┌─────────────────────────────────────────────────────────┐
│ │
│ Level 0: 随机图(Erdős–Rényi) │
│ ├── 无语义结构 │
│ ├── 无语法规则 │
│ └── 纯粹的空间关系 │
│ │
│ Level 1: Bigram语言模型 │
│ ├── 基础语法(相邻token依赖) │
│ ├── 简单模式 │
│ └── 一阶马尔可夫链 │
│ │
│ Level 2: Transformer-1L(TnL) │
│ ├── 有限上下文(长度=100) │
│ ├── 基础归纳偏置 │
│ └── 上下文学习 │
│ │
│ Level 3: 自然语言(NL) │
│ ├── 复杂语法 │
│ ├── 长程依赖 │
│ └── 真实语义 │
│ │
└─────────────────────────────────────────────────────────┘
理论框架
1. 基本缩放定律模型
一维幂律
其中:
- :固定数据量 下,模型规模 的损失
- :不可约损失(数据集固有噪声)
- :幅度参数
- :幂律指数
二维Chinchilla公式
数据幂律(可选假设)
2. 关键数学发现
发现1:幂律指数的稳定性
| 数据集 | 复杂度 | 均值 | 均值 |
|---|---|---|---|
| ER图(κ=0) | 无 | ~1.0 | ~0.75 |
| ER图(κ=1) | 过渡 | ~0.93 | ~0.74 |
| 语言Bigram | 低 | ~0.98 | ~0.55 |
| T1L | 中 | ~0.55 | ~0.47 |
| 自然语言 | 高 | ~0.07-0.18 | ~0.50 |
观察:即使在完全随机的ER图中,幂律指数仍然存在且显著!
发现2:数据幂律并非必要条件
传统观点认为,缩放定律源于数据的幂律分布(如Zipf定律)。本论文通过消融实验证明:
消融实验设计:
┌─────────────────────────────────────────────────────────┐
│ 假设:数据幂律 → 缩放定律 │
│ │
│ 实验:移除非语言数据中的幂律结构 │
│ └── 结果:缩放定律依然存在 │
│ │
│ 结论:数据幂律不是缩放定律的必要条件 │
└─────────────────────────────────────────────────────────┘
实验细节
1. 随机图实验(Erdős–Rényi)
设置
- 图规模:
- 边概率:
- 任务:给定图结构,预测某节点的颜色
结果
图规模 vs 测试损失(对数-对数坐标):
损失
│ ●
│ ●
│ ●
│ ●
│●
└─────────────────────→ 图规模 (log)
发现:即使是无结构的随机图,仍呈现明显的幂律关系!
2. 语言模型实验
Bigram模型
- 词汇表:10K tokens
- 训练数据:10M tokens
- 测试数据:1M tokens
Transformer-1L(T1L)
# 简化的T1L配置
config = {
'd_model': 256,
'n_heads': 4,
'n_layers': 1,
'max_seq_len': 100,
'vocab_size': 10000
}3. 自然语言实验
使用标准语言建模数据集:
- WikiText-2
- Penn Treebank
- C4
理论解释
信息论视角
熵与缩放
对于随机过程生成的序列:
其中 是熵率(entropy rate)。
条件熵链
神经网络视角
参数容量与表达能力
对于参数量为 的网络:
其中 是网络深度相关常数。
泛化误差界
最优传输视角
Wasserstein距离与缩放
与经典缩放定律的关系
Kaplan vs Chinchilla
| 方面 | Kaplan | Chinchilla | 本论文 |
|---|---|---|---|
| 变量 | 仅 | 和 | 、、 |
| 最优分配 | 无 | 有 | 视数据量而定 |
| 不可约损失 | 忽略 | 部分考虑 | 强调必须包含 |
| 数据假设 | 隐含幂律 | 无 | 无 |
关键修正
问题:Kaplan公式的缺陷
当 时,,这在现实中是不成立的!
解决:包含不可约损失
重要性:如果不包含 ,会低估幂律指数超过2倍!
实践意义
1. 资源分配
资源分配决策框架:
┌─────────────────────────────────────────────────────────┐
│ │
│ Step 1: 确定目标性能 L* │
│ │
│ Step 2: 估计不可约损失 E │
│ └── 使用当前最小模型估计 │
│ │
│ Step 3: 计算所需参数量 │
│ └── N ≈ (A/(L* - E))^(1/α) │
│ │
│ Step 4: 验证预算可行性 │
│ │
└─────────────────────────────────────────────────────────┘
2. 数据收集策略
发现:在低数据regime,数据量比模型大小更重要
当 较小时,增加 的收益大于增加 。
3. 预训练策略
- 对于高质量大数据集:模型大小更重要
- 对于低质量小数据集:数据量更重要
- 对于高质量小数据集:两者都重要
方法论贡献
1. 神经网络回归方法
研究者发现,使用3层全连接神经网络拟合 优于Chinchilla的2D公式:
# 3层MLP回归器
model = nn.Sequential(
nn.Linear(2, 64), # 输入:log(N), log(D)
nn.ReLU(),
nn.Linear(64, 64),
nn.ReLU(),
nn.Linear(64, 1) # 输出:log(L - E)
)2. 不可约损失估计
def estimate_irreducible_loss(losses, model_sizes):
"""
使用最小模型估计不可约损失
"""
min_model_idx = np.argmin(model_sizes)
return losses[min_model_idx] * 0.9 # 保守估计3. 参数计数修正
重要发现:Kaplan和Chinchilla差异的关键因素之一是是否包含embedding参数!
- Kaplan:包含embedding
- Chinchilla:通常不包含
代码实现
幂律拟合
import numpy as np
from scipy.optimize import curve_fit
def power_law(x, a, alpha, e):
"""一维幂律模型(含不可约损失)"""
return e + a * np.power(x, -alpha)
def fit_scaling_law(x_data, y_data):
"""
拟合缩放定律
Parameters:
-----------
x_data : array
模型参数量数组
y_data : array
对应损失数组
Returns:
--------
popt : dict
拟合参数 {a, alpha, e}
"""
popt, pcov = curve_fit(
power_law,
x_data,
y_data,
p0=[1.0, 0.5, 2.0], # 初始猜测
bounds=([0, 0, 0], [np.inf, np.inf, np.inf]),
maxfev=10000
)
return {'a': popt[0], 'alpha': popt[1], 'e': popt[2]}
# 使用示例
params = fit_scaling_law(model_sizes, val_losses)
print(f"不可约损失 E = {params['e']:.4f}")
print(f"幂律指数 α = {params['alpha']:.4f}")2D曲面拟合
from sklearn.neural_network import MLPRegressor
def fit_2d_scaling_surface(N_data, D_data, L_data, E_est):
"""
使用MLP拟合L(N, D)曲面
Parameters:
-----------
E_est : float
估计的不可约损失
"""
# 预处理
X = np.log(np.stack([N_data, D_data], axis=1))
y = np.log(L_data - E_est + 1e-8)
# MLP回归
mlp = MLPRegressor(
hidden_layer_sizes=(64, 64),
activation='relu',
max_iter=1000
)
mlp.fit(X, y)
return mlp局限性与未来方向
局限性
| 局限性 | 描述 |
|---|---|
| 实验规模有限 | 仅在小规模模型上验证 |
| 任务单一 | 主要关注语言建模 |
| 架构固定 | 主要使用Transformer |
未来方向
- 多模态扩展:图像、视频等模态
- 强化学习:策略缩放定律
- Transformer变体:SSM、混合架构
- 理论证明:从经验观察到严格理论
相关工作
- transformer-scaling-laws — Kaplan和Chinchilla缩放定律
- neural-neural-scaling-laws — NeuNeu数据驱动预测
- effective-frontier-scaling — 有效前沿统一框架
- scaling-laws-redundancy-theory — 缩放定律的信息冗余理论
参考
Footnotes
-
On the origin of neural scaling laws: from random graphs to natural language. arXiv:2601.10684 (2026) ↩