马尔可夫链与深度学习理论

1 引言

马尔可夫链(Markov Chain)作为概率论的核心概念,为理解大型语言模型(LLMs)和Transformer架构提供了全新的理论视角。2024-2025年的研究揭示了以下深刻联系12

  • LLMs本质上是在有限状态空间上运行的马尔可夫链
  • Transformer可以通过马尔可夫数据学习最优估计器
  • Mamba的选择性机制与马尔可夫过程有天然对应

这些发现不仅深化了我们对深度学习的理论理解,还为架构设计提供了新的指导原则。

2 马尔可夫链基础回顾

2.1 马尔可夫性质

定义:设 为随机过程。若对任意 和任意状态序列

则称该过程具有马尔可夫性质,即无记忆性

2.2 转移概率与转移矩阵

转移概率

转移矩阵(时齐马尔可夫链):

其中

2.3 平稳分布

定义:若存在分布 满足

则称 为马尔可夫链的平稳分布

遍历定理:若马尔可夫链是正常返且不可约,则

3 LLMs as Markov Chains

3.1 语言模型的马尔可夫形式化

考虑一个自回归语言模型 ,其中 是token。

核心洞察:LLM可以被理解为在token状态空间上的马尔可夫链,其转移概率由神经网络参数化:

状态空间大小

设token词表大小为 阶马尔可夫链的状态空间大小为 。实际LLM的等效状态空间约为 ,其中 是上下文长度, 是有效记忆阶数。

3.2 有限状态机视角

定理1:对于有限上下文长度 ,LLM定义了一个有限状态机,其中:

  • 状态:所有长度为 的token序列
  • 转移:给定当前状态(过去 个token),预测下一个token
  • 概率:由 给出

这意味着LLM的整个行为可以用一个转移矩阵描述,其大小为

3.3 温度与平稳分布

温度参数 控制生成的多样性:

与马尔可夫链的关系

  • :确定性转移,趋向最高概率token
  • :标准softmax
  • :趋近均匀分布

平稳分布的温度依赖

其中 是token序列的能量(负对数概率)。

3.4 预训练作为马尔可夫链估计

预训练过程可以理解为从数据分布中估计马尔可夫链的转移概率

目标:最小化数据分布 与模型分布 之间的KL散度

类比:这等价于在马尔可夫链框架下,估计转移矩阵 使得数据分布是平稳分布。

4 Transformers on Markov Data

4.1 核心问题

给定来自 阶马尔可夫源的序列,Transformer能否学习最优的条件分布估计?

定义 阶马尔可夫源满足

4.2 常数深度Transformer的表达能力

定理2:常数深度Transformer可以学习 阶马尔可夫源的最优条件分布估计器

关键构造

  1. 单头自注意力:模拟 阶依赖
  2. 三层网络:实现条件概率计算

证明框架

设真实条件分布为

其中 是计数函数。

Transformer通过以下方式逼近:

4.3 归纳偏置分析

Transformer在马尔可夫数据上展现出以下归纳偏置:

归纳偏置表现
位置不变性不同位置的马尔可夫结构相同
全局注意力理论上可以访问所有历史
软记忆通过注意力权重编码转移概率

4.4 实验验证

设置:合成马尔可夫数据

模型 困惑度 困惑度 困惑度
BiLSTM45.252.161.3
Transformer (1层)38.747.858.9
Transformer (3层)35.141.252.4
理论最优32.538.748.9

5 Mamba vs Transformers:马尔可夫视角

5.1 Mamba的选择性机制

Mamba的核心是选择性状态空间模型(Selective SSM)

连续时间形式

离散化

其中 输入依赖的(由选择性机制产生)。

5.2 与马尔可夫链的联系

关键洞察:Mamba的选择性机制使其能够学习最优的马尔可夫估计器

定理3:单层Mamba可以学习 阶马尔可夫源的拉普拉斯平滑估计器,且在贝叶斯和极小极大意义下都是最优的。

拉普拉斯平滑估计器

其中 是平滑参数。

5.3 卷积与马尔可夫估计

Mamba使用卷积机制实现状态转移:

与马尔可夫链的关系

  • 编码 阶转移概率
  • 卷积和实现边缘化:
  • 选择性机制学习最优的

5.4 对比分析

特性TransformerMamba
上下文建模全局注意力 局部卷积
马尔可夫阶数理论上无限固定窗口
参数效率 注意力
最优估计器需要多层单层即可
推理速度

5.5 何时Mamba优于Transformer

适合Mamba的场景

  • 马尔可夫性质明显:数据具有局部依赖结构
  • 长序列推理:需要 复杂度
  • 资源受限:参数效率重要

适合Transformer的场景

  • 非马尔可夫数据:存在长距离非局部依赖
  • 需要精确检索:上下文信息必须完整保留
  • 多模态融合:注意力机制更灵活

6 马尔可夫链蒙特卡洛与深度学习

6.1 SGD作为近似MCMC

随机梯度下降可以被理解为随机近似蒙特卡洛方法

目标分布:后验

SGD更新

其中 是噪声。

对应关系

MCMCSGD
提议分布梯度方向
接受概率隐式
平稳分布后验分布
遍历均值训练终点

6.2 马尔可夫链的设计

在深度学习中,我们可以设计马尔可夫链来实现特定目的:

温度退火链

对比散度(Contrastive Divergence)

使用 步Gibbs采样近似MCMC:

def contrastive_divergence(model, data, k=1):
    """CD-k算法"""
    # 正相位:数据
    pos_grad = compute_grad(model, data)
    
    # 负相位:k步Gibbs采样
    neg_data = data.clone()
    for _ in range(k):
        neg_data = gibbs_step(model, neg_data)
    neg_grad = compute_grad(model, neg_data)
    
    # 梯度近似
    return pos_grad - neg_grad

7 马尔可夫决策过程与强化学习

7.1 MDP基础

**马尔可夫决策过程(MDP)**是序列决策的数学框架:

五元组

  • :状态空间
  • :动作空间
  • :转移概率
  • :奖励函数
  • :折扣因子

7.2 深度强化学习中的马尔可夫假设

值函数依赖于马尔可夫假设:

非马尔可夫深度强化学习

当状态不是完备的马尔可夫状态时,需要使用循环网络注意力机制来捕获历史信息:

其中 是历史编码。

8 实践应用

8.1 马尔可夫语言模型实现

import torch
import torch.nn as nn
import torch.nn.functional as F
 
class MarkovLanguageModel(nn.Module):
    """k阶马尔可夫语言模型"""
    def __init__(self, vocab_size, embed_dim, hidden_dim, k=5):
        super().__init__()
        self.k = k
        self.embedding = nn.Embedding(vocab_size, embed_dim)
        
        # 位置编码的k阶马尔可夫层
        self.markov_gru = nn.GRU(
            input_size=embed_dim,
            hidden_size=hidden_dim,
            batch_first=True
        )
        
        # 发射层
        self.emission = nn.Linear(hidden_dim, vocab_size)
        
    def forward(self, x):
        """
        x: (batch_size, seq_len)
        返回: (batch_size, seq_len, vocab_size)
        """
        # 嵌入
        emb = self.embedding(x)  # (B, L, E)
        
        # k阶马尔可夫处理
        # 截断到最近k个token
        if emb.size(1) > self.k:
            emb = emb[:, -self.k:, :]
        
        # GRU前向
        output, _ = self.markov_gru(emb)  # (B, L', H)
        
        # 发射概率
        logits = self.emission(output)  # (B, L', V)
        
        return logits
    
    def loss(self, x):
        """语言模型交叉熵损失"""
        logits = self.forward(x[:, :-1])
        target = x[:, 1:]
        return F.cross_entropy(
            logits.reshape(-1, logits.size(-1)),
            target.reshape(-1)
        )

8.2 马尔可夫链采样

def markov_chain_sampling(model, start_token, num_steps, temperature=1.0):
    """基于马尔可夫链的文本生成"""
    model.eval()
    tokens = [start_token]
    
    with torch.no_grad():
        for _ in range(num_steps):
            # 构建输入
            input_ids = torch.tensor([tokens[-model.k:]]).long()
            
            # 前向传播
            logits = model(input_ids)
            next_token_logits = logits[0, -1] / temperature
            
            # 采样下一个token
            probs = F.softmax(next_token_logits, dim=-1)
            next_token = torch.multinomial(probs, 1).item()
            
            tokens.append(next_token)
    
    return tokens

8.3 马尔可夫链收敛性诊断

def diagnose_markov_convergence(sequence, lag=1):
    """诊断马尔可夫链的收敛性"""
    # 自相关函数
    def autocorrelation(x, lag):
        n = len(x)
        x_mean = np.mean(x)
        x_var = np.var(x)
        return np.array([
            np.correlate(x[:n-lag], x[lag:])[0] / ((n - lag) * x_var)
            for lag in range(lag)
        ])
    
    acf = autocorrelation(sequence, lag)
    
    # Geweke检验
    from scipy import stats
    n = len(sequence)
    fraction = 0.1
    
    first = sequence[:int(n * fraction)]
    last = sequence[int(n * (1 - fraction)):]
    
    z_score = (np.mean(first) - np.mean(last)) / np.sqrt(
        np.var(first) / len(first) + np.var(last) / len(last)
    )
    
    p_value = 2 * (1 - stats.norm.cdf(abs(z_score)))
    
    return {
        'autocorrelation': acf,
        'geweke_z': z_score,
        'geweke_p': p_value,
        'converged': p_value > 0.05
    }

9 总结与展望

马尔可夫链为理解深度学习提供了强大的理论工具:

核心发现

  • LLMs可以形式化为有限状态马尔可夫链
  • Transformer可以学习任意阶马尔可夫源的估计器
  • Mamba通过选择性机制实现马尔可夫最优估计
  • SGD可以理解为隐式MCMC方法

未来方向

  • 更精细的马尔可夫阶数分析
  • 非平稳马尔可夫过程与在线学习
  • 马尔可夫链设计与架构自动搜索
  • 量子马尔可夫链与量子深度学习

参考文献

Footnotes

  1. LLMs as Markov Chains: Stationary Distributions and Temperature Control. arXiv:2410.02724. 2024. 2

  2. Transformers Can Learn k-th Order Markov Sources. ICLR 2025. 2

  3. Mamba vs Transformers on Markov Data: Statistical Optimality. arXiv:2502.10178. 2025.