矩阵分解与表示学习

矩阵分解是现代机器学习和深度学习的核心工具。从主成分分析（PCA）到词嵌入（Word2Vec），矩阵分解的思想贯穿始终。本章系统介绍矩阵分解的数学原理及其在深度学习中的应用。

奇异值分解（SVD）

定义

任意实矩阵 $A \in R^{m \times n}$ 可以分解为：

A = UΣ V^{T}

其中：

$U \in R^{m \times m}$ ：左奇异向量矩阵（ $U^{T} U = I$ ）
$V \in R^{n \times n}$ ：右奇异向量矩阵（ $V^{T} V = I$ ）
$Σ \in R^{m \times n}$ ：奇异值对角矩阵， $σ_{1} \geq σ_{2} \geq \dots \geq 0$

几何意义

SVD将线性变换分解为三个基本操作：

旋转 $V^{T}$ ：在输入空间中旋转到主轴方向
缩放 $Σ$ ：沿主轴缩放（奇异值即为缩放因子）
旋转 $U$ ：在输出空间中旋转

与特征值分解的关系

对于对称矩阵 $A = A^{T}$ ：

A = QΛ Q^{T}

其中特征值可以是负数。SVD可看作对任意矩阵的”特征值分解”：

A^{T} A = V Σ^{T} Σ V^{T} = V Σ^{2} V^{T}

奇异值 $σ_{i}$ 是 $A^{T} A$ 特征值的平方根。

最佳低秩近似

Eckart-Young-Mirsky定理

设 $A \in R^{m \times n}$ ，秩为 $r$ ，其SVD为 $A = UΣ V^{T}$ 。

则秩为 $k < r$ 的最佳近似矩阵为：

A_{k} = U_{k} Σ_{k} V_{k}^{T}

其中 $U_{k}, Σ_{k}, V_{k}$ 取前 $k$ 个奇异分量。

最优性： $A_{k}$ 是Frobenius范数意义下的最优近似：

B : rank (B) = k min ∥ A - B ∥_{F} = ∥ A - A_{k} ∥_{F} = i = k + 1 \sum r σ_{i}^{2}

截断SVD的应用

import numpy as np
 
def truncated_svd(A, k):
    """
    截断SVD：返回秩为k的最佳近似
    A: (m, n)
    k: 目标秩
    """
    U, s, Vt = np.linalg.svd(A, full_matrices=False)
    return U[:, :k] @ np.diag(s[:k]) @ Vt[:k, :]

主成分分析（PCA）

PCA的矩阵推导

设数据矩阵 $X \in R^{n \times d}$ ，每行一个样本。

数据中心化： $X_{c} = X - \overset{ˉ}{x}$

协方差矩阵： $C = \frac{1}{n - 1} X_{c}^{T} X_{c} \in R^{d \times d}$

PCA目标：找到正交矩阵 $P \in R^{d \times k}$ ，使得：

Y = X_{c} P

最大化 $Var (Y)$ 。

闭式解

协方差矩阵的特征值分解：

C = VΛ V^{T}

主成分为对应最大 $k$ 个特征值的特征向量（列）。

PCA与SVD的关系

设数据中心化矩阵为 $X_{c}$ ，其SVD为 $X_{c} = UΣ V^{T}$ 。

则：

主成分方向： $V$ （右奇异向量）
投影坐标： $UΣ$ （左奇异向量乘以奇异值）
解释的方差： $σ_{i}^{2} / (n - 1)$

import numpy as np
from sklearn.decomposition import PCA
 
def pca_manual(X, n_components):
    """手动实现PCA"""
    # 中心化
    X_centered = X - X.mean(axis=0)
    
    # SVD分解
    U, s, Vt = np.linalg.svd(X_centered, full_matrices=False)
    
    # 取前n_components个主成分
    components = Vt[:n_components]
    explained_variance = s[:n_components]**2 / (len(s) - 1)
    
    # 投影
    X_transformed = X_centered @ components.T
    
    return X_transformed, components, explained_variance

PCA在深度学习中的应用

应用	说明
数据降维	可视化、压缩存储
特征提取	预处理步骤，减少维度
初始化	预训练权重的PCA初始化
正则化	去相关、降低过拟合

矩阵分解与嵌入学习

词共现矩阵分解

设词共现矩阵 $C \in R^{∣ V ∣ \times ∣ V ∣}$ ，其中 $C_{ij}$ 表示词 $i$ 和词 $j$ 的共现次数。

目标：找到词嵌入 $E \in R^{∣ V ∣ \times d}$ ，使得：

C \approx E E^{T}

Word2Vec与矩阵分解的等价性

GloVe (Pennington et al., 2014) 证明了Word2Vec Skip-gram与矩阵分解的等价性：

w_{i}^{T} \tilde{w}_{j} = lo g (C_{ij}) - b_{i} - b_{j}

这解释了为什么基于共现矩阵的GloVe和基于上下文预测的Skip-gram能学到相似的词向量。

神经网络的矩阵视角

权重矩阵的秩

神经网络的表达能力与其权重矩阵的秩密切相关：

低秩瓶颈：某些层可能存在低秩结构
权重空间维度：有效参数维度可能小于名义参数维度
信息瓶颈：神经网络可能在某层丢失信息

低秩适应（LoRA）

低秩适应是一种高效的微调方法。设预训练权重 $W_{0} \in R^{d \times k}$ ，微调时冻结 $W_{0}$ ，只更新低秩分解：

W = W_{0} + AB, A \in R^{d \times r}, B \in R^{r \times k}

其中 $r ≪ min (d, k)$ 为秩。

class LoRALinear(nn.Module):
    """LoRA线性层"""
    def __init__(self, in_features, out_features, rank=4, alpha=1.0):
        super().__init__()
        self.rank = rank
        self.alpha = alpha
        self.scaling = alpha / rank
        
        # 冻结原始权重
        self.weight = nn.Parameter(torch.zeros(out_features, in_features))
        self.weight.requires_grad = False
        
        # 可训练的低秩分解
        self.lora_A = nn.Parameter(torch.randn(in_features, rank) * 0.01)
        self.lora_B = nn.Parameter(torch.zeros(rank, out_features))
    
    def forward(self, x):
        # W_0 + A * B
        return x @ (self.weight + self.lora_A @ self.lora_B * self.scaling)

SVD在模型压缩中的应用

权重分解

设卷积核 $W \in R^{c_{o u t} \times c_{in} \times k \times k}$ ，可分解为：

W = UΣ V^{T}

近似为两个小卷积的组合：

第一个： $1 \times 1$ 卷积（ $U$ ）
第二个： $k \times k$ 卷积（ $V^{T}$ ）

剪枝与重构

网络剪枝后，权重矩阵可能接近低秩。SVD可以找到最佳重构：

def svd_prune(model, sparsity=0.5):
    """基于SVD的权重剪枝"""
    for name, param in model.named_parameters():
        if 'weight' in name and param.dim() >= 2:
            # SVD分解
            U, s, Vt = torch.linalg.svd(param.data, full_matrices=False)
            
            # 保留前k个奇异值
            k = int(len(s) * (1 - sparsity))
            param.data = U[:, :k] @ torch.diag(s[:k]) @ Vt[:k, :]

自编码器与表示学习

自编码器架构

自编码器通过编码器 $z = f (x)$ 和解码器 $\hat{x} = g (z)$ 学习数据的紧凑表示。

L = ∥ x - g (f (x)) ∥^{2}

PCA自编码器

当编码器是线性层、解码器也是线性层，且损失为MSE时，自编码器学到的表示正好是PCA：

z = x W_{e}, \hat{x} = z W_{d}

最优 $W_{e}$ 的列空间与PCA主成分一致。

变分自编码器（VAE）

VAE引入概率建模：

q_{ϕ} (z ∣ x) = N (z; μ_{ϕ} (x), σ_{ϕ}^{2} (x))

p_{θ} (x ∣ z) = N (x; μ_{θ} (z), σ_{θ}^{2} (z))

损失函数：

L = E_{q_{ϕ}} [lo g p_{θ} (x ∣ z)] - D_{K L} (q_{ϕ} (z ∣ x) ∥ p (z))

class VAE(nn.Module):
    """变分自编码器"""
    def __init__(self, input_dim, latent_dim):
        super().__init__()
        
        # 编码器
        self.encoder = nn.Sequential(
            nn.Linear(input_dim, 256),
            nn.ReLU(),
            nn.Linear(256, 128),
            nn.ReLU()
        )
        self.fc_mu = nn.Linear(128, latent_dim)
        self.fc_logvar = nn.Linear(128, latent_dim)
        
        # 解码器
        self.decoder = nn.Sequential(
            nn.Linear(latent_dim, 128),
            nn.ReLU(),
            nn.Linear(128, 256),
            nn.ReLU(),
            nn.Linear(256, input_dim)
        )
    
    def reparameterize(self, mu, logvar):
        std = torch.exp(0.5 * logvar)
        eps = torch.randn_like(std)
        return mu + eps * std
    
    def forward(self, x):
        h = self.encoder(x)
        mu = self.fc_mu(h)
        logvar = self.fc_logvar(h)
        z = self.reparameterize(mu, logvar)
        return self.decoder(z), mu, logvar

谱范数与神经网络稳定性

谱范数定义

矩阵 $A$ 的谱范数（2-范数）：

∥ A ∥_{2} = x \neq = 0 max \frac{∥ Ax ∥ _{2}}{∥ x ∥ _{2}} = σ_{m a x} (A)

谱归一化

谱归一化 (Spectral Normalization) 强制权重矩阵的谱范数为1：

W_{SN} = \frac{W}{∥ W ∥ _{2}}

作用：

满足Lipschitz约束（GAN判别器）
训练更稳定
有正则化效果

class SpectralNorm(nn.Module):
    """谱归一化包装器"""
    def __init__(self, layer, n_iter=1):
        super().__init__()
        self.layer = layer
        self.n_iter = n_iter
        self.u = None
        self._init_u()
    
    def _init_u(self):
        # 初始化随机向量
        w = self.layer.weight.data
        self.u = nn.Parameter(w.new_empty(w.size(0)).normal_(0, 1))
    
    def _compute_spectral_norm(self):
        w = self.layer.weight.data
        for _ in range(self.n_iter):
            # 幂迭代
            v = torch.nn.functional.normalize(w @ self.u, dim=1)
            self.u.data = torch.nn.functional.normalize(w.T @ v, dim=0)
        return torch.dot(self.u, w @ v)
    
    def forward(self, x):
        w = self.layer.weight.data / self._compute_spectral_norm()
        return nn.functional.linear(x, w, self.layer.bias)

Metaphor

探索

矩阵分解与表示学习

矩阵分解与表示学习

奇异值分解（SVD）

定义

几何意义

与特征值分解的关系

最佳低秩近似

Eckart-Young-Mirsky定理

截断SVD的应用

主成分分析（PCA）

PCA的矩阵推导

闭式解

PCA与SVD的关系

PCA在深度学习中的应用

矩阵分解与嵌入学习

词共现矩阵分解

Word2Vec与矩阵分解的等价性

推荐系统中的矩阵分解

神经网络的矩阵视角

权重矩阵的秩

低秩适应（LoRA）

SVD在模型压缩中的应用

权重分解

剪枝与重构

自编码器与表示学习

自编码器架构

PCA自编码器

变分自编码器（VAE）

谱范数与神经网络稳定性

谱范数定义

谱归一化

参考

关系图谱

目录