概述

本专题为深度学习的基础架构提供系统化的学习路径。从数学基础出发,逐步深入到现代神经网络架构,最终到达2025-2026前沿进展。

学习路径图

线性代数基础
    ↓
概率论基础
    ↓
优化与梯度下降
    ↓
反向传播
    ↓
MLP(多层感知机)
    ↓
├── CNN(卷积神经网络)
├── RNN/LSTM/GRU
└── Transformer
    ↓
现代架构与新进展

一、数学基础

1.1 线性代数

文档重点
线性代数基础向量空间、矩阵分解、特征值、条件数
注意力机制的线性代数视角注意力矩阵的秩结构
特征值分解与神经网络Hessian谱分析
SVD在深度学习中的应用低秩近似、模型压缩
矩阵微积分反向传播数学基础
矩阵分解嵌入、推荐系统
谱分析图傅里叶、谱卷积
深度学习视角的线性代数现代综述
统一矩阵框架不同架构的矩阵统一

1.2 概率论

文档重点
概率与期望概率空间、随机变量、期望
马尔可夫链马尔可夫性质、转移概率
马尔可夫链混合时间收敛性分析
概率与期望概率空间、概率公理化

1.3 数学统计

文档重点
贝叶斯推断贝叶斯定理、贝叶斯估计
贝叶斯决策理论损失函数、风险最小化
共轭先验推导指数族共轭
层次贝叶斯模型多层模型
点估计MLE、UMVUE
假设检验t检验、F检验

二、优化与梯度方法

文档重点
凸优化基础凸集、凸函数
拉格朗日对偶与KKT条件约束优化
Fenchel对偶与近端算子现代优化

三、反向传播与自动微分

文档重点
反向传播算法四方程框架
反向传播梯度流理论梯度动力学
反向传播的物理理论能量、信息几何
计算图自动微分基础
反向模式自动微分算法
PyTorch autograd内部工程实现

四、多层感知机(MLP)

文档重点
MLP理论通用逼近、深度vs宽度
通用逼近定理Cybenko/Hornik定理
从零实现MLPNumPy/PyTorch完整实现
MLP缩放定律与2025新洞察Bachmann、Defilippis等最新研究

五、卷积神经网络(CNN)

文档重点
CNN与图像分类入门介绍
CNN数学基础卷积严格定义、等变性、群等变CNN、感受野理论
现代CNN架构VGG/GoogLeNet/ResNeXt/DenseNet
现代CNN架构2025ConvNeXt V2、MobileNet进展
轻量化CNN架构深度可分离卷积、MobileNet、EfficientNet、GhostNet
ConvNeXt现代ConvNet设计

CNN理论要点

  1. 数学基础:卷积算子、Toeplitz矩阵表示
  2. 等变性:平移等变性形式化证明、群等变CNN
  3. 感受野:理论感受野与有效感受野(ERF)的高斯衰减
  4. PDE视角:演化方程离散化
  5. 现代进展:Moment Kernels (ICCV 2025)、UniConvNet、小波卷积

六、循环神经网络(RNN)

文档重点
循环神经网络RNN入门介绍
RNN与序列建模应用概览
Vanilla RNN深度理论BPTT、梯度消失爆炸、2024-2025新结果
LSTM长短期记忆网络
LSTM长短期记忆LSTM详解
GRU门控循环单元GRU架构、理论、与LSTM对比
现代LSTM进展xLSTM、Tau、GRU变体
LSTM到SSM对偶现代SSM理论
xLSTM扩展LSTM
Mamba与RNN整合现代替代品

RNN理论要点

  1. BPTT:反向传播通过时间的完整推导
  2. 梯度消失爆炸:Jacobian谱分析、2024年新理解
  3. 门控机制:LSTM、GRU如何创造慢模态
  4. 可学习窗口:Livi 2025理论
  5. 收敛性:Cayci-Eryilmaz 2024非渐近分析

七、Transformer

文档重点
2026 Transformer进展最新综述
Nexusformer非线性注意力
NOBLE非线性低秩分支
Post-LayerNorm回归Keel架构
深度诅咒深度有效性
Transformer动力学平均场理论

八、图神经网络(GNN)

文档重点
GNN消息传递详细机制
图卷积网络详解GCN推导
GCN泛化理论理论分析
图基础模型预训练策略
ChebNet复兴NeurIPS 2025

九、贝叶斯深度学习


十、概率图与马尔可夫模型


十一、2025-2026新进展

新增文档(第一百一十五轮)

跨领域融合

  • CNN + Transformer:MobileViT、EfficientFormer、PoolFormer
  • RNN + SSM:Mamba、RWKV、Hyena
  • GNN + 注意力:Graph Transformer
  • 贝叶斯 + 深度学习:Bayesian Neural Networks、Bayesian Transformers

十二、学习建议

初学者路径(2-3个月)

  1. 数学基础(2-3周)

    • 线性代数基础
    • 概率与统计基础
    • 凸优化入门
  2. MLP与反向传播(1-2周)

    • MLP实现
    • 反向传播
    • 简单优化器
  3. 经典架构(4-6周)

    • CNN(LeNet到ResNet)
    • RNN/LSTM
    • Transformer入门
  4. 实践项目(持续)

    • MNIST/CIFAR-10
    • 文本分类
    • 简单的图像分割

中级路径(3-6个月)

  1. 深入CNN数学基础(群等变、PDE-CNNs)
  2. 深入RNN理论(梯度消失爆炸、门控机制)
  3. Transformer架构变体(线性注意力、稀疏注意力)
  4. GNN基础(消息传递、GCN)
  5. 贝叶斯深度学习(BNN、变分推断)

高级路径(持续)

  1. 前沿架构:Mamba、Hyena、状态空间模型
  2. 理论深度:注意力机制OT理论、Transformer动力学
  3. 跨领域:AI for Science、机器人、强化学习
  4. 新洞察:每季度的最新论文跟进

十三、参考资料

  • 维基百科深度学习专题
  • Deep Learning Book (Goodfellow, Bengio, Courville)
  • Neural Networks and Deep Learning (Michael Nielsen)
  • Pattern Recognition and Machine Learning (Bishop)
  • The Elements of Statistical Learning (Hastie, Tibshirani, Friedman)

最后更新:2026-06-21