概述
本专题为深度学习的基础架构提供系统化的学习路径。从数学基础出发,逐步深入到现代神经网络架构,最终到达2025-2026前沿进展。
学习路径图
线性代数基础
↓
概率论基础
↓
优化与梯度下降
↓
反向传播
↓
MLP(多层感知机)
↓
├── CNN(卷积神经网络)
├── RNN/LSTM/GRU
└── Transformer
↓
现代架构与新进展
一、数学基础
1.1 线性代数
| 文档 | 重点 |
|---|---|
| 线性代数基础 | 向量空间、矩阵分解、特征值、条件数 |
| 注意力机制的线性代数视角 | 注意力矩阵的秩结构 |
| 特征值分解与神经网络 | Hessian谱分析 |
| SVD在深度学习中的应用 | 低秩近似、模型压缩 |
| 矩阵微积分 | 反向传播数学基础 |
| 矩阵分解 | 嵌入、推荐系统 |
| 谱分析 | 图傅里叶、谱卷积 |
| 深度学习视角的线性代数 | 现代综述 |
| 统一矩阵框架 | 不同架构的矩阵统一 |
1.2 概率论
1.3 数学统计
二、优化与梯度方法
| 文档 | 重点 |
|---|---|
| 凸优化基础 | 凸集、凸函数 |
| 拉格朗日对偶与KKT条件 | 约束优化 |
| Fenchel对偶与近端算子 | 现代优化 |
三、反向传播与自动微分
四、多层感知机(MLP)
| 文档 | 重点 |
|---|---|
| MLP理论 | 通用逼近、深度vs宽度 |
| 通用逼近定理 | Cybenko/Hornik定理 |
| 从零实现MLP | NumPy/PyTorch完整实现 |
| MLP缩放定律与2025新洞察 | Bachmann、Defilippis等最新研究 |
五、卷积神经网络(CNN)
| 文档 | 重点 |
|---|---|
| CNN与图像分类 | 入门介绍 |
| CNN数学基础 | 卷积严格定义、等变性、群等变CNN、感受野理论 |
| 现代CNN架构 | VGG/GoogLeNet/ResNeXt/DenseNet |
| 现代CNN架构2025 | ConvNeXt V2、MobileNet进展 |
| 轻量化CNN架构 | 深度可分离卷积、MobileNet、EfficientNet、GhostNet |
| ConvNeXt | 现代ConvNet设计 |
CNN理论要点
- 数学基础:卷积算子、Toeplitz矩阵表示
- 等变性:平移等变性形式化证明、群等变CNN
- 感受野:理论感受野与有效感受野(ERF)的高斯衰减
- PDE视角:演化方程离散化
- 现代进展:Moment Kernels (ICCV 2025)、UniConvNet、小波卷积
六、循环神经网络(RNN)
| 文档 | 重点 |
|---|---|
| 循环神经网络RNN | 入门介绍 |
| RNN与序列建模 | 应用概览 |
| Vanilla RNN深度理论 | BPTT、梯度消失爆炸、2024-2025新结果 |
| LSTM | 长短期记忆网络 |
| LSTM长短期记忆 | LSTM详解 |
| GRU门控循环单元 | GRU架构、理论、与LSTM对比 |
| 现代LSTM进展 | xLSTM、Tau、GRU变体 |
| LSTM到SSM对偶 | 现代SSM理论 |
| xLSTM | 扩展LSTM |
| Mamba与RNN整合 | 现代替代品 |
RNN理论要点
- BPTT:反向传播通过时间的完整推导
- 梯度消失爆炸:Jacobian谱分析、2024年新理解
- 门控机制:LSTM、GRU如何创造慢模态
- 可学习窗口:Livi 2025理论
- 收敛性:Cayci-Eryilmaz 2024非渐近分析
七、Transformer
| 文档 | 重点 |
|---|---|
| 2026 Transformer进展 | 最新综述 |
| Nexusformer | 非线性注意力 |
| NOBLE | 非线性低秩分支 |
| Post-LayerNorm回归 | Keel架构 |
| 深度诅咒 | 深度有效性 |
| Transformer动力学 | 平均场理论 |
八、图神经网络(GNN)
九、贝叶斯深度学习
十、概率图与马尔可夫模型
十一、2025-2026新进展
新增文档(第一百一十五轮)
- CNN数学基础 - ICCV 2025 Moment Kernels、UniConvNet
- 轻量化CNN架构 - MobileNet V3、EfficientNet、GhostNet
- 从零实现MLP - NumPy+PyTorch完整实现
- MLP缩放定律与新洞察 - Bachmann 2023、Defilippis 2025
- Vanilla RNN深度理论 - Zucchet 2024、Livi 2025
- GRU门控循环单元 - Lyapunov稳定性、可学习窗口
- 线性代数基础(增强) - 向量空间、矩阵分解、条件数
跨领域融合
- CNN + Transformer:MobileViT、EfficientFormer、PoolFormer
- RNN + SSM:Mamba、RWKV、Hyena
- GNN + 注意力:Graph Transformer
- 贝叶斯 + 深度学习:Bayesian Neural Networks、Bayesian Transformers
十二、学习建议
初学者路径(2-3个月)
-
数学基础(2-3周)
- 线性代数基础
- 概率与统计基础
- 凸优化入门
-
MLP与反向传播(1-2周)
- MLP实现
- 反向传播
- 简单优化器
-
经典架构(4-6周)
- CNN(LeNet到ResNet)
- RNN/LSTM
- Transformer入门
-
实践项目(持续)
- MNIST/CIFAR-10
- 文本分类
- 简单的图像分割
中级路径(3-6个月)
- 深入CNN数学基础(群等变、PDE-CNNs)
- 深入RNN理论(梯度消失爆炸、门控机制)
- Transformer架构变体(线性注意力、稀疏注意力)
- GNN基础(消息传递、GCN)
- 贝叶斯深度学习(BNN、变分推断)
高级路径(持续)
- 前沿架构:Mamba、Hyena、状态空间模型
- 理论深度:注意力机制OT理论、Transformer动力学
- 跨领域:AI for Science、机器人、强化学习
- 新洞察:每季度的最新论文跟进
十三、参考资料
- 维基百科深度学习专题
- Deep Learning Book (Goodfellow, Bengio, Courville)
- Neural Networks and Deep Learning (Michael Nielsen)
- Pattern Recognition and Machine Learning (Bishop)
- The Elements of Statistical Learning (Hastie, Tibshirani, Friedman)
最后更新:2026-06-21