深度学习基础架构专题索引

概述

本专题为深度学习的基础架构提供系统化的学习路径。从数学基础出发，逐步深入到现代神经网络架构，最终到达2025-2026前沿进展。

学习路径图

线性代数基础
    ↓
概率论基础
    ↓
优化与梯度下降
    ↓
反向传播
    ↓
MLP（多层感知机）
    ↓
├── CNN（卷积神经网络）
├── RNN/LSTM/GRU
└── Transformer
    ↓
现代架构与新进展

一、数学基础

1.1 线性代数

文档	重点
线性代数基础	向量空间、矩阵分解、特征值、条件数
注意力机制的线性代数视角	注意力矩阵的秩结构
特征值分解与神经网络	Hessian谱分析
SVD在深度学习中的应用	低秩近似、模型压缩
矩阵微积分	反向传播数学基础
矩阵分解	嵌入、推荐系统
谱分析	图傅里叶、谱卷积
深度学习视角的线性代数	现代综述
统一矩阵框架	不同架构的矩阵统一

1.2 概率论

文档	重点
概率与期望	概率空间、随机变量、期望
马尔可夫链	马尔可夫性质、转移概率
马尔可夫链混合时间	收敛性分析
概率与期望	概率空间、概率公理化

1.3 数学统计

文档	重点
贝叶斯推断	贝叶斯定理、贝叶斯估计
贝叶斯决策理论	损失函数、风险最小化
共轭先验推导	指数族共轭
层次贝叶斯模型	多层模型
点估计	MLE、UMVUE
假设检验	t检验、F检验

二、优化与梯度方法

文档	重点
凸优化基础	凸集、凸函数
拉格朗日对偶与KKT条件	约束优化
Fenchel对偶与近端算子	现代优化

三、反向传播与自动微分

文档	重点
反向传播算法	四方程框架
反向传播梯度流理论	梯度动力学
反向传播的物理理论	能量、信息几何
计算图	自动微分基础
反向模式	自动微分算法
PyTorch autograd内部	工程实现

四、多层感知机（MLP）

文档	重点
MLP理论	通用逼近、深度vs宽度
通用逼近定理	Cybenko/Hornik定理
从零实现MLP	NumPy/PyTorch完整实现
MLP缩放定律与2025新洞察	Bachmann、Defilippis等最新研究

五、卷积神经网络（CNN）

文档	重点
CNN与图像分类	入门介绍
CNN数学基础	卷积严格定义、等变性、群等变CNN、感受野理论
现代CNN架构	VGG/GoogLeNet/ResNeXt/DenseNet
现代CNN架构2025	ConvNeXt V2、MobileNet进展
轻量化CNN架构	深度可分离卷积、MobileNet、EfficientNet、GhostNet
ConvNeXt	现代ConvNet设计

CNN理论要点

数学基础：卷积算子、Toeplitz矩阵表示
等变性：平移等变性形式化证明、群等变CNN
感受野：理论感受野与有效感受野（ERF）的高斯衰减
PDE视角：演化方程离散化
现代进展：Moment Kernels (ICCV 2025)、UniConvNet、小波卷积

六、循环神经网络（RNN）

文档	重点
循环神经网络RNN	入门介绍
RNN与序列建模	应用概览
Vanilla RNN深度理论	BPTT、梯度消失爆炸、2024-2025新结果
LSTM	长短期记忆网络
LSTM长短期记忆	LSTM详解
GRU门控循环单元	GRU架构、理论、与LSTM对比
现代LSTM进展	xLSTM、Tau、GRU变体
LSTM到SSM对偶	现代SSM理论
xLSTM	扩展LSTM
Mamba与RNN整合	现代替代品

RNN理论要点

BPTT：反向传播通过时间的完整推导
梯度消失爆炸：Jacobian谱分析、2024年新理解
门控机制：LSTM、GRU如何创造慢模态
可学习窗口：Livi 2025理论
收敛性：Cayci-Eryilmaz 2024非渐近分析

七、Transformer

文档	重点
2026 Transformer进展	最新综述
Nexusformer	非线性注意力
NOBLE	非线性低秩分支
Post-LayerNorm回归	Keel架构
深度诅咒	深度有效性
Transformer动力学	平均场理论

八、图神经网络（GNN）

文档	重点
GNN消息传递	详细机制
图卷积网络详解	GCN推导
GCN泛化理论	理论分析
图基础模型	预训练策略
ChebNet复兴	NeurIPS 2025

九、贝叶斯深度学习

文档	重点
贝叶斯估计理论	共轭先验、MAP
贝叶斯网络	PGM基础
贝叶斯神经网络	基础
贝叶斯神经网络不确定性	不确定性量化
贝叶斯深度学习索引	专题导航
贝叶斯深度学习实践	工程指南

十、概率图与马尔可夫模型

文档	重点
概率图模型统一理论	PGM综述
马尔可夫随机场	MRF与EBM
马尔可夫链与Transformer	新视角
隐马尔可夫模型	HMM
条件随机场	CRF
动态贝叶斯网络	时序PGM

十一、2025-2026新进展

新增文档（第一百一十五轮）

CNN数学基础 - ICCV 2025 Moment Kernels、UniConvNet
轻量化CNN架构 - MobileNet V3、EfficientNet、GhostNet
从零实现MLP - NumPy+PyTorch完整实现
MLP缩放定律与新洞察 - Bachmann 2023、Defilippis 2025
Vanilla RNN深度理论 - Zucchet 2024、Livi 2025
GRU门控循环单元 - Lyapunov稳定性、可学习窗口
线性代数基础（增强） - 向量空间、矩阵分解、条件数

跨领域融合

CNN + Transformer：MobileViT、EfficientFormer、PoolFormer
RNN + SSM：Mamba、RWKV、Hyena
GNN + 注意力：Graph Transformer
贝叶斯 + 深度学习：Bayesian Neural Networks、Bayesian Transformers

十二、学习建议

初学者路径（2-3个月）

数学基础（2-3周）
- 线性代数基础
- 概率与统计基础
- 凸优化入门
MLP与反向传播（1-2周）
- MLP实现
- 反向传播
- 简单优化器
经典架构（4-6周）
- CNN（LeNet到ResNet）
- RNN/LSTM
- Transformer入门
实践项目（持续）
- MNIST/CIFAR-10
- 文本分类
- 简单的图像分割

中级路径（3-6个月）

深入CNN数学基础（群等变、PDE-CNNs）
深入RNN理论（梯度消失爆炸、门控机制）
Transformer架构变体（线性注意力、稀疏注意力）
GNN基础（消息传递、GCN）
贝叶斯深度学习（BNN、变分推断）

高级路径（持续）

前沿架构：Mamba、Hyena、状态空间模型
理论深度：注意力机制OT理论、Transformer动力学
跨领域：AI for Science、机器人、强化学习
新洞察：每季度的最新论文跟进

十三、参考资料

维基百科深度学习专题
Deep Learning Book (Goodfellow, Bengio, Courville)
Neural Networks and Deep Learning (Michael Nielsen)
Pattern Recognition and Machine Learning (Bishop)
The Elements of Statistical Learning (Hastie, Tibshirani, Friedman)

最后更新：2026-06-21

Metaphor

探索

深度学习基础架构专题索引

概述

学习路径图

一、数学基础

1.1 线性代数

1.2 概率论

1.3 数学统计

二、优化与梯度方法

三、反向传播与自动微分

四、多层感知机（MLP）

五、卷积神经网络（CNN）

CNN理论要点

六、循环神经网络（RNN）

RNN理论要点

七、Transformer

八、图神经网络（GNN）

九、贝叶斯深度学习

十、概率图与马尔可夫模型

十一、2025-2026新进展

新增文档（第一百一十五轮）

跨领域融合

十二、学习建议

初学者路径（2-3个月）

中级路径（3-6个月）

高级路径（持续）

十三、参考资料

关系图谱

目录

反向链接