概述
本专题为现代神经网络架构的理论深度和新架构设计提供系统化导航。第116轮扩充专注于填补图卷积网络(GCN)深度专题、字节级建模、动态深度计算和几何/代数理论的空缺。
1. 图卷积网络(GCN)深度专题
1.1 谱方法理论
1.2 空间方法与现代架构
| 文档 | 重点 |
|---|
| GCN空间方法与现代架构 | GraphSAGE、GAT、GATv2、APPNP、GCNII、SIGN、SAGN、ClusterGCN、GraphSAINT |
1.3 理论新进展
1.4 相关GNN文档
2.1 核心文档
2.2 字节级建模相关
2.3 关键概念
- 熵驱动分块:基于下一字节预测难度动态分块
- 潜在Transformer:在patch级而非字节级做全局注意力
- 三阶段架构:本地编码器 + 潜在Transformer + 本地解码器
- 效率优势:相比纯字节Transformer节省50-90% FLOPs
3. 动态深度计算:Mixture-of-Depths
3.1 核心文档
3.2 相关自适应计算
3.3 关键概念
- 专家选择 vs Token选择:MoD采用专家选择
- 容量约束:每层固定kN tokens通过
- 辅助损失:鼓励路由器均衡选择
- STE梯度:保持梯度流
4. 几何深度学习
4.1 核心文档
4.2 几何深度学习相关
4.3 五大几何域速查
| 域 | 对称性 | 架构 | 数据 |
|---|
| 网格(Grids) | 平移 | CNN, ViT | 图像、视频 |
| 群(Groups) | 群乘法 | Group CNN | 旋转数据 |
| 图(Graphs) | 置换 | GNN | 社交网络 |
| 齐次空间(Homogeneous) | 群/子群 | Spherical CNN | 球面信号 |
| 规范(Gauges) | 局部规范 | Gauge NN | 流形数据 |
5. 神经网络的代数/热带几何
5.1 核心文档
| 文档 | 重点 |
|---|
| 神经网络的代数几何与热带几何 | 多项式表示、Tropical Algebra、ReLU ↔ max-plus、Transformer的几何解释 |
5.2 相关理论
6. 学习路径建议
6.1 入门路径
图卷积网络基础(gcn-and-image-classification)
↓
图神经网络(GNN消息传递)
↓
GCN谱方法理论
↓
GCN空间方法与现代架构
6.2 进阶路径
GCN深度专题
↓
Transformer基础
↓
Byte Latent Transformer(字节级建模)
↓
Mixture-of-Depths(动态深度)
6.3 研究路径
几何深度学习框架
↓
神经网络的代数几何
↓
神经网络的代数几何与热带几何
↓
GCN理论新进展2024-2025
7. 核心公式速查
7.1 GCN 传播规则
Kipf-Welling GCN:
H(l+1)=σ(D~−1/2A~D~−1/2H(l)W(l))
APPNP:
H(k+1)=(1−α)A^H(k)+αH(0)
GCNII:
H(l+1)=σ(A^H(l)[(1−βl)I+βlW(l)]+(1−αl)H(l)+αlH(0))
7.2 GATv2 注意力
e(hi,hj)=aTLeakyReLU(W[hi∥hj])
7.3 BLT 动态分块
Block boundary at t⟺H(p(xt+1∣x<t))>τ
7.4 MoD 路由
capacity=k⋅N
7.5 热带半环
a⊕b=max(a,b),a⊗b=a+b
8. 论文推荐
8.1 GCN必读
- Kipf & Welling 2017: 原始GCN
- Hamilton et al. 2017: GraphSAGE
- Veličković et al. 2018: GAT
- Brody et al. 2022: GATv2
- Chen et al. 2020: GCNII
- Gasteiger et al. 2019: APPNP
8.2 BLT必读
- Pagnoni et al. 2024: Byte Latent Transformer
- Yu et al. 2023: MegaByte
- Xue et al. 2022: ByT5
- Tay et al. 2022: Charformer
8.3 MoD必读
- Raposo et al. 2024: Mixture-of-Depths
- Schuster et al. 2022: Confident Adaptive LM
- Elbayad et al. 2020: Depth-Adaptive Transformer
- Dehghani et al. 2019: Universal Transformer
8.4 几何深度学习必读
- Bronstein et al. 2021: Geometric Deep Learning蓝皮书
- Cohen & Welling 2016: Group Equivariant CNN
- Bronstein et al. 2017: Geometric Deep Learning: Going beyond Euclidean
8.5 代数/热带几何必读
- Maclagan & Sturmfels 2015: Tropical Geometry入门
- Montufar et al. 2014: ReLU网络线性区域数
- Zhang et al. 2018: ReLU网络的热带几何
9. 与现有内容的关联
9.1 关联1:基础架构专题
GCN专题补充 深度学习基础架构专题索引 的图部分。
9.3 关联3:图学习
9.4 关联4:理论深度
10. 工具与库
10.1 GCN工具
| 库 | 用途 |
|---|
| PyTorch Geometric | 标准GNN库 |
| DGL | 深度图库 |
| NetworkX | 图处理 |
| GraphGym | GNN实验框架 |
10.2 字节级建模工具
| 库 | 用途 |
|---|
| Hugging Face Tokenizers | 字节级tokenizer |
| ByT5 | 字节级T5 |
| SentencePiece | 子词tokenizer |
10.3 几何深度学习工具
| 库 | 用途 |
|---|
| e3nn | E(3)等变网络 |
| escnn | E(2)等变网络 |
| geomstats | 黎曼几何 |
| PyG | 几何深度学习 |
10.4 代数几何工具
| 库 | 用途 |
|---|
| Macaulay2 | 代数几何 |
| Singular | 多项式 |
| SymPy | 符号计算 |
| Tropical.jl | 热带几何 |
最后更新:2026-06-21 - 第一百一十六轮