概述

本专题为现代神经网络架构的理论深度和新架构设计提供系统化导航。第116轮扩充专注于填补图卷积网络(GCN)深度专题字节级建模动态深度计算几何/代数理论的空缺。


1. 图卷积网络(GCN)深度专题

1.1 谱方法理论

文档重点
GCN谱方法理论基础图信号处理、图傅里叶变换、ChebNet、Kipf-Welling GCN、SGC的完整数学框架
图卷积网络详解原始GCN介绍

1.2 空间方法与现代架构

文档重点
GCN空间方法与现代架构GraphSAGE、GAT、GATv2、APPNP、GCNII、SIGN、SAGN、ClusterGCN、GraphSAINT

1.3 理论新进展

文档重点
GCN理论新进展2024-2025过平滑理论、深度极限、泛化界、表达能力、异构图、GCN+LLM融合、图Transformer

1.4 相关GNN文档

文档重点
GNN消息传递机制深度解析MPNN框架、消息函数、聚合函数、更新函数
图神经网络表达力定量框架WL测试、子图计数、谱度量
GNN过压缩瓶颈长距离依赖问题
长距离GNN长距离依赖建模
Graph Transformer架构Transformer与GNN结合

2. 字节级建模:Byte Latent Transformer

2.1 核心文档

文档重点
Byte Latent Transformer动态分块、字节组编码、三阶段架构、消除tokenizer

2.2 字节级建模相关

文档重点
Tokenizer训练与设计BPE、WordPiece、SentencePiece
BLT架构字节级语言建模

2.3 关键概念

  • 熵驱动分块:基于下一字节预测难度动态分块
  • 潜在Transformer:在patch级而非字节级做全局注意力
  • 三阶段架构:本地编码器 + 潜在Transformer + 本地解码器
  • 效率优势:相比纯字节Transformer节省50-90% FLOPs

3. 动态深度计算:Mixture-of-Depths

3.1 核心文档

文档重点
Mixture-of-Depths与动态深度计算MoD核心机制、训练策略、MoD-Lite、Skip Transformer、PonderV2

3.2 相关自适应计算

文档重点
Mixture-of-Recursions Transformer递归深度MoD变体
连续深度Transformer神经ODE视角的Transformer
Mixture of ExpertsMoE基础
自适应测试时计算推理测试时自适应计算
测试时计算扩展TTS理论基础

3.3 关键概念

  • 专家选择 vs Token选择:MoD采用专家选择
  • 容量约束:每层固定 tokens通过
  • 辅助损失:鼓励路由器均衡选择
  • STE梯度:保持梯度流

4. 几何深度学习

4.1 核心文档

文档重点
几何深度学习:网格、群、图、规范Bronstein等GDL蓝皮书、五大几何域、对称性原理

4.2 几何深度学习相关

文档重点
神经代数几何基础Neurovariety、多项式网络
Transformer表达能力:热带几何视角Tropical Algebra、max-plus
Transformer计数能力:半代数性质半代数几何
Transformer规范对称性规范理论
位置编码几何理论RoPE的几何基础

4.3 五大几何域速查

对称性架构数据
网格(Grids)平移CNN, ViT图像、视频
群(Groups)群乘法Group CNN旋转数据
图(Graphs)置换GNN社交网络
齐次空间(Homogeneous)群/子群Spherical CNN球面信号
规范(Gauges)局部规范Gauge NN流形数据

5. 神经网络的代数/热带几何

5.1 核心文档

文档重点
神经网络的代数几何与热带几何多项式表示、Tropical Algebra、ReLU ↔ max-plus、Transformer的几何解释

5.2 相关理论

文档重点
Hamilton-Jacobi深度学习理论与热带几何的联系
信息几何基础流形上的优化
扩散模型流形几何理论流形上的扩散
分数学习与流形几何流形上的得分函数

6. 学习路径建议

6.1 入门路径

图卷积网络基础(gcn-and-image-classification)
    ↓
图神经网络(GNN消息传递)
    ↓
GCN谱方法理论
    ↓
GCN空间方法与现代架构

6.2 进阶路径

GCN深度专题
    ↓
Transformer基础
    ↓
Byte Latent Transformer(字节级建模)
    ↓
Mixture-of-Depths(动态深度)

6.3 研究路径

几何深度学习框架
    ↓
神经网络的代数几何
    ↓
神经网络的代数几何与热带几何
    ↓
GCN理论新进展2024-2025

7. 核心公式速查

7.1 GCN 传播规则

Kipf-Welling GCN

APPNP

GCNII

7.2 GATv2 注意力

7.3 BLT 动态分块

7.4 MoD 路由

7.5 热带半环


8. 论文推荐

8.1 GCN必读

  • Kipf & Welling 2017: 原始GCN
  • Hamilton et al. 2017: GraphSAGE
  • Veličković et al. 2018: GAT
  • Brody et al. 2022: GATv2
  • Chen et al. 2020: GCNII
  • Gasteiger et al. 2019: APPNP

8.2 BLT必读

  • Pagnoni et al. 2024: Byte Latent Transformer
  • Yu et al. 2023: MegaByte
  • Xue et al. 2022: ByT5
  • Tay et al. 2022: Charformer

8.3 MoD必读

  • Raposo et al. 2024: Mixture-of-Depths
  • Schuster et al. 2022: Confident Adaptive LM
  • Elbayad et al. 2020: Depth-Adaptive Transformer
  • Dehghani et al. 2019: Universal Transformer

8.4 几何深度学习必读

  • Bronstein et al. 2021: Geometric Deep Learning蓝皮书
  • Cohen & Welling 2016: Group Equivariant CNN
  • Bronstein et al. 2017: Geometric Deep Learning: Going beyond Euclidean

8.5 代数/热带几何必读

  • Maclagan & Sturmfels 2015: Tropical Geometry入门
  • Montufar et al. 2014: ReLU网络线性区域数
  • Zhang et al. 2018: ReLU网络的热带几何

9. 与现有内容的关联

9.1 关联1:基础架构专题

GCN专题补充 深度学习基础架构专题索引 的图部分。

9.2 关联2:Transformer理论

9.3 关联3:图学习

9.4 关联4:理论深度


10. 工具与库

10.1 GCN工具

用途
PyTorch Geometric标准GNN库
DGL深度图库
NetworkX图处理
GraphGymGNN实验框架

10.2 字节级建模工具

用途
Hugging Face Tokenizers字节级tokenizer
ByT5字节级T5
SentencePiece子词tokenizer

10.3 几何深度学习工具

用途
e3nnE(3)等变网络
escnnE(2)等变网络
geomstats黎曼几何
PyG几何深度学习

10.4 代数几何工具

用途
Macaulay2代数几何
Singular多项式
SymPy符号计算
Tropical.jl热带几何

最后更新:2026-06-21 - 第一百一十六轮