概述
2026年CNN等变性理论出现了多个里程碑式突破,本文档系统整理:
- 可识别性驱动的逐层等变定理(Kohn et al., arXiv 2601.21645)— 证明”端到端可识别”的网络必然存在逐层等变参数化
- Lorentz群Steerable Kernel基(arXiv 2603.12459)— 将steerable kernel基底从SO(2)/SO(3)推广到Lorentz群
- 微分同胚等变神经网络(Cambridge, arXiv 2602.06695)— 突破传统有限/紧致群限制
- 多项式群CNN几何理论(arXiv 2603.29566)— 用分次群代数重新参数化GCNN
- 可调软等变性(CVPR 2026)— 实践导向的”软等变”设计与可证下界
这些工作远超传统有限群框架,将等变CNN理论拓展到Lorentz群、无穷维微分同胚群,以及”软等变”(soft equivariance)的工程化路径。
CNN等变性理论的现代进展可以追溯到Cohen-Welling (2016) 的Group-CNN1,本轮2026年突破则代表”后有限群时代”的到来。2
一、可识别性驱动逐层等变定理
1.1 问题背景
传统等变神经网络设计的核心假设是逐层等变(layerwise equivariance):每个隐藏层都严格满足 对称群 的等变性。
但实践中存在两类声音:
- 整体派:“只要端到端等变即可,无需逐层等变”
- 逐层派:“逐层等变是实现端到端等变的最稳健方式”
2026年Kohn等人给出了一个出乎意料的正面回答:
定理(Kohn et al. 2026):任何端到端可识别(identifiable)的等变网络,必然存在逐层等变的参数化。
1.2 形式化定义
设 为紧致群(紧致性保证Haar测度存在),神经网络 满足:
可识别性定义: 对几乎所有 成立当且仅当 。
1.3 主要定理
定理 1(逐层等变存在性):若 端到端 -等变,且 是可识别的,则存在 -等变参数空间 上的参数 ,使得 ,且每个隐藏层都满足逐层等变性。
证明思路:
- 端到端等变性 → 存在隐藏表示空间 上的 -作用
- 可识别性 → 该作用是自由(free)的或至少轨道的稳定子是离散的
- 利用轨道型分解(orbit-type decomposition)将 分解为 -等变子空间的直和
- 每个子空间上的线性层自动等变
关键推论:端到端可识别的等变网络没有自由度来选择非等变的内部表示。
1.4 实践意义
| 设计选择 | 传统观点 | 2026新视角 |
|---|---|---|
| 是否需要逐层等变? | 设计选择 | 数学必然 |
| 端到端等变但内部非等变可能吗? | 可能 | 不可能(若可识别) |
| 软等变层的可行性? | 工程妥协 | 可证下界(见后) |
1.5 与现有内容联系
二、Lorentz群Steerable Kernel基
2.1 从SO(2)/SO(3)到Lorentz群
传统steerable CNN基于紧致群 或 ,其不可约表示(irreps)有完整分类。然而,许多物理数据具有Lorentz对称性:
- 相对论性粒子物理:四动量 服从Lorentz群 变换
- 广义相对论:时空坐标 服从Lorentz变换
- 高能物理探测器:喷注(jet)的能流分布
Lorentz群是非紧致群(non-compact group),其表示理论与紧致群有本质差异。
2.2 Lorentz群不可约表示基础
Lorentz群 的不可约表示由两个半整数 标记,对应 的表示:
Casimir算子:
其中 是Lorentz生成元。
2.3 Steerable Kernel到Lorentz的扩展
2026年工作(arXiv 2603.12459)给出了首个 Lorentz等变steerable kernel基构造:
定义(Lorentz Steerable Kernel):核函数 满足
其中 是给定Lorentz不可约表示。
基底构造:
利用Wigner -函数在Lorentz表示上的推广,将kernel展开为:
其中 是位置依赖系数,可通过MLP参数化。
2.4 复杂度分析
| 表示 | 维数 | 物理意义 |
|---|---|---|
| 1 | 标量场 | |
| 2 | Weyl旋量 | |
| 2 | 反Weyl旋量 | |
| 4 | 四矢量(如四动量) | |
| 或 | 3 | 自旋1矢量 |
| 9 | 对称二阶张量 |
2.5 应用案例
喷注分类(Jet Tagging):
import torch
import torch.nn as nn
class LorentzSteerableConv(nn.Module):
"""Lorentz群等变卷积层,处理四动量数据"""
def __init__(self, in_reps, out_reps, kernel_size=3):
super().__init__()
self.in_reps = in_reps # 输入不可约表示列表
self.out_reps = out_reps
self.kernel_size = kernel_size
# 位置依赖系数 MLP
self.coeff_mlp = nn.Sequential(
nn.Linear(4, 32), # 四动量输入
nn.ReLU(),
nn.Linear(32, sum(dim * dim for dim in out_reps))
)
def forward(self, x):
"""
x: (batch, num_particles, 4) 四动量
输出: (batch, num_particles, out_dim) 不可约表示特征
"""
# 实现 Clebsch-Gordan 系数乘积
# 即 SO(3) 等变网络到 Lorentz 的推广
coeffs = self.coeff_mlp(x)
# ... (CG 系数张量积)
return features应用领域:
- 高能物理:CMS/ATLAS实验中的喷注标记、粒子鉴别
- 宇宙学:宇宙微波背景(CMB)极化分析
- 相对论流体动力学:等离子体物理模拟
2.6 与现有内容联系
- 参见 Steerable CNNs
- 扩展 几何深度学习中的Steerable Networks
- 与 神经网络代数几何 中表示论的联系
三、微分同胚等变神经网络
3.1 跳出有限群框架
传统等变CNN对紧致群(SO(2), SO(3), O(n))有完善理论,但对无穷维群(如微分同胚群 )的处理一直是开放问题。
2026年Cambridge团队(arXiv 2602.06695)首次给出可实用的微分同胚等变架构。
3.2 微分同胚群基础
设 为光滑流形(如 、球面 ),其微分同胚群为:
是无穷维李群,无法用有限个参数描述。
3.3 关键思想:局部形变场
对每个点 ,定义局部形变场(local deformation field):
满足 由神经网络参数化且满足平移协变性:
网络层操作:
其中 是固定的核函数, 是可学习的形变场。
3.4 等变性证明
定理 2(微分同胚等变性):对任意光滑同胚 ,上述构造的层 满足:
证明思路:
- 是光滑双射 → 换元 ,
- 形变场的协变性
- 核函数 在 下的协变变换被形变场抵消
关键洞察:虽然 不可约表示是无穷维的,但通过形变场参数化避免了直接处理表示。
3.5 实践效果
| 数据类型 | 传统有限群方法 | 微分同胚等变 |
|---|---|---|
| 图像配准 | 仿射群(有限维) | 任意形变 |
| 形状分析 | 旋转+缩放 | 任意微分同胚 |
| 流体模拟 | 旋转对称 | 全 |
性能提升:在医疗图像配准任务上,相对仿射等变方法误差降低约 35%。
3.6 与现有内容联系
- 扩展 群作用框架
- 与 Neural ODE 共享连续形变思想
四、多项式群CNN几何理论
4.1 PGCNN的代数背景
2026年(arXiv 2603.29566)的工作 多项式群CNN(Polynomial GCNN, PGCNN)将GCNN的参数化与分次群代数(graded group algebra)建立精确对应。
4.2 群代数回顾
群 的群代数 由所有形式线性组合构成:
乘法:
分次群代数:当 是有限群时, 是有限维结合代数。
4.3 GCNN作为群代数表示
GCNN的第层权重可视为群代数元素:
其中 是第层的表示。
4.4 PGCNN的关键定理
定理 3(多项式参数化完备性):设 为有限群, 为所有不可约表示。则GCNN的参数空间与下述多项式空间同构:
其中 是某个多项式次数参数(通常 的多项式)。
Hadamard vs Kronecker参数化:
两种传统GCNN参数化在分次群代数下有清晰的代数对应:
| 参数化 | 群代数对应 | 计算复杂度 |
|---|---|---|
| Hadamard(逐元素) | 对角嵌入 | $O( |
| Kronecker(张量积) | 满代数元素 | $O( |
| PGCNN(多项式截断) | 多项式子代数 | $O( |
4.5 实践指南
选择多项式截断次数 :
- :仅保留线性项,等价于Hadamard参数化
- :保留二次项,捕获双频交互
- :中等复杂度,平衡表达力与效率
- :完整群代数,等价于Kronecker参数化
4.6 应用案例
import torch
import torch.nn as nn
import math
class PGCNNLayer(nn.Module):
"""多项式群卷积神经网络层"""
def __init__(self, in_channels, out_channels, group_size, poly_degree=2):
super().__init__()
self.group_size = group_size # |G|
self.poly_degree = poly_degree # P
# 多项式系数(替代Hadamard/Kronecker全参数)
# 参数总数: in_channels * out_channels * group_size * poly_degree
self.poly_coeffs = nn.Parameter(
torch.randn(in_channels, out_channels, group_size, poly_degree)
/ math.sqrt(in_channels * group_size * poly_degree)
)
def forward(self, x):
"""
x: (batch, channels, height, width, group_size)
输出: (batch, out_channels, ...)
"""
# 计算多项式群卷积
# sum_{p=0}^{P-1} c_p · π(x)^p 形式
result = 0
x_power = x # π(x)^0 = x
for p in range(self.poly_degree):
result = result + torch.einsum(
'bchw...,cop->bohw...',
x_power, self.poly_coeffs[..., p]
)
x_power = self._group_multiply(x_power, x)
return result
def _group_multiply(self, a, b):
"""群乘法 (Kronecker delta 应用)"""
# 实际实现依赖具体群结构
return torch.einsum('bchwg,bhwge->bchwge', a, b)五、可调软等变性
5.1 问题的实践根源
传统等变CNN存在实践困境:
- 真实数据往往不严格对称:图像受噪声、遮挡影响
- 严格等变层可能过强:限制模型适应非对称扰动
- 设计选择困难:应使用哪种群?、、、?
2026年CVPR工作(Rahman et al.)提出可调软等变性(Tunable Soft Equivariance)。
5.2 软等变的形式化
设 为目标对称群, 为网络层。-软等变:
对所有 。
关键参数:
- 越小,越接近严格等变
- 越大,模型越灵活
5.3 自适应软等变层
架构:在Transformer块中插入软等变正则化:
class SoftEquivariantAttention(nn.Module):
"""带可调软等变约束的注意力层"""
def __init__(self, d_model, equiv_group='C8', epsilon_init=0.1):
super().__init__()
self.attention = nn.MultiheadAttention(d_model, num_heads=8)
# 软等变参数 ε(可学习)
self.epsilon = nn.Parameter(torch.tensor(epsilon_init))
# 群生成元
self.group_gens = self._init_group_gens(equiv_group)
def forward(self, x):
# 标准注意力
out, _ = self.attention(x, x, x)
# 软等变正则化损失
soft_equiv_loss = 0
for g in self.group_gens:
x_g = self._apply_group_element(g, x)
out_g = self._apply_group_element(g, out)
soft_equiv_loss += torch.norm(out_g - self.attention(x_g)[0])
# 将正则化项加入输出(梯度回传)
out = out - self.epsilon * soft_equiv_loss / len(self.group_gens)
return out5.4 软等变性的可证下界
定理 4(软等变泛化界,CVPR 2026):
设训练数据 i.i.d. 采样于分布 ,网络 是 -软等变。则对任意 ,至少以概率 :
其中 是函数类 的Rademacher复杂度。
关键洞察:
- 直接出现在泛化界中: 越小,泛化越紧
- 这是首次给出软等变层的可证理论保证
5.5 自适应调节
实践中 应当:
- 初始化小(如 )
- 训练早期稳定(防止梯度爆炸)
- 中后期自适应(根据验证集调整)
自适应调度:
其中 是温度参数。
5.6 实验对比
| 模型 | 严格等变 | ImageNet Acc | OOD Acc |
|---|---|---|---|
| ViT-Base | 否 | 81.8% | 64.2% |
| ViT + C4 严格 | 100% | 80.5% | 68.7% |
| ViT + 软等变 (ε=0.1) | ~95% | 82.4% | 70.1% |
| ViT + 软等变 (ε=0.5) | ~50% | 81.2% | 67.5% |
结论:软等变()在保持近等变性的同时,同时提升 ID 和 OOD 性能。
5.7 与现有内容联系
六、2026新理论统一视角
6.1 三大新方向的内在联系
2026年三大等变新理论存在深刻统一:
可识别性(Kohn 2026) ─┐
├──→ 等变CNN理论的现代基础
Lorentz Steerable ──┤
│
微分同胚等变 ───────┤
│
多项式群CNN ────────┤
│
软等变 ─────────────┘
共同哲学:
- 可识别性定理:等变性不是设计选择,而是数学必然
- Lorentz Steerable:物理对称性 → 群表示 → 可计算核
- 微分同胚等变:突破有限群限制,拥抱无穷维结构
- PGCNN:群代数 → 简洁参数化
- 软等变:工程现实 → 可证泛化界
6.2 2026 vs 传统理论的对比
| 维度 | 传统(2016-2022) | 2026新理论 |
|---|---|---|
| 群类型 | 仅紧致/有限群 | 紧致、有限、非紧致(Lorentz)、无穷维(Diff) |
| 核函数 | 固定表示展开 | 位置依赖系数 + 可学习 |
| 训练 | 严格等变 | 可调软等变 + 可证界 |
| 理论 | 经验设计 | 可识别性定理强制 |
| 参数化 | Hadamard/Kronecker | 多项式群代数 |
| 泛化界 | 仅严格等变 | 软等变可证界 |
6.3 实践选型决策树
任务是否有明确对称群?
├── 是 → 严格等变 (传统 Group-CNN/Steerable CNN)
│ ↓
│ 群是否为紧致?
│ ├── 是 (SO(2)/SO(3)) → 标准 steerable
│ └── 否 (Lorentz/Diff) → 2026新理论
│
└── 否/部分 → 软等变 (CVPR 2026 方案)
↓
是否需要可证泛化界?
├── 是 → 软等变 + ε调节
└── 否 → 软等变 + 数据驱动
七、代码实现:综合示例
import torch
import torch.nn as nn
import math
class ModernEquivariantCNN2026(nn.Module):
"""
综合2026新理论的等变CNN:
- 多项式群卷积 (PGCNN)
- 软等变正则化
- 可识别性约束(隐式)
"""
def __init__(self, in_channels, num_classes, group_size=8,
poly_degree=2, soft_epsilon=0.1):
super().__init__()
self.group_size = group_size
self.soft_epsilon = nn.Parameter(torch.tensor(soft_epsilon))
# PGCNN backbone
self.pgcnn1 = PGCNNLayer(in_channels, 32, group_size, poly_degree)
self.pgcnn2 = PGCNNLayer(32, 64, group_size, poly_degree)
self.pgcnn3 = PGCNNLayer(64, 128, group_size, poly_degree)
# 分类头
self.classifier = nn.Sequential(
nn.AdaptiveAvgPool2d(1),
nn.Flatten(),
nn.Linear(128, num_classes)
)
def forward(self, x):
# 多项式群卷积
h = torch.relu(self.pgcnn1(x))
h = torch.relu(self.pgcnn2(h))
h = torch.relu(self.pgcnn3(h))
# 软等变正则化(在训练时)
if self.training:
soft_equiv_loss = self._compute_soft_equivariance(h)
# 通过反向传播影响梯度
h = h - self.soft_epsilon * soft_equiv_loss
return self.classifier(h)
def _compute_soft_equivariance(self, x):
"""计算软等变损失"""
loss = 0
for g_idx in range(self.group_size):
# 群元素 g 作用
x_g = torch.roll(x, shifts=g_idx, dims=-1)
# 网络对 x_g 的输出(简化:identity 处理)
# 实际应通过网络传播
# 此处省略细节
loss = loss + torch.norm(x - x_g)
return loss / self.group_size八、未来方向与开放问题
8.1 待解决问题
- Lorentz steerable的梯度稳定性:Lorentz群非紧致性导致梯度爆炸风险
- 微分同胚等变的离散化:从连续 到离散网格的数值误差
- 软等变的组合性:多层软等变网络的总体 累积
- PGCNN的表示选择:自动选择多项式次数 的方法
- 与Transformer的统一:等变CNN能否融合注意力机制?
8.2 2027展望
- 物理启发的群论:更多物理对称群(E(8), Poincaré, conformal)
- 生成式等变模型:扩散模型 + 等变性
- 因果等变性:等变 + 因果表征学习
- 量子等变:量子机器学习 + 等变CNN
九、参考文献
核心论文
相关经典论文
2025-2026延伸阅读
十、与其他wiki内容的交叉引用
- CNN基础:
[[cnn-mathematical-foundations|CNN数学基础]] - CNN架构演进:
[[modern-cnn-architectures-2025|现代CNN架构演进]] - 几何深度学习:
[[geometric-deep-learning-grids-groups-graphs|几何深度学习]] - 代数几何视角:
[[neural-network-algebraic-tropical-geometry|神经网络代数几何]] - 现代CNN架构:
[[lightweight-cnn-architectures|轻量化CNN架构]] - 深度学习基础:
[[deep-learning-basics|深度学习基础]]
Last updated: 2026-06-21