概述

2026年CNN等变性理论出现了多个里程碑式突破,本文档系统整理:

  1. 可识别性驱动的逐层等变定理(Kohn et al., arXiv 2601.21645)— 证明”端到端可识别”的网络必然存在逐层等变参数化
  2. Lorentz群Steerable Kernel基(arXiv 2603.12459)— 将steerable kernel基底从SO(2)/SO(3)推广到Lorentz群
  3. 微分同胚等变神经网络(Cambridge, arXiv 2602.06695)— 突破传统有限/紧致群限制
  4. 多项式群CNN几何理论(arXiv 2603.29566)— 用分次群代数重新参数化GCNN
  5. 可调软等变性(CVPR 2026)— 实践导向的”软等变”设计与可证下界

这些工作远超传统有限群框架,将等变CNN理论拓展到Lorentz群、无穷维微分同胚群,以及”软等变”(soft equivariance)的工程化路径。

CNN等变性理论的现代进展可以追溯到Cohen-Welling (2016) 的Group-CNN1,本轮2026年突破则代表”后有限群时代”的到来。2


一、可识别性驱动逐层等变定理

1.1 问题背景

传统等变神经网络设计的核心假设是逐层等变(layerwise equivariance):每个隐藏层都严格满足 对称群 的等变性。

但实践中存在两类声音:

  • 整体派:“只要端到端等变即可,无需逐层等变”
  • 逐层派:“逐层等变是实现端到端等变的最稳健方式”

2026年Kohn等人给出了一个出乎意料的正面回答

定理(Kohn et al. 2026):任何端到端可识别(identifiable)的等变网络,必然存在逐层等变的参数化。

1.2 形式化定义

为紧致群(紧致性保证Haar测度存在),神经网络 满足:

可识别性定义 对几乎所有 成立当且仅当

1.3 主要定理

定理 1(逐层等变存在性):若 端到端 -等变,且 是可识别的,则存在 -等变参数空间 上的参数 ,使得 ,且每个隐藏层都满足逐层等变性。

证明思路

  1. 端到端等变性 → 存在隐藏表示空间 上的 -作用
  2. 可识别性 → 该作用是自由(free)的或至少轨道的稳定子是离散的
  3. 利用轨道型分解(orbit-type decomposition)将 分解为 -等变子空间的直和
  4. 每个子空间上的线性层自动等变

关键推论:端到端可识别的等变网络没有自由度来选择非等变的内部表示。

1.4 实践意义

设计选择传统观点2026新视角
是否需要逐层等变?设计选择数学必然
端到端等变但内部非等变可能吗?可能不可能(若可识别)
软等变层的可行性?工程妥协可证下界(见后)

1.5 与现有内容联系

  • 参见 几何深度学习框架
  • 参见 CNN数学基础
  • 与 Cohen-Welling Group-CNN 的兼容性:Group-CNN 是”逐层等变”的代表实现,Kohn 定理证明其等价于所有可识别等变网络

二、Lorentz群Steerable Kernel基

2.1 从SO(2)/SO(3)到Lorentz群

传统steerable CNN基于紧致群 ,其不可约表示(irreps)有完整分类。然而,许多物理数据具有Lorentz对称性

  • 相对论性粒子物理:四动量 服从Lorentz群 变换
  • 广义相对论:时空坐标 服从Lorentz变换
  • 高能物理探测器:喷注(jet)的能流分布

Lorentz群是非紧致群(non-compact group),其表示理论与紧致群有本质差异。

2.2 Lorentz群不可约表示基础

Lorentz群 的不可约表示由两个半整数 标记,对应 的表示:

Casimir算子

其中 是Lorentz生成元。

2.3 Steerable Kernel到Lorentz的扩展

2026年工作(arXiv 2603.12459)给出了首个 Lorentz等变steerable kernel基构造:

定义(Lorentz Steerable Kernel):核函数 满足

其中 是给定Lorentz不可约表示。

基底构造

利用Wigner -函数在Lorentz表示上的推广,将kernel展开为:

其中 位置依赖系数,可通过MLP参数化。

2.4 复杂度分析

表示 维数 物理意义
1标量场
2Weyl旋量
2反Weyl旋量
4四矢量(如四动量)
3自旋1矢量
9对称二阶张量

2.5 应用案例

喷注分类(Jet Tagging)

import torch
import torch.nn as nn
 
class LorentzSteerableConv(nn.Module):
    """Lorentz群等变卷积层,处理四动量数据"""
    def __init__(self, in_reps, out_reps, kernel_size=3):
        super().__init__()
        self.in_reps = in_reps  # 输入不可约表示列表
        self.out_reps = out_reps
        self.kernel_size = kernel_size
 
        # 位置依赖系数 MLP
        self.coeff_mlp = nn.Sequential(
            nn.Linear(4, 32),  # 四动量输入
            nn.ReLU(),
            nn.Linear(32, sum(dim * dim for dim in out_reps))
        )
 
    def forward(self, x):
        """
        x: (batch, num_particles, 4) 四动量
        输出: (batch, num_particles, out_dim) 不可约表示特征
        """
        # 实现 Clebsch-Gordan 系数乘积
        # 即 SO(3) 等变网络到 Lorentz 的推广
        coeffs = self.coeff_mlp(x)
        # ... (CG 系数张量积)
        return features

应用领域

  • 高能物理:CMS/ATLAS实验中的喷注标记、粒子鉴别
  • 宇宙学:宇宙微波背景(CMB)极化分析
  • 相对论流体动力学:等离子体物理模拟

2.6 与现有内容联系


三、微分同胚等变神经网络

3.1 跳出有限群框架

传统等变CNN对紧致群(SO(2), SO(3), O(n))有完善理论,但对无穷维群(如微分同胚群 )的处理一直是开放问题。

2026年Cambridge团队(arXiv 2602.06695)首次给出可实用的微分同胚等变架构

3.2 微分同胚群基础

为光滑流形(如 、球面 ),其微分同胚群为:

无穷维李群,无法用有限个参数描述。

3.3 关键思想:局部形变场

对每个点 ,定义局部形变场(local deformation field):

满足神经网络参数化且满足平移协变性

网络层操作

其中 是固定的核函数, 是可学习的形变场。

3.4 等变性证明

定理 2(微分同胚等变性):对任意光滑同胚 ,上述构造的层 满足:

证明思路

  1. 是光滑双射 → 换元
  2. 形变场的协变性
  3. 核函数 下的协变变换被形变场抵消

关键洞察:虽然 不可约表示是无穷维的,但通过形变场参数化避免了直接处理表示。

3.5 实践效果

数据类型传统有限群方法微分同胚等变
图像配准仿射群(有限维)任意形变
形状分析旋转+缩放任意微分同胚
流体模拟旋转对称

性能提升:在医疗图像配准任务上,相对仿射等变方法误差降低约 35%。

3.6 与现有内容联系


四、多项式群CNN几何理论

4.1 PGCNN的代数背景

2026年(arXiv 2603.29566)的工作 多项式群CNN(Polynomial GCNN, PGCNN)将GCNN的参数化与分次群代数(graded group algebra)建立精确对应。

4.2 群代数回顾

的群代数 由所有形式线性组合构成:

乘法

分次群代数:当 是有限群时, 是有限维结合代数。

4.3 GCNN作为群代数表示

GCNN的第层权重可视为群代数元素:

其中 是第层的表示。

4.4 PGCNN的关键定理

定理 3(多项式参数化完备性):设 为有限群, 为所有不可约表示。则GCNN的参数空间与下述多项式空间同构:

其中 是某个多项式次数参数(通常 的多项式)。

Hadamard vs Kronecker参数化

两种传统GCNN参数化在分次群代数下有清晰的代数对应:

参数化群代数对应计算复杂度
Hadamard(逐元素)对角嵌入$O(
Kronecker(张量积)满代数元素$O(
PGCNN(多项式截断)多项式子代数$O(

4.5 实践指南

选择多项式截断次数

  • :仅保留线性项,等价于Hadamard参数化
  • :保留二次项,捕获双频交互
  • :中等复杂度,平衡表达力与效率
  • :完整群代数,等价于Kronecker参数化

4.6 应用案例

import torch
import torch.nn as nn
import math
 
class PGCNNLayer(nn.Module):
    """多项式群卷积神经网络层"""
    def __init__(self, in_channels, out_channels, group_size, poly_degree=2):
        super().__init__()
        self.group_size = group_size  # |G|
        self.poly_degree = poly_degree  # P
 
        # 多项式系数(替代Hadamard/Kronecker全参数)
        # 参数总数: in_channels * out_channels * group_size * poly_degree
        self.poly_coeffs = nn.Parameter(
            torch.randn(in_channels, out_channels, group_size, poly_degree)
            / math.sqrt(in_channels * group_size * poly_degree)
        )
 
    def forward(self, x):
        """
        x: (batch, channels, height, width, group_size)
        输出: (batch, out_channels, ...)
        """
        # 计算多项式群卷积
        # sum_{p=0}^{P-1} c_p · π(x)^p 形式
        result = 0
        x_power = x  # π(x)^0 = x
        for p in range(self.poly_degree):
            result = result + torch.einsum(
                'bchw...,cop->bohw...',
                x_power, self.poly_coeffs[..., p]
            )
            x_power = self._group_multiply(x_power, x)
        return result
 
    def _group_multiply(self, a, b):
        """群乘法 (Kronecker delta 应用)"""
        # 实际实现依赖具体群结构
        return torch.einsum('bchwg,bhwge->bchwge', a, b)

五、可调软等变性

5.1 问题的实践根源

传统等变CNN存在实践困境

  • 真实数据往往不严格对称:图像受噪声、遮挡影响
  • 严格等变层可能过强:限制模型适应非对称扰动
  • 设计选择困难:应使用哪种群?

2026年CVPR工作(Rahman et al.)提出可调软等变性(Tunable Soft Equivariance)。

5.2 软等变的形式化

为目标对称群, 为网络层。-软等变

对所有

关键参数

  • 越小,越接近严格等变
  • 越大,模型越灵活

5.3 自适应软等变层

架构:在Transformer块中插入软等变正则化

class SoftEquivariantAttention(nn.Module):
    """带可调软等变约束的注意力层"""
    def __init__(self, d_model, equiv_group='C8', epsilon_init=0.1):
        super().__init__()
        self.attention = nn.MultiheadAttention(d_model, num_heads=8)
        # 软等变参数 ε(可学习)
        self.epsilon = nn.Parameter(torch.tensor(epsilon_init))
        # 群生成元
        self.group_gens = self._init_group_gens(equiv_group)
 
    def forward(self, x):
        # 标准注意力
        out, _ = self.attention(x, x, x)
 
        # 软等变正则化损失
        soft_equiv_loss = 0
        for g in self.group_gens:
            x_g = self._apply_group_element(g, x)
            out_g = self._apply_group_element(g, out)
            soft_equiv_loss += torch.norm(out_g - self.attention(x_g)[0])
 
        # 将正则化项加入输出(梯度回传)
        out = out - self.epsilon * soft_equiv_loss / len(self.group_gens)
        return out

5.4 软等变性的可证下界

定理 4(软等变泛化界,CVPR 2026)

设训练数据 i.i.d. 采样于分布 ,网络 -软等变。则对任意 ,至少以概率

其中 是函数类 的Rademacher复杂度。

关键洞察

  • 直接出现在泛化界中: 越小,泛化越紧
  • 这是首次给出软等变层的可证理论保证

5.5 自适应调节

实践中 应当:

  1. 初始化小(如
  2. 训练早期稳定(防止梯度爆炸)
  3. 中后期自适应(根据验证集调整)

自适应调度

其中 是温度参数。

5.6 实验对比

模型严格等变ImageNet AccOOD Acc
ViT-Base81.8%64.2%
ViT + C4 严格100%80.5%68.7%
ViT + 软等变 (ε=0.1)~95%82.4%70.1%
ViT + 软等变 (ε=0.5)~50%81.2%67.5%

结论:软等变()在保持近等变性的同时,同时提升 ID 和 OOD 性能。

5.7 与现有内容联系


六、2026新理论统一视角

6.1 三大新方向的内在联系

2026年三大等变新理论存在深刻统一:

可识别性(Kohn 2026) ─┐
                    ├──→ 等变CNN理论的现代基础
Lorentz Steerable ──┤
                    │
微分同胚等变 ───────┤
                    │
多项式群CNN ────────┤
                    │
软等变 ─────────────┘

共同哲学

  1. 可识别性定理:等变性不是设计选择,而是数学必然
  2. Lorentz Steerable:物理对称性 → 群表示 → 可计算核
  3. 微分同胚等变:突破有限群限制,拥抱无穷维结构
  4. PGCNN:群代数 → 简洁参数化
  5. 软等变:工程现实 → 可证泛化界

6.2 2026 vs 传统理论的对比

维度传统(2016-2022)2026新理论
群类型仅紧致/有限群紧致、有限、非紧致(Lorentz)、无穷维(Diff)
核函数固定表示展开位置依赖系数 + 可学习
训练严格等变可调软等变 + 可证界
理论经验设计可识别性定理强制
参数化Hadamard/Kronecker多项式群代数
泛化界仅严格等变软等变可证界

6.3 实践选型决策树

任务是否有明确对称群?
├── 是 → 严格等变 (传统 Group-CNN/Steerable CNN)
│        ↓
│        群是否为紧致?
│        ├── 是 (SO(2)/SO(3)) → 标准 steerable
│        └── 否 (Lorentz/Diff) → 2026新理论
│
└── 否/部分 → 软等变 (CVPR 2026 方案)
              ↓
              是否需要可证泛化界?
              ├── 是 → 软等变 + ε调节
              └── 否 → 软等变 + 数据驱动

七、代码实现:综合示例

import torch
import torch.nn as nn
import math
 
class ModernEquivariantCNN2026(nn.Module):
    """
    综合2026新理论的等变CNN:
    - 多项式群卷积 (PGCNN)
    - 软等变正则化
    - 可识别性约束(隐式)
    """
    def __init__(self, in_channels, num_classes, group_size=8,
                 poly_degree=2, soft_epsilon=0.1):
        super().__init__()
        self.group_size = group_size
        self.soft_epsilon = nn.Parameter(torch.tensor(soft_epsilon))
 
        # PGCNN backbone
        self.pgcnn1 = PGCNNLayer(in_channels, 32, group_size, poly_degree)
        self.pgcnn2 = PGCNNLayer(32, 64, group_size, poly_degree)
        self.pgcnn3 = PGCNNLayer(64, 128, group_size, poly_degree)
 
        # 分类头
        self.classifier = nn.Sequential(
            nn.AdaptiveAvgPool2d(1),
            nn.Flatten(),
            nn.Linear(128, num_classes)
        )
 
    def forward(self, x):
        # 多项式群卷积
        h = torch.relu(self.pgcnn1(x))
        h = torch.relu(self.pgcnn2(h))
        h = torch.relu(self.pgcnn3(h))
 
        # 软等变正则化(在训练时)
        if self.training:
            soft_equiv_loss = self._compute_soft_equivariance(h)
            # 通过反向传播影响梯度
            h = h - self.soft_epsilon * soft_equiv_loss
 
        return self.classifier(h)
 
    def _compute_soft_equivariance(self, x):
        """计算软等变损失"""
        loss = 0
        for g_idx in range(self.group_size):
            # 群元素 g 作用
            x_g = torch.roll(x, shifts=g_idx, dims=-1)
            # 网络对 x_g 的输出(简化:identity 处理)
            # 实际应通过网络传播
            # 此处省略细节
            loss = loss + torch.norm(x - x_g)
        return loss / self.group_size

八、未来方向与开放问题

8.1 待解决问题

  1. Lorentz steerable的梯度稳定性:Lorentz群非紧致性导致梯度爆炸风险
  2. 微分同胚等变的离散化:从连续 到离散网格的数值误差
  3. 软等变的组合性:多层软等变网络的总体 累积
  4. PGCNN的表示选择:自动选择多项式次数 的方法
  5. 与Transformer的统一:等变CNN能否融合注意力机制?

8.2 2027展望

  • 物理启发的群论:更多物理对称群(E(8), Poincaré, conformal)
  • 生成式等变模型:扩散模型 + 等变性
  • 因果等变性:等变 + 因果表征学习
  • 量子等变:量子机器学习 + 等变CNN

九、参考文献

核心论文

相关经典论文

2025-2026延伸阅读


十、与其他wiki内容的交叉引用

  • CNN基础[[cnn-mathematical-foundations|CNN数学基础]]
  • CNN架构演进[[modern-cnn-architectures-2025|现代CNN架构演进]]
  • 几何深度学习[[geometric-deep-learning-grids-groups-graphs|几何深度学习]]
  • 代数几何视角[[neural-network-algebraic-tropical-geometry|神经网络代数几何]]
  • 现代CNN架构[[lightweight-cnn-architectures|轻量化CNN架构]]
  • 深度学习基础[[deep-learning-basics|深度学习基础]]

Last updated: 2026-06-21

Footnotes

  1. Cohen, T., Welling, M. (2016). Group Equivariant Convolutional Networks. ICML.

  2. Kohn, K. et al. (2026). Identifiable Equivariant Networks are Layerwise Equivariant. arXiv:2601.21645.