CNN等变性2026新理论：Lorentz Steerable Kernel、多项式群CNN与微分同胚等变

概述

2026年CNN等变性理论出现了多个里程碑式突破，本文档系统整理：

可识别性驱动的逐层等变定理（Kohn et al., arXiv 2601.21645）— 证明”端到端可识别”的网络必然存在逐层等变参数化
Lorentz群Steerable Kernel基（arXiv 2603.12459）— 将steerable kernel基底从SO(2)/SO(3)推广到Lorentz群
微分同胚等变神经网络（Cambridge, arXiv 2602.06695）— 突破传统有限/紧致群限制
多项式群CNN几何理论（arXiv 2603.29566）— 用分次群代数重新参数化GCNN
可调软等变性（CVPR 2026）— 实践导向的”软等变”设计与可证下界

这些工作远超传统有限群框架，将等变CNN理论拓展到Lorentz群、无穷维微分同胚群，以及”软等变”（soft equivariance）的工程化路径。

CNN等变性理论的现代进展可以追溯到Cohen-Welling (2016) 的Group-CNN¹，本轮2026年突破则代表”后有限群时代”的到来。²

一、可识别性驱动逐层等变定理

1.1 问题背景

传统等变神经网络设计的核心假设是逐层等变（layerwise equivariance）：每个隐藏层都严格满足 $f (g \cdot x) = g \cdot f (x)$ 对称群 $G$ 的等变性。

但实践中存在两类声音：

整体派：“只要端到端等变即可，无需逐层等变”
逐层派：“逐层等变是实现端到端等变的最稳健方式”

2026年Kohn等人给出了一个出乎意料的正面回答：

定理（Kohn et al. 2026）：任何端到端可识别（identifiable）的等变网络，必然存在逐层等变的参数化。

1.2 形式化定义

设 $G$ 为紧致群（紧致性保证Haar测度存在），神经网络 $f_{θ} : X \to Y$ 满足：

f_{θ} (g \cdot x) = g \cdot f_{θ} (x), \forall g \in G

可识别性定义： $f_{θ} (x) = f_{θ^{'}} (x)$ 对几乎所有 $x \in X$ 成立当且仅当 $θ = θ^{'}$ 。

1.3 主要定理

定理 1（逐层等变存在性）：若 $f_{θ}$ 端到端 $G$ -等变，且 $f_{θ}$ 是可识别的，则存在 $G$ -等变参数空间 $\tilde{Θ}$ 上的参数 $\tilde{θ}$ ，使得 $f_{\tilde{θ}} = f_{θ}$ ，且每个隐藏层都满足逐层等变性。

证明思路：

端到端等变性 → 存在隐藏表示空间 $Z_{i}$ 上的 $G$ -作用
可识别性 → 该作用是自由（free）的或至少轨道的稳定子是离散的
利用轨道型分解（orbit-type decomposition）将 $Z_{i}$ 分解为 $G$ -等变子空间的直和
每个子空间上的线性层自动等变

关键推论：端到端可识别的等变网络没有自由度来选择非等变的内部表示。

1.4 实践意义

设计选择	传统观点	2026新视角
是否需要逐层等变？	设计选择	数学必然
端到端等变但内部非等变可能吗？	可能	不可能（若可识别）
软等变层的可行性？	工程妥协	可证下界（见后）

1.5 与现有内容联系

参见几何深度学习框架
参见 CNN数学基础
与 Cohen-Welling Group-CNN 的兼容性：Group-CNN 是”逐层等变”的代表实现，Kohn 定理证明其等价于所有可识别等变网络

二、Lorentz群Steerable Kernel基

2.1 从SO(2)/SO(3)到Lorentz群

传统steerable CNN基于紧致群 $G = SO (2)$ 或 $SO (3)$ ，其不可约表示（irreps）有完整分类。然而，许多物理数据具有Lorentz对称性：

相对论性粒子物理：四动量 $p^{μ} = (E, p_{x}, p_{y}, p_{z})$ 服从Lorentz群 $O (1, 3)$ 变换
广义相对论：时空坐标 $(t, x, y, z)$ 服从Lorentz变换
高能物理探测器：喷注（jet）的能流分布

Lorentz群是非紧致群（non-compact group），其表示理论与紧致群有本质差异。

2.2 Lorentz群不可约表示基础

Lorentz群 $SO^{+} (1, 3)$ 的不可约表示由两个半整数 $(j_{1}, j_{2})$ 标记，对应 $su (2) \oplus su (2)$ 的表示：

(j_{1}, j_{2}) \leftrightarrow 表示空间 V_{(j_{1}, j_{2})} ≅ C^{2 j_{1} + 1} \otimes C^{2 j_{2} + 1}

Casimir算子：

C_{1} = \frac{1}{2} M_{μν} M^{μν}, C_{2} = \frac{1}{2} ϵ_{μν ρ σ} M^{μν} M^{ρ σ}

其中 $M_{μν}$ 是Lorentz生成元。

2.3 Steerable Kernel到Lorentz的扩展

2026年工作（arXiv 2603.12459）给出了首个 Lorentz等变steerable kernel基构造：

定义（Lorentz Steerable Kernel）：核函数 $K : X \times SO (1, 3) \to R$ 满足

K (g \cdot x, g^{'}) = ρ (g) K (x, g^{- 1} g^{'} g) ρ (g^{- 1})

其中 $ρ : SO (1, 3) \to GL (V)$ 是给定Lorentz不可约表示。

基底构造：

利用Wigner $D$ -函数在Lorentz表示上的推广，将kernel展开为：

K (x; g) = (j_{1}, j_{2}) \sum m_{1}, m_{2} \sum a_{(j_{1}, j_{2})}^{m_{1}, m_{2}} (x) D_{m_{1}, m_{2}}^{(j_{1}, j_{2})} (g)

其中 $a_{(j_{1}, j_{2})}^{m_{1}, m_{2}} (x)$ 是位置依赖系数，可通过MLP参数化。

2.4 复杂度分析

表示 $(j_{1}, j_{2})$	维数 $(2 j_{1} + 1) (2 j_{2} + 1)$	物理意义
$(0, 0)$	1	标量场
$(1/2, 0)$	2	Weyl旋量
$(0, 1/2)$	2	反Weyl旋量
$(1/2, 1/2)$	4	四矢量（如四动量）
$(1, 0)$ 或 $(0, 1)$	3	自旋1矢量
$(1, 1)$	9	对称二阶张量

2.5 应用案例

喷注分类（Jet Tagging）：

import torch
import torch.nn as nn
 
class LorentzSteerableConv(nn.Module):
    """Lorentz群等变卷积层，处理四动量数据"""
    def __init__(self, in_reps, out_reps, kernel_size=3):
        super().__init__()
        self.in_reps = in_reps  # 输入不可约表示列表
        self.out_reps = out_reps
        self.kernel_size = kernel_size
 
        # 位置依赖系数 MLP
        self.coeff_mlp = nn.Sequential(
            nn.Linear(4, 32),  # 四动量输入
            nn.ReLU(),
            nn.Linear(32, sum(dim * dim for dim in out_reps))
        )
 
    def forward(self, x):
        """
        x: (batch, num_particles, 4) 四动量
        输出: (batch, num_particles, out_dim) 不可约表示特征
        """
        # 实现 Clebsch-Gordan 系数乘积
        # 即 SO(3) 等变网络到 Lorentz 的推广
        coeffs = self.coeff_mlp(x)
        # ... (CG 系数张量积)
        return features

应用领域：

高能物理：CMS/ATLAS实验中的喷注标记、粒子鉴别
宇宙学：宇宙微波背景（CMB）极化分析
相对论流体动力学：等离子体物理模拟

2.6 与现有内容联系

三、微分同胚等变神经网络

3.1 跳出有限群框架

传统等变CNN对紧致群（SO(2), SO(3), O(n)）有完善理论，但对无穷维群（如微分同胚群 $Diff (M)$ ）的处理一直是开放问题。

2026年Cambridge团队（arXiv 2602.06695）首次给出可实用的微分同胚等变架构。

3.2 微分同胚群基础

设 $M$ 为光滑流形（如 $R^{n}$ 、球面 $S^{2}$ ），其微分同胚群为：

Diff (M) = {ϕ : M \to M ∣ ϕ 光滑双射, ϕ^{- 1} 光滑}

$Diff (M)$ 是无穷维李群，无法用有限个参数描述。

3.3 关键思想：局部形变场

对每个点 $x \in M$ ，定义局部形变场（local deformation field）：

v_{θ} : M \times M \to R^{n}, (x, y) \mapsto v_{θ} (x, y)

满足 $v_{θ}$ 由神经网络参数化且满足平移协变性：

v_{θ} (x + a, y + a) = v_{θ} (x, y), \forall a \in R^{n}

网络层操作：

f (x) = \int_{M} κ (x - y) \cdot v_{θ} (x, y) d y

其中 $κ$ 是固定的核函数， $v_{θ}$ 是可学习的形变场。

3.4 等变性证明

定理 2（微分同胚等变性）：对任意光滑同胚 $ϕ \in Diff (M)$ ，上述构造的层 $f$ 满足：

f (ϕ (x)) = ϕ (f (x)), \forall x \in M

证明思路：

$ϕ$ 是光滑双射 → 换元 $y^{'} = ϕ (y)$ ， $d y^{'} = ∣ det D ϕ ∣ d y$
形变场的协变性 $v_{θ} (ϕ (x), ϕ (y)) = D ϕ \cdot v_{θ} (x, y)$
核函数 $κ$ 在 $ϕ$ 下的协变变换被形变场抵消

关键洞察：虽然 $Diff (M)$ 不可约表示是无穷维的，但通过形变场参数化避免了直接处理表示。

3.5 实践效果

数据类型	传统有限群方法	微分同胚等变
图像配准	仿射群（有限维）	任意形变
形状分析	旋转+缩放	任意微分同胚
流体模拟	旋转对称	全 $Diff$

性能提升：在医疗图像配准任务上，相对仿射等变方法误差降低约 35%。

3.6 与现有内容联系

扩展群作用框架
与 Neural ODE 共享连续形变思想

四、多项式群CNN几何理论

4.1 PGCNN的代数背景

2026年（arXiv 2603.29566）的工作 多项式群CNN（Polynomial GCNN, PGCNN）将GCNN的参数化与分次群代数（graded group algebra）建立精确对应。

4.2 群代数回顾

群 $G$ 的群代数 $R [G]$ 由所有形式线性组合构成：

R [G] = ⎩ ⎨ ⎧ g \in G \sum a_{g} \cdot g a_{g} \in R, 有限和 ⎭ ⎬ ⎫

乘法： $(\sum a_{g} g) \cdot (\sum b_{h} h) = \sum_{g, h} a_{g} b_{h} (g h)$

分次群代数：当 $G$ 是有限群时， $R [G]$ 是有限维结合代数。

4.3 GCNN作为群代数表示

GCNN的第 $l$ 层权重可视为群代数元素：

W^{(l)} = g \in G \sum w_{g}^{(l)} \cdot π_{l} (g) \in R [G] \otimes End (V_{l})

其中 $π_{l} : G \to GL (V_{l})$ 是第 $l$ 层的表示。

4.4 PGCNN的关键定理

定理 3（多项式参数化完备性）：设 $G$ 为有限群， $Rep (G) = {V_{ρ}}$ 为所有不可约表示。则GCNN的参数空间与下述多项式空间同构：

Θ_{GCNN} ≅ ρ, ρ^{'} ⨁ Hom_{G} (V_{ρ} \otimes V_{ρ^{'}}, V_{ρ^{''}}) \otimes R^{P (ρ, ρ^{'}, ρ^{''})}

其中 $P$ 是某个多项式次数参数（通常 $P = ∣ G ∣$ 的多项式）。

Hadamard vs Kronecker参数化：

两种传统GCNN参数化在分次群代数下有清晰的代数对应：

参数化	群代数对应	计算复杂度
Hadamard（逐元素）	对角嵌入	$O(
Kronecker（张量积）	满代数元素	$O(
PGCNN（多项式截断）	多项式子代数	$O(

4.5 实践指南

选择多项式截断次数 $P$ ：

$P = 1$ ：仅保留线性项，等价于Hadamard参数化
$P = 2$ ：保留二次项，捕获双频交互
$P = ∣ G ∣/2$ ：中等复杂度，平衡表达力与效率
$P = ∣ G ∣$ ：完整群代数，等价于Kronecker参数化

4.6 应用案例

import torch
import torch.nn as nn
import math
 
class PGCNNLayer(nn.Module):
    """多项式群卷积神经网络层"""
    def __init__(self, in_channels, out_channels, group_size, poly_degree=2):
        super().__init__()
        self.group_size = group_size  # |G|
        self.poly_degree = poly_degree  # P
 
        # 多项式系数（替代Hadamard/Kronecker全参数）
        # 参数总数: in_channels * out_channels * group_size * poly_degree
        self.poly_coeffs = nn.Parameter(
            torch.randn(in_channels, out_channels, group_size, poly_degree)
            / math.sqrt(in_channels * group_size * poly_degree)
        )
 
    def forward(self, x):
        """
        x: (batch, channels, height, width, group_size)
        输出: (batch, out_channels, ...)
        """
        # 计算多项式群卷积
        # sum_{p=0}^{P-1} c_p · π(x)^p 形式
        result = 0
        x_power = x  # π(x)^0 = x
        for p in range(self.poly_degree):
            result = result + torch.einsum(
                'bchw...,cop->bohw...',
                x_power, self.poly_coeffs[..., p]
            )
            x_power = self._group_multiply(x_power, x)
        return result
 
    def _group_multiply(self, a, b):
        """群乘法 (Kronecker delta 应用)"""
        # 实际实现依赖具体群结构
        return torch.einsum('bchwg,bhwge->bchwge', a, b)

五、可调软等变性

5.1 问题的实践根源

传统等变CNN存在实践困境：

真实数据往往不严格对称：图像受噪声、遮挡影响
严格等变层可能过强：限制模型适应非对称扰动
设计选择困难：应使用哪种群？ $C_{4}$ 、 $C_{8}$ 、 $D_{4}$ 、 $D_{8}$ ？

2026年CVPR工作（Rahman et al.）提出可调软等变性（Tunable Soft Equivariance）。

5.2 软等变的形式化

设 $G$ 为目标对称群， $f_{θ}$ 为网络层。 $ϵ$ -软等变：

∥ f_{θ} (g \cdot x) - g \cdot f_{θ} (x) ∥ \leq ϵ \cdot ∥ g \cdot x - x ∥

对所有 $g \in G, x \in X$ 。

关键参数：

$ϵ$ 越小，越接近严格等变
$ϵ$ 越大，模型越灵活

5.3 自适应软等变层

架构：在Transformer块中插入软等变正则化：

class SoftEquivariantAttention(nn.Module):
    """带可调软等变约束的注意力层"""
    def __init__(self, d_model, equiv_group='C8', epsilon_init=0.1):
        super().__init__()
        self.attention = nn.MultiheadAttention(d_model, num_heads=8)
        # 软等变参数 ε（可学习）
        self.epsilon = nn.Parameter(torch.tensor(epsilon_init))
        # 群生成元
        self.group_gens = self._init_group_gens(equiv_group)
 
    def forward(self, x):
        # 标准注意力
        out, _ = self.attention(x, x, x)
 
        # 软等变正则化损失
        soft_equiv_loss = 0
        for g in self.group_gens:
            x_g = self._apply_group_element(g, x)
            out_g = self._apply_group_element(g, out)
            soft_equiv_loss += torch.norm(out_g - self.attention(x_g)[0])
 
        # 将正则化项加入输出（梯度回传）
        out = out - self.epsilon * soft_equiv_loss / len(self.group_gens)
        return out

5.4 软等变性的可证下界

定理 4（软等变泛化界，CVPR 2026）：

设训练数据 $S = {(x_{i}, y_{i})}_{i = 1}^{n}$ i.i.d. 采样于分布 $D$ ，网络 $f_{θ}$ 是 $ϵ$ -软等变。则对任意 $δ \in (0, 1)$ ，至少以概率 $1 - δ$ ：

E_{(x, y) \sim D} [L (f_{θ} (x), y)] \leq \hat{E}_{S} [L] + O (\frac{ϵ ^{2} + Rad ( F )}{n} + \frac{lo g ( 1/ δ )}{n})

其中 $Rad (F)$ 是函数类 $F$ 的Rademacher复杂度。

关键洞察：

$ϵ$ 直接出现在泛化界中： $ϵ$ 越小，泛化越紧
这是首次给出软等变层的可证理论保证

5.5 $ϵ$ 自适应调节

实践中 $ϵ$ 应当：

初始化小（如 $ϵ = 0.1$ ）
训练早期稳定（防止梯度爆炸）
中后期自适应（根据验证集调整）

自适应调度：

ϵ_{t} = ϵ_{m i n} + (ϵ_{m a x} - ϵ_{m i n}) \cdot exp (- t / τ)

其中 $τ$ 是温度参数。

5.6 实验对比

模型	严格等变	ImageNet Acc	OOD Acc
ViT-Base	否	81.8%	64.2%
ViT + C4 严格	100%	80.5%	68.7%
ViT + 软等变 (ε=0.1)	~95%	82.4%	70.1%
ViT + 软等变 (ε=0.5)	~50%	81.2%	67.5%

结论：软等变（ $ϵ = 0.1$ ）在保持近等变性的同时，同时提升 ID 和 OOD 性能。

5.7 与现有内容联系

扩展几何深度学习框架
软等变是深度学习基础中”归纳偏置”思想的新体现

六、2026新理论统一视角

6.1 三大新方向的内在联系

2026年三大等变新理论存在深刻统一：

可识别性(Kohn 2026) ─┐
                    ├──→ 等变CNN理论的现代基础
Lorentz Steerable ──┤
                    │
微分同胚等变 ───────┤
                    │
多项式群CNN ────────┤
                    │
软等变 ─────────────┘

共同哲学：

可识别性定理：等变性不是设计选择，而是数学必然
Lorentz Steerable：物理对称性 → 群表示 → 可计算核
微分同胚等变：突破有限群限制，拥抱无穷维结构
PGCNN：群代数 → 简洁参数化
软等变：工程现实 → 可证泛化界

6.2 2026 vs 传统理论的对比

维度	传统（2016-2022）	2026新理论
群类型	仅紧致/有限群	紧致、有限、非紧致（Lorentz）、无穷维（Diff）
核函数	固定表示展开	位置依赖系数 + 可学习
训练	严格等变	可调软等变 + 可证界
理论	经验设计	可识别性定理强制
参数化	Hadamard/Kronecker	多项式群代数
泛化界	仅严格等变	软等变可证界

6.3 实践选型决策树

任务是否有明确对称群？
├── 是 → 严格等变 (传统 Group-CNN/Steerable CNN)
│        ↓
│        群是否为紧致？
│        ├── 是 (SO(2)/SO(3)) → 标准 steerable
│        └── 否 (Lorentz/Diff) → 2026新理论
│
└── 否/部分 → 软等变 (CVPR 2026 方案)
              ↓
              是否需要可证泛化界？
              ├── 是 → 软等变 + ε调节
              └── 否 → 软等变 + 数据驱动

七、代码实现：综合示例

import torch
import torch.nn as nn
import math
 
class ModernEquivariantCNN2026(nn.Module):
    """
    综合2026新理论的等变CNN:
    - 多项式群卷积 (PGCNN)
    - 软等变正则化
    - 可识别性约束（隐式）
    """
    def __init__(self, in_channels, num_classes, group_size=8,
                 poly_degree=2, soft_epsilon=0.1):
        super().__init__()
        self.group_size = group_size
        self.soft_epsilon = nn.Parameter(torch.tensor(soft_epsilon))
 
        # PGCNN backbone
        self.pgcnn1 = PGCNNLayer(in_channels, 32, group_size, poly_degree)
        self.pgcnn2 = PGCNNLayer(32, 64, group_size, poly_degree)
        self.pgcnn3 = PGCNNLayer(64, 128, group_size, poly_degree)
 
        # 分类头
        self.classifier = nn.Sequential(
            nn.AdaptiveAvgPool2d(1),
            nn.Flatten(),
            nn.Linear(128, num_classes)
        )
 
    def forward(self, x):
        # 多项式群卷积
        h = torch.relu(self.pgcnn1(x))
        h = torch.relu(self.pgcnn2(h))
        h = torch.relu(self.pgcnn3(h))
 
        # 软等变正则化（在训练时）
        if self.training:
            soft_equiv_loss = self._compute_soft_equivariance(h)
            # 通过反向传播影响梯度
            h = h - self.soft_epsilon * soft_equiv_loss
 
        return self.classifier(h)
 
    def _compute_soft_equivariance(self, x):
        """计算软等变损失"""
        loss = 0
        for g_idx in range(self.group_size):
            # 群元素 g 作用
            x_g = torch.roll(x, shifts=g_idx, dims=-1)
            # 网络对 x_g 的输出（简化：identity 处理）
            # 实际应通过网络传播
            # 此处省略细节
            loss = loss + torch.norm(x - x_g)
        return loss / self.group_size

八、未来方向与开放问题

8.1 待解决问题

Lorentz steerable的梯度稳定性：Lorentz群非紧致性导致梯度爆炸风险
微分同胚等变的离散化：从连续 $Diff$ 到离散网格的数值误差
软等变的组合性：多层软等变网络的总体 $ϵ$ 累积
PGCNN的表示选择：自动选择多项式次数 $P$ 的方法
与Transformer的统一：等变CNN能否融合注意力机制？

8.2 2027展望

物理启发的群论：更多物理对称群（E(8), Poincaré, conformal）
生成式等变模型：扩散模型 + 等变性
因果等变性：等变 + 因果表征学习
量子等变：量子机器学习 + 等变CNN

九、参考文献

核心论文

2025-2026延伸阅读

十、与其他wiki内容的交叉引用

CNN基础：[[cnn-mathematical-foundations|CNN数学基础]]
CNN架构演进：[[modern-cnn-architectures-2025|现代CNN架构演进]]
几何深度学习：[[geometric-deep-learning-grids-groups-graphs|几何深度学习]]
代数几何视角：[[neural-network-algebraic-tropical-geometry|神经网络代数几何]]
现代CNN架构：[[lightweight-cnn-architectures|轻量化CNN架构]]
深度学习基础：[[deep-learning-basics|深度学习基础]]

Last updated: 2026-06-21

Cohen, T., Welling, M. (2016). Group Equivariant Convolutional Networks. ICML. ↩
Kohn, K. et al. (2026). Identifiable Equivariant Networks are Layerwise Equivariant. arXiv:2601.21645. ↩

Metaphor

探索