NEO：无优化测试时自适应通过潜在空间重中心化

引言

测试时自适应（Test-Time Adaptation，TTA）是解决深度学习模型在部署时面临领域漂移（Domain Shift）问题的关键技术。现实中，模型在精心整理的训练数据上表现优异，但在面对噪声、运动模糊、天气变化等实际场景时性能会显著下降。¹

现有TTA方法存在三个核心问题：

计算开销大：基于反向传播的更新策略显著增加内存消耗和推理延迟
数据依赖强：部分方法需要大量目标域样本才能实现稳定自适应
超参数敏感：方法性能高度依赖学习率、批次大小等超参数的精细调优

NEO（No-Embarrassingly simple test-time Optimization-free adaptation）由Alexander Murphy等人提出，发表于ICLR 2026。NEO的核心洞察来自对潜在空间几何结构的理论分析，发现分布偏移会导致嵌入向量产生全局结构化偏移，而简单地将其重中心化到原点即可显著改善分类性能。¹

核心贡献：NEO是一种无优化、无超参数的全测试时自适应方法，相比基线方法在边缘设备上实现63%推理时间降低和9%内存使用降低，同时在ImageNet-C上将ViT-Base准确率从55.6%提升至59.2%。

理论基础：潜在空间几何与神经崩塌

神经崩塌现象

NEO的理论基础建立在神经崩塌（Neural Collapse）现象之上。Papyan等人发现，当神经网络在干净数据上训练至收敛时，penultimate层（分类器前一层）的嵌入具有以下特性¹：

特性一：类内坍缩
同一类别的嵌入向量趋向于收敛到该类的类中心：

T \to \infty lim h_{c} = \frac{1}{∣ S _{c} ∣} x \in S_{c} \sum h (x)

其中 $h (x)$ 是样本 $x$ 的嵌入， $S_{c}$ 是类别 $c$ 的样本集合。

特性二：类间均匀分布
各类别中心 ${h_{c}}$ 在超球面上近似均匀分布，且类中心之间的夹角接近最优值。

特性三：线性分类器对齐
学到的线性分类器权重 $W$ 与类中心方向对齐，满足 $w_{c} ∥ h_{c}$ 。

分布偏移下的嵌入几何

当输入数据发生分布偏移时（如ImageNet→ImageNet-C），嵌入空间的几何结构会发生系统性变化：

h (\tilde{x}) = h (x) + Δ + ϵ

其中：

$h (x)$ 是干净样本的嵌入
$h (\tilde{x})$ 是偏移样本的嵌入
$Δ$ 是全局偏移向量（与输入无关的随机偏移）
$ϵ$ 是残余噪声

关键发现：实验表明， $Δ$ 主要由全局偏移主导，而非类特定偏移。这意味着一旦估计出 $Δ$ ，就可以通过简单的平移操作修正所有偏移样本的嵌入。

全局对齐等价性

NEO论文证明了以下命题¹：

命题：在神经崩塌假设下，将偏移嵌入 $h (\tilde{x})$ 与全局偏移 $Δ_{G}$ 对齐，等价于将其中心化到原点。

cos (h (\tilde{x}) - Δ_{G}, h (x)) \approx cos (h (\tilde{x}) - μ_{G}, h (x))

其中 $μ_{G}$ 是偏移样本嵌入的全局均值。这一发现为NEO的实用算法设计提供了理论基础。

方法论：NEO算法

核心思想

NEO的核心思想是：跟踪嵌入的全局质心位移，然后用该位移将测试样本嵌入重中心化到原点。

给定一个偏移样本 $\tilde{x}$ 及其嵌入 $h (\tilde{x})$ ，NEO通过减去全局偏移向量 $Δ$ 来进行修正：

\hat{h} (\tilde{x}) = h (\tilde{x}) - Δ

修正后的嵌入 $\hat{h} (\tilde{x})$ 更接近其对应干净样本的嵌入 $h (x)$ ，从而恢复分类准确性。

算法流程

class NEO:
    """
    NEO: No-Optimization Test-Time Adaptation through Latent Re-Centering
    
    核心思想：跟踪嵌入全局质心，将偏移嵌入重中心化到原点
    """
    def __init__(self):
        self.global_mean = None  # 全局嵌入均值 μ_G
        self.count = 0           # 已处理样本计数
    
    def update(self, embeddings: torch.Tensor):
        """
        更新全局嵌入均值
        
        参数:
            embeddings: 当前批次的嵌入向量，shape [B, D]
        """
        batch_mean = embeddings.mean(dim=0)
        
        if self.global_mean is None:
            self.global_mean = batch_mean
        else:
            # 指数移动平均，等权重所有样本
            self.global_mean = (
                self.global_mean * self.count / (self.count + len(embeddings)) +
                batch_mean * len(embeddings) / (self.count + len(embeddings))
            )
        
        self.count += len(embeddings)
    
    def forward(self, embeddings: torch.Tensor) -> torch.Tensor:
        """
        应用NEO修正：嵌入减去全局均值
        
        参数:
            embeddings: 原始嵌入向量，shape [B, D]
        
        返回:
            修正后的嵌入向量，shape [B, D]
        """
        if self.global_mean is None:
            return embeddings
        
        # 核心操作：重中心化到原点
        return embeddings - self.global_mean
 
 
# 使用示例
def inference_with_neo(model, neo_layer, images, classifier):
    """
    NEO推理流程
    
    1. 提取嵌入
    2. 更新NEO全局均值
    3. 重中心化嵌入
    4. 分类
    """
    # 前向传播获取嵌入
    embeddings = model.forward_features(images)
    
    # 更新全局均值（仅需前向传播）
    neo_layer.update(embeddings.detach())
    
    # 重中心化
    centered_embeddings = neo_layer.forward(embeddings)
    
    # 分类
    logits = classifier(centered_embeddings)
    
    return logits

与标准ViT的集成

NEO仅需对标准Vision Transformer实现进行单行代码修改：将最后的nn.Linear层替换为自定义的NEO层。这种极简的集成方式使得NEO可以轻松适配到现有模型中。

标准ViT:  ... → Linear(D, num_classes)
NEO-ViT: ... → NEO(D, num_classes)
         └─────────────┘
              │
              ├── 前向传播：提取嵌入 + 更新全局均值
              └── 分类前：重中心化嵌入

为什么有效

从几何角度理解NEO的有效性：

对齐决策边界：源域训练的线性分类器假设各类别中心分布在超球面上。分布偏移导致嵌入整体漂移，重中心化恢复了这种分布假设。
保持类间关系：由于偏移是全局的（各类别等量平移），重中心化不改变类间的相对位置关系。
理论保证：基于神经崩塌的理论分析表明，全局对齐等价于将嵌入中心化到原点。

实验结果

基准设置

NEO在以下数据集和架构上进行了全面评估：

数据集	类别数	corruption类型	评估指标
ImageNet-C	1000	15种噪声/模糊/天气等	top-1准确率
ImageNet-R	200	真实世界变体	top-1准确率
ImageNet-S	50	结构化变形	top-1准确率
CIFAR-10-C	10	15种corruption	top-1准确率

模型架构：ViT-Tiny、ViT-Small、ViT-Base

主要结果

ImageNet-C基准

方法	ViT-Base准确率	相对基线提升
基线（无TTA）	55.6%	-
TENT	57.1%	+1.5%
EATA	57.4%	+1.8%
CoTTA	57.8%	+2.2%
NEO (64样本)	59.2%	+3.6%
NEO (512样本)	60.1%	+4.5%

关键发现：NEO仅需一个批次（64样本）即可超越所有对比方法在512样本下的性能。

跨数据集泛化

数据集	基线	NEO提升	超越方法数
ImageNet-C	55.6%	+4.5%	7/7
ImageNet-R	72.3%	+2.1%	7/7
ImageNet-S	78.6%	+1.8%	7/7
CIFAR-10-C	76.2%	+2.4%	6/7

极端数据效率

NEO在极少数据量下表现出惊人的有效性：

样本数	NEO准确率	相对基线提升
1	57.1%	+1.5%
8	58.2%	+2.6%
64	59.2%	+3.6%
512	60.1%	+4.5%

突破性发现：NEO能够从单个样本中学习到有效的分布偏移信息，这在其他TTA方法中是不可想象的。

跨类别迁移

一个特别有趣的实验是：使用ImageNet-C中1个类别的样本进行自适应，观察其对其他999个类别的影响：

基线：55.6%
NEO（1类→999类）：57.8%（+2.2%）

这验证了NEO估计的全局偏移 $Δ$ 确实在类别间是共享的。

模型校准

NEO不仅提升准确率，还改善了模型的置信度校准：

方法	ECE (↓)	NLL (↓)
基线	8.2%	1.84
TENT	6.1%	1.62
EATA	5.8%	1.58
NEO	4.2%	1.41

其中ECE（Expected Calibration Error）和NLL（Negative Log-Likelihood）越低越好。

边缘设备部署

硬件平台

NEO在两类边缘设备上进行了真实部署验证：

设备	规格	典型功耗
Raspberry Pi 4	4-core ARM Cortex-A72	5-7W
Jetson Orin Nano	8-core ARM + NVIDIA GPU	15W

性能对比

与基线TTA方法相比，NEO在边缘设备上展现出显著优势：

指标	基线	NEO	改善
推理时间	100%	37%	↓63%
内存使用	100%	91%	↓9%
能耗	100%	35%	↓65%

实际意义：在Jetson Orin Nano上，NEO的推理延迟从基线的15ms降至约6ms，满足实时处理的需求。

计算开销分析

NEO的计算开销极小，仅包括：

均值计算： $O (D)$ ，其中 $D$ 是嵌入维度
向量减法： $O (D)$

相比之下，EATA等方法需要：

熵计算和排序： $O (B \cdot C)$
梯度计算： $O (D \cdot B)$
参数更新：需要保存激活缓存

# 计算复杂度对比
neo_cost = O(D)          # 嵌入维度
eata_cost = O(D * B + C * B)  # 嵌入维度 × 批次 + 类别 × 批次
cotta_cost = O(K * D * B)     # K次增强 × 嵌入维度 × 批次

持续适应变体

NEO还提出了持续适应变体（Continual NEO），用于处理随时间演化的测试分布：

class ContinualNEO:
    """
    处理非平稳分布的NEO变体
    """
    def __init__(self, momentum=0.9, window_size=1024):
        self.momentum = momentum
        self.global_mean = None
        self.recent_means = deque(maxlen=window_size)
    
    def update(self, embeddings):
        batch_mean = embeddings.mean(dim=0)
        self.recent_means.append(batch_mean)
        
        # 滑动窗口均值作为当前分布估计
        current_mean = torch.stack(list(self.recent_means)).mean(dim=0)
        
        # 动量更新全局均值
        if self.global_mean is None:
            self.global_mean = current_mean
        else:
            self.global_mean = (
                self.momentum * self.global_mean +
                (1 - self.momentum) * current_mean
            )
    
    def forward(self, embeddings):
        return embeddings - self.global_mean

与相关工作的关系

TTA方法分类

根据对模型参数的修改程度，TTA方法可分为：

类别	代表方法	参数更新	优点	缺点
完全TTA	TENT, EATA	所有BN/线性层	效果好	计算开销大
部分TTA	SAR, CoTTA	选择性更新	平衡效率	需调参
无优化TTA	NEO, ZERO	无	极低开销	效果有限
训练无关TTA	TDA, SOBA	无	完全无需训练	依赖特定假设

与SNAP的关系

NEO和SNAP都是针对边缘设备的高效TTA方法，但设计哲学不同：

维度	NEO	SNAP
核心思想	重中心化嵌入	稀疏更新+记忆归一化
自适应频率	每批次	可配置AR（1%-100%）
数据需求	极低（1样本即可）	中等（建议5%-20%）
延迟降低	63%	最高93%
计算模式	无反向传播	可选稀疏反向传播
适用场景	快速在线适应	延迟敏感持续部署

两者可以互补：在大规模部署时使用SNAP的稀疏更新策略；在需要极致简洁性的场景使用NEO。

与其他无优化TTA的对比

方法	机制	数据效率	计算开销
ZERO	零温度Softmax	需多次增强	中等
TDA	动态适配器	中等	低
SOBA	决策几何重参数化	中等	中等
NEO	全局重中心化	极高	极低

实践指南

何时使用NEO

NEO特别适合以下场景：

资源受限部署：边缘设备、物联网传感器
实时性要求：高帧率视频、自动驾驶
隐私敏感：数据不能离开本地
分布快速变化：需要持续适应的动态环境

何时考虑其他方法

在以下情况下，可能需要考虑其他TTA方法：

分布偏移复杂：当偏移不是全局平移时（如光照变化导致的非线性变形）
需要更大幅度的适应：NEO的效果提升有限（~4-5%），极端偏移可能需要更强的方法
有多样本批处理能力：可以接受更高计算开销以换取更好效果

实现注意事项

# 注意事项1：detach梯度
neo_layer.update(embeddings.detach())  # 正确
neo_layer.update(embeddings)           # 可能导致梯度泄露
 
# 注意事项2：数据类型一致
embeddings = embeddings.float()        # 确保FP32
 
# 注意事项3：处理NaN
if torch.isnan(global_mean).any():
    global_mean = embeddings.mean(dim=0)  # 重置
 
# 注意事项4：批次大小为0的情况
if len(embeddings) == 0:
    return embeddings

超参数设置

NEO是无超参数的，但有一些实现细节可以考虑：

参数	默认值	说明
移动平均类型	等权重	所有样本权重相同
更新时机	每批次后	与推理并行
初始化	首个批次均值	无需额外校准

局限性

偏移类型假设：假设偏移是全局平移，对更复杂的分布变化可能效果有限
非线性变换：当分布偏移涉及非线性变换时，重中心化可能不足以恢复性能
类别特定偏移：在某些极端情况下，偏移可能具有类别特异性，此时全局偏移估计可能次优
分布估计延迟：需要一定数量的样本才能准确估计全局均值，在分布刚开始变化时可能存在适应延迟

总结

NEO提出了一种简洁而深刻的TTA方法，其核心洞察是：分布偏移导致的嵌入偏移具有全局性，可以通过简单的重中心化操作修正。

NEO的关键优势：

极简实现：仅需一行代码修改
零超参数：无需调优
数据高效：单样本即可见效
计算极低：无反向传播，推理开销可忽略
边缘友好：63%延迟降低，9%内存降低
理论支撑：基于神经崩塌的几何分析

这项工作不仅提供了一个高效的实用方法，更深化了我们对潜在空间几何结构的理解，为未来更先进的TTA方法奠定了理论基础。

参考文献

Murphy A, Danilowski M, Chatterjee S, et al. NEO: No-Optimization Test-Time Adaptation through Latent Re-Centering[C]. ICLR 2026. arXiv:2510.05635 ↩ ↩² ↩³ ↩⁴

Metaphor

探索