免训练神经架构搜索与零成本代理

概述

传统神经架构搜索（NAS）需要训练大量候选网络，计算成本高达数百GPU天。免训练NAS（Training-Free NAS）通过设计零成本代理（Zero-Cost Proxy, ZCP）来预测网络性能，无需实际训练即可评估架构质量，大大降低了NAS的计算开销。¹

零成本代理基础理论

问题背景

NAS的核心挑战在于评估候选架构的性能。完整训练每个候选架构的代价极高：

方法	训练需求	评估时间	准确性
全训练	✓	数百小时	100%
One-Shot	✓	1-2天	85-95%
代理预测	部分	分钟级	88-93%
零成本代理	✗	秒级	70-85%

零成本代理在网络初始化状态即可预测其最终性能，无需任何训练过程。

代理指标分类

1. 基于参数量的指标

最简单的代理是网络参数量（#Params）或FLOPs：

优点：计算简单、完全免费
缺点：与性能相关性有限，尤其在高效网络设计中

2. 基于梯度的方法

ZiCo（Zero-shot via Inverse Coefficient of Variation）²是首个系统性优于#Params的零成本代理：

核心指标定义：

\textZiCo = \frac{1}{L} l = 1 \sum L \frac{μ _{l}}{σ _{l}}

其中 $μ_{l}$ 和 $σ_{l}$ 是第 $l$ 层梯度的均值和标准差。

理论依据：梯度变异系数与网络收敛速度、泛化能力密切相关。

3. 基于神经网络的方法

利用小网络预测大网络性能：

NTK-based：利用神经切向核的谱性质
GNN-based：将架构编码为图，使用GNN预测

2025年最新进展

WRCor：加权响应相关性

Weighted Response Correlation (WRCor)³提出使用响应相关性矩阵作为代理指标：

核心思想

对同一批输入样本，计算网络响应的相关系数矩阵：

R_{ij} = corr (f_{i} (x), f_{j} (x))

其中 $f_{i}, f_{j}$ 是网络不同层的输出。

加权策略

引入样本权重和层级权重：

WRCor = k \sum w_{k} \cdot ρ (R^{(k)})

其中 $ρ$ 是矩阵的谱性质度量。

优势

捕捉网络的表达能力和泛化能力
响应矩阵比单层统计量更丰富
实验表明在ImageNet上4 GPU小时达到22.1%误差

TG-NAS：通用零成本代理

TG-NAS⁴结合Transformer和GCN设计通用代理：

架构设计

┌──────────────────┐     ┌──────────────────┐
│ 算子描述嵌入器   │ --> │  GCN架构编码     │
│ (Transformer)   │     │                  │
└──────────────────┘     └──────────────────┘
         │                        │
         ▼                        ▼
    操作语义理解              图结构关系
         │                        │
         └──────────┬─────────────┘
                    ▼
            性能预测分数

关键创新

算子描述嵌入：将操作（如Conv3x3、MaxPool）的描述文本编码
跨空间泛化：无需针对特定搜索空间重新训练
零样本迁移：可直接应用于新搜索空间

实验结果

NAS-Bench-201: 93.75% CIFAR-10准确率
DARTS空间: 74.9% ImageNet top-1准确率

ParZC：参数化零成本代理

Parametric Zero-Cost Proxies (ParZC)⁵解决ZCP中节点不等权问题：

观察发现

不同层的零成本统计量对最终性能预测的贡献差异显著：

s_{l} = f (z_{l}; θ_{l})

其中 $z_{l}$ 是第 $l$ 层的统计量， $θ_{l}$ 是该层的可学习权重。

Mixer+贝叶斯网络架构

┌─────────────┐     ┌─────────────┐     ┌─────────────┐
│  节点级统计  │ --> │ Token Mixer │ --> │  预测输出   │
└─────────────┘     └─────────────┘     └─────────────┘
                           ↑
                    ┌─────────────┐
                    │ 贝叶斯网络  │
                    │ (不确定性)  │
                    └─────────────┘

DiffKendall损失函数

改进排名一致性：

L_{DiffKendall} = i, j \sum w_{ij} \cdot 1 [rank (s_{i}) \neq = rank (s_{j})]

RBFleX-NAS：RBF核方法

RBFleX-NAS⁶使用径向基函数核处理激活输出：

核心思想

将激活输出映射到高维空间，计算样本间的相似度：

K (a_{i}, a_{j}) = exp (- \frac{∥ a _{i} - a _{j} ∥ ^{2}}{2 σ ^{2}})

超参数检测算法

自动确定RBF核的最优带宽 $σ$ ：

σ^{*} = ar g σ max i, j \sum K_{σ} (a_{i}, a_{j})

NAFBee激活函数搜索空间

扩展搜索空间包含多种激活函数：

ReLU, LeakyReLU, GELU, SiLU, ELU, Tanh, Sigmoid…

NEAR：激活秩表达力

Network Expressivity by Activation Rank (NEAR)⁷基于有效秩：

NEAR = \frac{1}{L} l = 1 \sum L \overset{r}{^} (A_{l})

其中 $\overset{r}{^} (A_{l}) = \frac{e x p ( H ( p ))}{n}$ 是矩阵的有效秩， $H$ 是熵， $p$ 是奇异值归一化分布。

Top-Rank Gap问题

问题定义

现有研究表明⁸：虽然ZCP在整个搜索空间上与性能相关性高，但在top架构子集上相关性急剧下降。

数学描述：

ρ_{full} ≫ ρ_{top-k}

其中 $ρ_{top-k}$ 是前k%架构的相关性。

原因分析

1. 嵌入先验

搜索空间特定的归纳偏置
数据集相关假设
导致跨任务泛化差

2. 统计聚合

节点级统计量的简单平均/求和
忽略了节点间的协同作用
信息损失

3. 初始化敏感性

随机种子对梯度统计的影响
权重初始化分布差异
批量大小的影响

实践指南

搜索空间选择

搜索空间	适用代理	备注
NAS-Bench-201	ZiCo, NTK	小规模，快速验证
DARTS	WRCor, TG-NAS	中等规模
NDS	TG-NAS	大规模，泛化性重要

代理组合策略

投票机制：多个ZCP的排名投票
加权组合：基于验证集调整权重
两阶段筛选：先用高效代理粗筛，再用精确代理精筛

实验建议

# 示例：ZCP评估流程
import numpy as np
 
def evaluate_zcp(architectures, proxy_func):
    """评估多个架构的零成本代理分数"""
    scores = []
    for arch in architectures:
        # 初始化网络
        model = build_model(arch)
        
        # 计算代理分数（无需训练）
        score = proxy_func(model)
        scores.append(score)
    
    # 排序并返回top-k
    rankings = np.argsort(scores)[::-1]
    return rankings[:top_k]

参考文献

Mellor et al., “Neural Architecture Search without Training” (ICML 2021) ↩
Li et al., “ZiCo: Zero-shot NAS via Inverse Coefficient of Variation” (ICML 2023) ↩
arXiv:2507.08841, “WRCor: Weighted Response Correlation for Zero-Shot NAS” (Neurocomputing 2025) ↩
arXiv:2404.00271, “TG-NAS: Generalizable Zero-Cost Proxies with Operator Description Embedding” (2024) ↩
AAAI 2025, “ParZC: Parametric Zero-Cost Proxies for Efficient NAS” ↩
arXiv:2503.22733, “RBFleX-NAS: Training-Free NAS Using Radial Basis Function Kernel” (ICCV 2025) ↩
arXiv:2408.08776, “NEAR: A Training-Free Pre-estimator of Machine Learning Model Performance” ↩
ICLR 2025, “NAS-Bench-Suite-Zero: Analyzing Top-Rank Gap in Zero-Cost Proxies” ↩

Metaphor

探索

免训练神经架构搜索与零成本代理

免训练神经架构搜索与零成本代理

概述

零成本代理基础理论

问题背景

代理指标分类

1. 基于参数量的指标

2. 基于梯度的方法

3. 基于神经网络的方法

2025年最新进展

WRCor：加权响应相关性

核心思想

加权策略

优势

TG-NAS：通用零成本代理

架构设计

关键创新

实验结果

ParZC：参数化零成本代理

观察发现

Mixer+贝叶斯网络架构

DiffKendall损失函数

RBFleX-NAS：RBF核方法

核心思想

超参数检测算法

NAFBee激活函数搜索空间

NEAR：激活秩表达力

Top-Rank Gap问题

问题定义

原因分析

1. 嵌入先验

2. 统计聚合

3. 初始化敏感性

实践指南

搜索空间选择

代理组合策略

实验建议

相关内容

参考文献

Footnotes

关系图谱

目录

反向链接