NAS零成本代理Top-Rank Gap与相关性基准

概述

零成本代理（Zero-Cost Proxy, ZCP）使得无需训练即可预测神经网络架构性能，大大加速了神经架构搜索（NAS）。然而，Top-Rank Gap问题揭示了现有ZCP的一个关键缺陷：在整个搜索空间上相关性高，但在最优架构子集上相关性急剧下降。¹

Top-Rank Gap问题详解

问题定义

现象描述：当使用零成本代理对搜索空间中所有架构进行排序时，Spearman/Kendall相关性可能表现良好；但当我们只关注排名靠前（比如前10%）的架构时，相关性显著下降。

ρ_{full} ≫ ρ_{top-10%} \approx ρ_{top-1%}

数学形式化

设搜索空间 $A$ ，真实性能函数 $f : A \to R$ ，代理评分函数 $s : A \to R$ 。

全局相关性：

ρ_{full} = Spearman (f (A), s (A))

Top-k相关性：

ρ_{top-k} = Spearman (f (A_{top-k}), s (A_{top-k}))

其中 $A_{top-k} = {a \in A : rank_{f} (a) \leq k \cdot ∣ A ∣}$

实证观察

在NAS-Bench-Suite-Zero上¹：

代理方法	全局相关性	Top-10%相关性	Top-1%相关性
Params	0.45	0.12	0.05
NTK	0.68	0.31	0.08
Zen	0.72	0.35	0.10
GradNorm	0.65	0.28	0.09

观察结论：所有方法都存在严重的Top-Rank Gap，尤其在Top-1%子集上几乎失去判别能力。

原因分析

1. 嵌入先验问题

搜索空间特异性

每个ZCP都隐含了对搜索空间的假设：

s (a) = g (ϕ (a); θ_{space})

其中 $ϕ$ 是架构编码， $θ_{space}$ 是针对特定搜索空间学习的参数。

问题：当搜索空间改变时，这些先验可能失效。

数据集偏差

某些代理对特定数据集表现更好：

数据集	最优代理	原因分析
CIFAR-10	Zen	小图像，网络深度更重要
ImageNet	NTK	大图像，表达力更关键
Penn-Fudan	GradNorm	分割任务，梯度流更相关

2. 统计聚合问题

节点级统计的不等权性

现有方法通常将各层统计量简单聚合：

s (a) = \frac{1}{L} l = 1 \sum L z_{l}

但不同层对最终性能的贡献差异显著。

示例：ResNet中跳跃连接的贡献可能远大于某些中间层。

信息损失

从完整的激活/梯度矩阵降维到标量统计量：

H^{(l)} \in R^{B \times N_{l} \times C_{l}} 降维 z_{l} \in R

这一过程丢失了大量结构信息。

3. 初始化敏感性

随机种子影响

权重初始化对梯度统计的影响：

W_{0}^{(l)} \sim N (0, σ^{2})

不同种子导致不同的梯度轨迹，影响代理分数的稳定性。

批量大小效应

批量归一化/同步批归一化的差异：

批量大小	BN统计稳定性	梯度方差	对ZCP影响
32	低	高	噪声增加
256	高	低	估计更稳定
1024	高	极低	可能过平滑

NAS-Bench-Suite-Zero基准

基准设计

NAS-Bench-Suite-Zero¹是首个系统性评估Top-Rank Gap的基准：

搜索空间覆盖

搜索空间	架构数量	主要特点
NAS-Bench-201	15,625	固定DAG，4节点
DARTS	~10^18	可微分搜索空间
NDS	~10^5	包含量化网络

任务多样性

图像分类：CIFAR-10/100、ImageNet
图像分割：Penn-Fudan
目标检测：COCO

评估指标

相关性指标
- Spearman相关系数
- Kendall相关系数
- Pearson相关系数
Top-K准确率
- Top-10准确率：代理选出的top 10%中包含真实top 10%的比例
- Top-1准确率：代理最优选择是否为真实最优
搜索效率
- GPU小时数
- 评估次数

ParaDis：自适应参数分布方法

核心思想

Parameter Distribution-based Search (ParaDis)²利用自适应参数分布作为判别指标：

创新点

与ZCP正交：ParaDis可以与任意ZCP组合
数据无关：不依赖特定搜索空间假设
参数分布统计：捕捉权重分布的全局特征

方法详解

参数分布建模

对于网络权重 $W^{(l)}$ ，计算分布统计：

μ_{l} = mean (W^{(l)}), σ_{l} = std (W^{(l)})

γ_{l} = \frac{1}{N} i = 1 \sum N ∣ W_{i}^{(l)} - μ_{l} ∣^{3} / σ_{l}^{3}

其中 $γ_{l}$ 是偏度（skewness）。

多目标选择策略

在进化搜索框架中，同时优化：

a max α \cdot s (a) + β \cdot c (a)

其中 $s (\cdot)$ 是ZCP分数， $c (\cdot)$ 是紧凑性指标（参数分布的判别性）。

算法流程

输入: 搜索空间 A, ZCP函数 s, 初始种群 P
输出: 最优架构 a*

1. 初始化种群 P_0
2. for generation in [1, G]:
3.     # 计算代理分数
4.     scores = [s(a) for a in P]
5.     
6.     # 计算参数分布分数
7.     params = [c(a) for a in P]
8.     
9.     # 多目标排序
10.    combined = α * norm(scores) + β * norm(params)
11.    
12.    # 选择与交叉
13.    parents = select_top_k(P, combined, k)
14.    offspring = crossover(parents)
15.    
16.    # 变异
17.    P = mutate(offspring)
18.    
19. return best(P)

实验结果

Top-Rank改善

方法	Top-10%精度	Top-1%精度	提升
单独ZCP	32.5%	4.2%	-
ParaDis (ZCP+PD)	48.3%	9.7%	+15.8%
Top-Rank Gap缩小	60%	130%	-

跨任务泛化

任务	ParaDis	单独ZCP	提升
CIFAR-10	94.2%	93.1%	+1.1%
ImageNet	75.8%	74.3%	+1.5%
分割	68.4%	66.7%	+1.7%

其他改进方向

ParZC：参数化零成本代理

详见：ParZC详解

ParZC通过学习节点级权重来解决不等权问题：

\overset{s}{^} = l \sum w_{l} \cdot z_{l}

其中 $w_{l}$ 是可学习的节点权重。

组合策略

投票集成

s_{ensemble} (a) = i = 1 \sum K rank_{i} (a)^{- 1}

其中 $rank_{i} (a)$ 是第 $i$ 个ZCP给出的排名。

元学习组合

训练一个元模型组合多个ZCP：

s_{meta} = MLP ([s_{1}, s_{2}, \dots, s_{K}])

实践建议

如何选择ZCP

小搜索空间（<10K）：可尝试所有ZCP，选择相关性最高
中等搜索空间：TG-NAS（跨空间泛化好）
大规模搜索：WRCor + ParaDis组合

避免Top-Rank Gap陷阱

策略	说明
多ZCP验证	使用多个代理确认top架构一致性
子集验证	只信任在top子集上也相关的代理
快速微调	对候选top架构进行短期微调验证

常见错误

❌ 只关注全局相关性：高全局相关不等于好top-rank性能

✓ 关注Top-k准确率：实际任务中需要的是选到好架构

参考文献

ICLR 2025, “NAS-Bench-Suite-Zero: Analyzing Top-Rank Gap in Zero-Cost Proxies for Neural Architecture Search” ↩ ↩² ↩³
ICLR 2025, “ParaDis: Reducing Top-Rank Gap via Parameter Distribution” (基于ParaDis方法的自适应参数分布搜索) ↩

Metaphor

探索

NAS零成本代理Top-Rank Gap与相关性基准

NAS零成本代理Top-Rank Gap与相关性基准

概述

Top-Rank Gap问题详解

问题定义

数学形式化

实证观察

原因分析

1. 嵌入先验问题

搜索空间特异性

数据集偏差

2. 统计聚合问题

节点级统计的不等权性

信息损失

3. 初始化敏感性

随机种子影响

批量大小效应

NAS-Bench-Suite-Zero基准

基准设计

搜索空间覆盖

任务多样性

评估指标

ParaDis：自适应参数分布方法

核心思想

创新点

方法详解

参数分布建模

多目标选择策略

算法流程

实验结果

Top-Rank改善

跨任务泛化

其他改进方向

ParZC：参数化零成本代理

组合策略

投票集成

元学习组合

实践建议

如何选择ZCP

避免Top-Rank Gap陷阱

常见错误

相关内容

参考文献

Footnotes

关系图谱

目录