NAS零成本代理Top-Rank Gap与相关性基准

概述

零成本代理(Zero-Cost Proxy, ZCP)使得无需训练即可预测神经网络架构性能,大大加速了神经架构搜索(NAS)。然而,Top-Rank Gap问题揭示了现有ZCP的一个关键缺陷:在整个搜索空间上相关性高,但在最优架构子集上相关性急剧下降。1


Top-Rank Gap问题详解

问题定义

现象描述:当使用零成本代理对搜索空间中所有架构进行排序时,Spearman/Kendall相关性可能表现良好;但当我们只关注排名靠前(比如前10%)的架构时,相关性显著下降。

数学形式化

设搜索空间 ,真实性能函数 ,代理评分函数

全局相关性

Top-k相关性

其中

实证观察

在NAS-Bench-Suite-Zero上1

代理方法全局相关性Top-10%相关性Top-1%相关性
Params0.450.120.05
NTK0.680.310.08
Zen0.720.350.10
GradNorm0.650.280.09

观察结论:所有方法都存在严重的Top-Rank Gap,尤其在Top-1%子集上几乎失去判别能力。


原因分析

1. 嵌入先验问题

搜索空间特异性

每个ZCP都隐含了对搜索空间的假设:

其中 是架构编码, 是针对特定搜索空间学习的参数。

问题:当搜索空间改变时,这些先验可能失效。

数据集偏差

某些代理对特定数据集表现更好:

数据集最优代理原因分析
CIFAR-10Zen小图像,网络深度更重要
ImageNetNTK大图像,表达力更关键
Penn-FudanGradNorm分割任务,梯度流更相关

2. 统计聚合问题

节点级统计的不等权性

现有方法通常将各层统计量简单聚合:

但不同层对最终性能的贡献差异显著。

示例:ResNet中跳跃连接的贡献可能远大于某些中间层。

信息损失

从完整的激活/梯度矩阵降维到标量统计量:

这一过程丢失了大量结构信息。

3. 初始化敏感性

随机种子影响

权重初始化对梯度统计的影响:

不同种子导致不同的梯度轨迹,影响代理分数的稳定性。

批量大小效应

批量归一化/同步批归一化的差异:

批量大小BN统计稳定性梯度方差对ZCP影响
32噪声增加
256估计更稳定
1024极低可能过平滑

NAS-Bench-Suite-Zero基准

基准设计

NAS-Bench-Suite-Zero1是首个系统性评估Top-Rank Gap的基准:

搜索空间覆盖

搜索空间架构数量主要特点
NAS-Bench-20115,625固定DAG,4节点
DARTS~10^18可微分搜索空间
NDS~10^5包含量化网络

任务多样性

  • 图像分类:CIFAR-10/100、ImageNet
  • 图像分割:Penn-Fudan
  • 目标检测:COCO

评估指标

  1. 相关性指标

    • Spearman相关系数
    • Kendall相关系数
    • Pearson相关系数
  2. Top-K准确率

    • Top-10准确率:代理选出的top 10%中包含真实top 10%的比例
    • Top-1准确率:代理最优选择是否为真实最优
  3. 搜索效率

    • GPU小时数
    • 评估次数

ParaDis:自适应参数分布方法

核心思想

Parameter Distribution-based Search (ParaDis)2利用自适应参数分布作为判别指标:

创新点

  1. 与ZCP正交:ParaDis可以与任意ZCP组合
  2. 数据无关:不依赖特定搜索空间假设
  3. 参数分布统计:捕捉权重分布的全局特征

方法详解

参数分布建模

对于网络权重 ,计算分布统计:

其中 是偏度(skewness)。

多目标选择策略

在进化搜索框架中,同时优化:

其中 是ZCP分数, 是紧凑性指标(参数分布的判别性)。

算法流程

输入: 搜索空间 A, ZCP函数 s, 初始种群 P
输出: 最优架构 a*

1. 初始化种群 P_0
2. for generation in [1, G]:
3.     # 计算代理分数
4.     scores = [s(a) for a in P]
5.     
6.     # 计算参数分布分数
7.     params = [c(a) for a in P]
8.     
9.     # 多目标排序
10.    combined = α * norm(scores) + β * norm(params)
11.    
12.    # 选择与交叉
13.    parents = select_top_k(P, combined, k)
14.    offspring = crossover(parents)
15.    
16.    # 变异
17.    P = mutate(offspring)
18.    
19. return best(P)

实验结果

Top-Rank改善

方法Top-10%精度Top-1%精度提升
单独ZCP32.5%4.2%-
ParaDis (ZCP+PD)48.3%9.7%+15.8%
Top-Rank Gap缩小60%130%-

跨任务泛化

任务ParaDis单独ZCP提升
CIFAR-1094.2%93.1%+1.1%
ImageNet75.8%74.3%+1.5%
分割68.4%66.7%+1.7%

其他改进方向

ParZC:参数化零成本代理

详见:ParZC详解

ParZC通过学习节点级权重来解决不等权问题:

其中 是可学习的节点权重。

组合策略

投票集成

其中 是第 个ZCP给出的排名。

元学习组合

训练一个元模型组合多个ZCP:


实践建议

如何选择ZCP

  1. 小搜索空间(<10K):可尝试所有ZCP,选择相关性最高
  2. 中等搜索空间:TG-NAS(跨空间泛化好)
  3. 大规模搜索:WRCor + ParaDis组合

避免Top-Rank Gap陷阱

策略说明
多ZCP验证使用多个代理确认top架构一致性
子集验证只信任在top子集上也相关的代理
快速微调对候选top架构进行短期微调验证

常见错误

只关注全局相关性:高全局相关不等于好top-rank性能

关注Top-k准确率:实际任务中需要的是选到好架构


相关内容


参考文献

Footnotes

  1. ICLR 2025, “NAS-Bench-Suite-Zero: Analyzing Top-Rank Gap in Zero-Cost Proxies for Neural Architecture Search” 2 3

  2. ICLR 2025, “ParaDis: Reducing Top-Rank Gap via Parameter Distribution” (基于ParaDis方法的自适应参数分布搜索)