NAS零成本代理Top-Rank Gap与相关性基准
概述
零成本代理(Zero-Cost Proxy, ZCP)使得无需训练即可预测神经网络架构性能,大大加速了神经架构搜索(NAS)。然而,Top-Rank Gap问题揭示了现有ZCP的一个关键缺陷:在整个搜索空间上相关性高,但在最优架构子集上相关性急剧下降。1
Top-Rank Gap问题详解
问题定义
现象描述:当使用零成本代理对搜索空间中所有架构进行排序时,Spearman/Kendall相关性可能表现良好;但当我们只关注排名靠前(比如前10%)的架构时,相关性显著下降。
数学形式化
设搜索空间 ,真实性能函数 ,代理评分函数 。
全局相关性:
Top-k相关性:
其中
实证观察
在NAS-Bench-Suite-Zero上1:
| 代理方法 | 全局相关性 | Top-10%相关性 | Top-1%相关性 |
|---|---|---|---|
| Params | 0.45 | 0.12 | 0.05 |
| NTK | 0.68 | 0.31 | 0.08 |
| Zen | 0.72 | 0.35 | 0.10 |
| GradNorm | 0.65 | 0.28 | 0.09 |
观察结论:所有方法都存在严重的Top-Rank Gap,尤其在Top-1%子集上几乎失去判别能力。
原因分析
1. 嵌入先验问题
搜索空间特异性
每个ZCP都隐含了对搜索空间的假设:
其中 是架构编码, 是针对特定搜索空间学习的参数。
问题:当搜索空间改变时,这些先验可能失效。
数据集偏差
某些代理对特定数据集表现更好:
| 数据集 | 最优代理 | 原因分析 |
|---|---|---|
| CIFAR-10 | Zen | 小图像,网络深度更重要 |
| ImageNet | NTK | 大图像,表达力更关键 |
| Penn-Fudan | GradNorm | 分割任务,梯度流更相关 |
2. 统计聚合问题
节点级统计的不等权性
现有方法通常将各层统计量简单聚合:
但不同层对最终性能的贡献差异显著。
示例:ResNet中跳跃连接的贡献可能远大于某些中间层。
信息损失
从完整的激活/梯度矩阵降维到标量统计量:
这一过程丢失了大量结构信息。
3. 初始化敏感性
随机种子影响
权重初始化对梯度统计的影响:
不同种子导致不同的梯度轨迹,影响代理分数的稳定性。
批量大小效应
批量归一化/同步批归一化的差异:
| 批量大小 | BN统计稳定性 | 梯度方差 | 对ZCP影响 |
|---|---|---|---|
| 32 | 低 | 高 | 噪声增加 |
| 256 | 高 | 低 | 估计更稳定 |
| 1024 | 高 | 极低 | 可能过平滑 |
NAS-Bench-Suite-Zero基准
基准设计
NAS-Bench-Suite-Zero1是首个系统性评估Top-Rank Gap的基准:
搜索空间覆盖
| 搜索空间 | 架构数量 | 主要特点 |
|---|---|---|
| NAS-Bench-201 | 15,625 | 固定DAG,4节点 |
| DARTS | ~10^18 | 可微分搜索空间 |
| NDS | ~10^5 | 包含量化网络 |
任务多样性
- 图像分类:CIFAR-10/100、ImageNet
- 图像分割:Penn-Fudan
- 目标检测:COCO
评估指标
-
相关性指标
- Spearman相关系数
- Kendall相关系数
- Pearson相关系数
-
Top-K准确率
- Top-10准确率:代理选出的top 10%中包含真实top 10%的比例
- Top-1准确率:代理最优选择是否为真实最优
-
搜索效率
- GPU小时数
- 评估次数
ParaDis:自适应参数分布方法
核心思想
Parameter Distribution-based Search (ParaDis)2利用自适应参数分布作为判别指标:
创新点
- 与ZCP正交:ParaDis可以与任意ZCP组合
- 数据无关:不依赖特定搜索空间假设
- 参数分布统计:捕捉权重分布的全局特征
方法详解
参数分布建模
对于网络权重 ,计算分布统计:
其中 是偏度(skewness)。
多目标选择策略
在进化搜索框架中,同时优化:
其中 是ZCP分数, 是紧凑性指标(参数分布的判别性)。
算法流程
输入: 搜索空间 A, ZCP函数 s, 初始种群 P
输出: 最优架构 a*
1. 初始化种群 P_0
2. for generation in [1, G]:
3. # 计算代理分数
4. scores = [s(a) for a in P]
5.
6. # 计算参数分布分数
7. params = [c(a) for a in P]
8.
9. # 多目标排序
10. combined = α * norm(scores) + β * norm(params)
11.
12. # 选择与交叉
13. parents = select_top_k(P, combined, k)
14. offspring = crossover(parents)
15.
16. # 变异
17. P = mutate(offspring)
18.
19. return best(P)
实验结果
Top-Rank改善
| 方法 | Top-10%精度 | Top-1%精度 | 提升 |
|---|---|---|---|
| 单独ZCP | 32.5% | 4.2% | - |
| ParaDis (ZCP+PD) | 48.3% | 9.7% | +15.8% |
| Top-Rank Gap缩小 | 60% | 130% | - |
跨任务泛化
| 任务 | ParaDis | 单独ZCP | 提升 |
|---|---|---|---|
| CIFAR-10 | 94.2% | 93.1% | +1.1% |
| ImageNet | 75.8% | 74.3% | +1.5% |
| 分割 | 68.4% | 66.7% | +1.7% |
其他改进方向
ParZC:参数化零成本代理
详见:ParZC详解
ParZC通过学习节点级权重来解决不等权问题:
其中 是可学习的节点权重。
组合策略
投票集成
其中 是第 个ZCP给出的排名。
元学习组合
训练一个元模型组合多个ZCP:
实践建议
如何选择ZCP
- 小搜索空间(<10K):可尝试所有ZCP,选择相关性最高
- 中等搜索空间:TG-NAS(跨空间泛化好)
- 大规模搜索:WRCor + ParaDis组合
避免Top-Rank Gap陷阱
| 策略 | 说明 |
|---|---|
| 多ZCP验证 | 使用多个代理确认top架构一致性 |
| 子集验证 | 只信任在top子集上也相关的代理 |
| 快速微调 | 对候选top架构进行短期微调验证 |
常见错误
❌ 只关注全局相关性:高全局相关不等于好top-rank性能
✓ 关注Top-k准确率:实际任务中需要的是选到好架构
相关内容
- 免训练NAS与零成本代理 — ZCP基础与2025年进展
- 神经网络架构搜索概述 — NAS基础概念
- 搜索策略 — 进化、梯度、强化学习方法