免训练神经架构搜索与零成本代理
概述
传统神经架构搜索(NAS)需要训练大量候选网络,计算成本高达数百GPU天。免训练NAS(Training-Free NAS)通过设计零成本代理(Zero-Cost Proxy, ZCP)来预测网络性能,无需实际训练即可评估架构质量,大大降低了NAS的计算开销。1
零成本代理基础理论
问题背景
NAS的核心挑战在于评估候选架构的性能。完整训练每个候选架构的代价极高:
| 方法 | 训练需求 | 评估时间 | 准确性 |
|---|---|---|---|
| 全训练 | ✓ | 数百小时 | 100% |
| One-Shot | ✓ | 1-2天 | 85-95% |
| 代理预测 | 部分 | 分钟级 | 88-93% |
| 零成本代理 | ✗ | 秒级 | 70-85% |
零成本代理在网络初始化状态即可预测其最终性能,无需任何训练过程。
代理指标分类
1. 基于参数量的指标
最简单的代理是网络参数量(#Params)或FLOPs:
- 优点:计算简单、完全免费
- 缺点:与性能相关性有限,尤其在高效网络设计中
2. 基于梯度的方法
ZiCo(Zero-shot via Inverse Coefficient of Variation)2是首个系统性优于#Params的零成本代理:
核心指标定义:
其中 和 是第 层梯度的均值和标准差。
理论依据:梯度变异系数与网络收敛速度、泛化能力密切相关。
3. 基于神经网络的方法
利用小网络预测大网络性能:
- NTK-based:利用神经切向核的谱性质
- GNN-based:将架构编码为图,使用GNN预测
2025年最新进展
WRCor:加权响应相关性
Weighted Response Correlation (WRCor)3提出使用响应相关性矩阵作为代理指标:
核心思想
对同一批输入样本,计算网络响应的相关系数矩阵:
其中 是网络不同层的输出。
加权策略
引入样本权重和层级权重:
其中 是矩阵的谱性质度量。
优势
- 捕捉网络的表达能力和泛化能力
- 响应矩阵比单层统计量更丰富
- 实验表明在ImageNet上4 GPU小时达到22.1%误差
TG-NAS:通用零成本代理
TG-NAS4结合Transformer和GCN设计通用代理:
架构设计
┌──────────────────┐ ┌──────────────────┐
│ 算子描述嵌入器 │ --> │ GCN架构编码 │
│ (Transformer) │ │ │
└──────────────────┘ └──────────────────┘
│ │
▼ ▼
操作语义理解 图结构关系
│ │
└──────────┬─────────────┘
▼
性能预测分数
关键创新
- 算子描述嵌入:将操作(如Conv3x3、MaxPool)的描述文本编码
- 跨空间泛化:无需针对特定搜索空间重新训练
- 零样本迁移:可直接应用于新搜索空间
实验结果
- NAS-Bench-201: 93.75% CIFAR-10准确率
- DARTS空间: 74.9% ImageNet top-1准确率
ParZC:参数化零成本代理
Parametric Zero-Cost Proxies (ParZC)5解决ZCP中节点不等权问题:
观察发现
不同层的零成本统计量对最终性能预测的贡献差异显著:
其中 是第 层的统计量, 是该层的可学习权重。
Mixer+贝叶斯网络架构
┌─────────────┐ ┌─────────────┐ ┌─────────────┐
│ 节点级统计 │ --> │ Token Mixer │ --> │ 预测输出 │
└─────────────┘ └─────────────┘ └─────────────┘
↑
┌─────────────┐
│ 贝叶斯网络 │
│ (不确定性) │
└─────────────┘
DiffKendall损失函数
改进排名一致性:
RBFleX-NAS:RBF核方法
RBFleX-NAS6使用径向基函数核处理激活输出:
核心思想
将激活输出映射到高维空间,计算样本间的相似度:
超参数检测算法
自动确定RBF核的最优带宽 :
NAFBee激活函数搜索空间
扩展搜索空间包含多种激活函数:
- ReLU, LeakyReLU, GELU, SiLU, ELU, Tanh, Sigmoid…
NEAR:激活秩表达力
Network Expressivity by Activation Rank (NEAR)7基于有效秩:
其中 是矩阵的有效秩, 是熵, 是奇异值归一化分布。
Top-Rank Gap问题
问题定义
现有研究表明8:虽然ZCP在整个搜索空间上与性能相关性高,但在top架构子集上相关性急剧下降。
数学描述:
其中 是前k%架构的相关性。
原因分析
1. 嵌入先验
- 搜索空间特定的归纳偏置
- 数据集相关假设
- 导致跨任务泛化差
2. 统计聚合
- 节点级统计量的简单平均/求和
- 忽略了节点间的协同作用
- 信息损失
3. 初始化敏感性
- 随机种子对梯度统计的影响
- 权重初始化分布差异
- 批量大小的影响
实践指南
搜索空间选择
| 搜索空间 | 适用代理 | 备注 |
|---|---|---|
| NAS-Bench-201 | ZiCo, NTK | 小规模,快速验证 |
| DARTS | WRCor, TG-NAS | 中等规模 |
| NDS | TG-NAS | 大规模,泛化性重要 |
代理组合策略
- 投票机制:多个ZCP的排名投票
- 加权组合:基于验证集调整权重
- 两阶段筛选:先用高效代理粗筛,再用精确代理精筛
实验建议
# 示例:ZCP评估流程
import numpy as np
def evaluate_zcp(architectures, proxy_func):
"""评估多个架构的零成本代理分数"""
scores = []
for arch in architectures:
# 初始化网络
model = build_model(arch)
# 计算代理分数(无需训练)
score = proxy_func(model)
scores.append(score)
# 排序并返回top-k
rankings = np.argsort(scores)[::-1]
return rankings[:top_k]相关内容
- 神经网络架构搜索概述 — NAS基础概念与分类
- NAS评估方法 — 代理模型与训练策略
- 搜索策略 — 强化学习、进化、梯度方法
- LLM引导的NAS — LLM辅助的架构搜索
参考文献
Footnotes
-
Mellor et al., “Neural Architecture Search without Training” (ICML 2021) ↩
-
Li et al., “ZiCo: Zero-shot NAS via Inverse Coefficient of Variation” (ICML 2023) ↩
-
arXiv:2507.08841, “WRCor: Weighted Response Correlation for Zero-Shot NAS” (Neurocomputing 2025) ↩
-
arXiv:2404.00271, “TG-NAS: Generalizable Zero-Cost Proxies with Operator Description Embedding” (2024) ↩
-
AAAI 2025, “ParZC: Parametric Zero-Cost Proxies for Efficient NAS” ↩
-
arXiv:2503.22733, “RBFleX-NAS: Training-Free NAS Using Radial Basis Function Kernel” (ICCV 2025) ↩
-
arXiv:2408.08776, “NEAR: A Training-Free Pre-estimator of Machine Learning Model Performance” ↩
-
ICLR 2025, “NAS-Bench-Suite-Zero: Analyzing Top-Rank Gap in Zero-Cost Proxies” ↩