免训练神经架构搜索与零成本代理

概述

传统神经架构搜索(NAS)需要训练大量候选网络,计算成本高达数百GPU天。免训练NAS(Training-Free NAS)通过设计零成本代理(Zero-Cost Proxy, ZCP)来预测网络性能,无需实际训练即可评估架构质量,大大降低了NAS的计算开销。1


零成本代理基础理论

问题背景

NAS的核心挑战在于评估候选架构的性能。完整训练每个候选架构的代价极高:

方法训练需求评估时间准确性
全训练数百小时100%
One-Shot1-2天85-95%
代理预测部分分钟级88-93%
零成本代理秒级70-85%

零成本代理在网络初始化状态即可预测其最终性能,无需任何训练过程。

代理指标分类

1. 基于参数量的指标

最简单的代理是网络参数量(#Params)或FLOPs:

  • 优点:计算简单、完全免费
  • 缺点:与性能相关性有限,尤其在高效网络设计中

2. 基于梯度的方法

ZiCo(Zero-shot via Inverse Coefficient of Variation)2是首个系统性优于#Params的零成本代理:

核心指标定义:

其中 是第 层梯度的均值和标准差。

理论依据:梯度变异系数与网络收敛速度、泛化能力密切相关。

3. 基于神经网络的方法

利用小网络预测大网络性能:

  • NTK-based:利用神经切向核的谱性质
  • GNN-based:将架构编码为图,使用GNN预测

2025年最新进展

WRCor:加权响应相关性

Weighted Response Correlation (WRCor)3提出使用响应相关性矩阵作为代理指标:

核心思想

对同一批输入样本,计算网络响应的相关系数矩阵:

其中 是网络不同层的输出。

加权策略

引入样本权重和层级权重:

其中 是矩阵的谱性质度量。

优势

  • 捕捉网络的表达能力泛化能力
  • 响应矩阵比单层统计量更丰富
  • 实验表明在ImageNet上4 GPU小时达到22.1%误差

TG-NAS:通用零成本代理

TG-NAS4结合Transformer和GCN设计通用代理:

架构设计

┌──────────────────┐     ┌──────────────────┐
│ 算子描述嵌入器   │ --> │  GCN架构编码     │
│ (Transformer)   │     │                  │
└──────────────────┘     └──────────────────┘
         │                        │
         ▼                        ▼
    操作语义理解              图结构关系
         │                        │
         └──────────┬─────────────┘
                    ▼
            性能预测分数

关键创新

  1. 算子描述嵌入:将操作(如Conv3x3、MaxPool)的描述文本编码
  2. 跨空间泛化:无需针对特定搜索空间重新训练
  3. 零样本迁移:可直接应用于新搜索空间

实验结果

  • NAS-Bench-201: 93.75% CIFAR-10准确率
  • DARTS空间: 74.9% ImageNet top-1准确率

ParZC:参数化零成本代理

Parametric Zero-Cost Proxies (ParZC)5解决ZCP中节点不等权问题:

观察发现

不同层的零成本统计量对最终性能预测的贡献差异显著:

其中 是第 层的统计量, 是该层的可学习权重。

Mixer+贝叶斯网络架构

┌─────────────┐     ┌─────────────┐     ┌─────────────┐
│  节点级统计  │ --> │ Token Mixer │ --> │  预测输出   │
└─────────────┘     └─────────────┘     └─────────────┘
                           ↑
                    ┌─────────────┐
                    │ 贝叶斯网络  │
                    │ (不确定性)  │
                    └─────────────┘

DiffKendall损失函数

改进排名一致性:

RBFleX-NAS:RBF核方法

RBFleX-NAS6使用径向基函数核处理激活输出:

核心思想

将激活输出映射到高维空间,计算样本间的相似度:

超参数检测算法

自动确定RBF核的最优带宽

NAFBee激活函数搜索空间

扩展搜索空间包含多种激活函数:

  • ReLU, LeakyReLU, GELU, SiLU, ELU, Tanh, Sigmoid…

NEAR:激活秩表达力

Network Expressivity by Activation Rank (NEAR)7基于有效秩:

其中 是矩阵的有效秩, 是熵, 是奇异值归一化分布。


Top-Rank Gap问题

问题定义

现有研究表明8:虽然ZCP在整个搜索空间上与性能相关性高,但在top架构子集上相关性急剧下降。

数学描述:

其中 是前k%架构的相关性。

原因分析

1. 嵌入先验

  • 搜索空间特定的归纳偏置
  • 数据集相关假设
  • 导致跨任务泛化差

2. 统计聚合

  • 节点级统计量的简单平均/求和
  • 忽略了节点间的协同作用
  • 信息损失

3. 初始化敏感性

  • 随机种子对梯度统计的影响
  • 权重初始化分布差异
  • 批量大小的影响

实践指南

搜索空间选择

搜索空间适用代理备注
NAS-Bench-201ZiCo, NTK小规模,快速验证
DARTSWRCor, TG-NAS中等规模
NDSTG-NAS大规模,泛化性重要

代理组合策略

  1. 投票机制:多个ZCP的排名投票
  2. 加权组合:基于验证集调整权重
  3. 两阶段筛选:先用高效代理粗筛,再用精确代理精筛

实验建议

# 示例:ZCP评估流程
import numpy as np
 
def evaluate_zcp(architectures, proxy_func):
    """评估多个架构的零成本代理分数"""
    scores = []
    for arch in architectures:
        # 初始化网络
        model = build_model(arch)
        
        # 计算代理分数(无需训练)
        score = proxy_func(model)
        scores.append(score)
    
    # 排序并返回top-k
    rankings = np.argsort(scores)[::-1]
    return rankings[:top_k]

相关内容


参考文献

Footnotes

  1. Mellor et al., “Neural Architecture Search without Training” (ICML 2021)

  2. Li et al., “ZiCo: Zero-shot NAS via Inverse Coefficient of Variation” (ICML 2023)

  3. arXiv:2507.08841, “WRCor: Weighted Response Correlation for Zero-Shot NAS” (Neurocomputing 2025)

  4. arXiv:2404.00271, “TG-NAS: Generalizable Zero-Cost Proxies with Operator Description Embedding” (2024)

  5. AAAI 2025, “ParZC: Parametric Zero-Cost Proxies for Efficient NAS”

  6. arXiv:2503.22733, “RBFleX-NAS: Training-Free NAS Using Radial Basis Function Kernel” (ICCV 2025)

  7. arXiv:2408.08776, “NEAR: A Training-Free Pre-estimator of Machine Learning Model Performance”

  8. ICLR 2025, “NAS-Bench-Suite-Zero: Analyzing Top-Rank Gap in Zero-Cost Proxies”