概述

神经架构搜索(Neural Architecture Search, NAS)旨在自动设计神经网络架构,是AutoML的核心任务。然而,传统NAS方法需要大量训练计算,导致搜索成本高昂(通常需要数百到数千GPU days)。2025年,**免训练NAS(Training-free NAS)取得了突破性进展,实现了极低搜索成本(<0.1 GPU days)**的同时保持竞争力。

本文档综述了四种代表性的免训练NAS方法:RZ-NAS、SEKI、VKDNW和RBFleX-NAS。


背景:NAS的发展脉络

1. 传统NAS方法

NAS发展时间线:

2016: NAS (Zoph & Le)
├── 强化学习控制器
├── 搜索成本:22,800 GPU days
└── 问题:计算量巨大

2017-2018: DARTS系列
├── 可微搜索
├── 搜索成本:1-4 GPU days
└── 问题:需要松弛和优化

2019-2021: 效率优化
├── 权重共享
├── 搜索成本:0.5-1 GPU days
└── 问题:排名偏移

2022-2024: 免训练方法兴起
├── Zero-shot NAS
├── 搜索成本:~0 GPU days
└── 问题:精度待提升

2025: LLM增强 + 理论驱动 ★
├── RZ-NAS, SEKI, VKDNW, RBFleX-NAS
├── 搜索成本:<0.1 GPU days
└── 突破:SOTA精度!

2. 免训练代理的分类

免训练代理 (Zero-cost Proxies)
├── 梯度类
│   ├── GraSP: 基于梯度范数
│   ├── Synflow: 权重-梯度乘积
│   └── Gradnorm: 梯度L2范数
│
├── Fisher信息类
│   └── VKDNW: Fisher信息特征值
│
├── Jacobian类
│   ├── NASWOT: Jacobian矩阵范数
│   └── Jacov: Jacobian行列式
│
├── 熵类
│   ├── Zen-NAS: 激活熵
│   └── MAE-DET: 重建误差
│
├── 核方法类
│   └── RBFleX-NAS: RBF核相似度
│
└── LLM增强类
    ├── RZ-NAS: LLM+零成本代理
    └── SEKI: 自演化+知识蒸馏

RZ-NAS:反射式零成本NAS

1. 核心贡献

RZ-NAS1是首个将大型语言模型(LLM)免训练评估指标结合的NAS框架,实现了:

特性描述
搜索效率仅需0.03 GPU days
搜索空间同时支持Micro和Macro
LLM角色架构变异生成器 + 反思模块
零成本无需模型训练

2. 框架设计

┌─────────────────────────────────────────────────────────────────┐
│                     RZ-NAS Framework                             │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  ┌──────────────┐                                                │
│  │  LLM        │ ← 架构变异生成器                                │
│  │ (GPT-4)     │    生成新架构                                  │
│  └──────┬───────┘                                                │
│         │                                                         │
│         ▼                                                         │
│  ┌──────────────┐                                                │
│  │  架构种群    │                                                │
│  │  (Population)│                                                │
│  └──────┬───────┘                                                │
│         │                                                         │
│         ▼                                                         │
│  ┌──────────────┐                                                │
│  │  零成本评估   │ ← 使用GraSP/Synflow/ZiCo等                     │
│  │  (Scoring)   │                                                │
│  └──────┬───────┘                                                │
│         │                                                         │
│         ▼                                                         │
│  ┌──────────────┐                                                │
│  │  LLM反思模块 │ ← 分析性能,指导优化                           │
│  │  (Reflection)│                                                │
│  └──────┬───────┘                                                │
│         │                                                         │
│         ▼                                                         │
│  ┌──────────────┐                                                │
│  │  迭代优化    │                                                │
│  │  (Iteration) │                                                │
│  └──────────────┘                                                │
│         │                                                         │
│         └──────────────→ 返回架构种群                              │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

3. 零成本代理选择

RZ-NAS支持多种零成本代理,可根据任务自动选择:

代理原理适用场景
GraSP梯度范数之和通用
Synflow权重-梯度乘积密集网络
Zen-NAS激活复杂度CNN
ZiCo梯度变异系数最佳

4. 性能结果

NAS-Bench-201搜索空间

方法CIFAR-10CIFAR-100ImageNet-16-120
DARTS(2nd)54.30%15.61%16.32%
GENIUS93.79%70.91%44.96%
LLMatic94.26%71.62%45.87%
RZ-NAS(GraSP)92.79%69.34%43.16%
RZ-NAS(Zen-NAS)93.48%71.35%45.12%
RZ-NAS(ZiCo)94.24%74.30%46.18%

发现:RZ-NAS(ZiCo)在CIFAR-100和ImageNet-16-120上超越所有对比方法!


SEKI:自演化+知识蒸馏NAS

1. 核心贡献

SEKI2提出了一个两阶段框架,结合Chain-of-Thought思想:

┌─────────────────────────────────────────────────────────────────┐
│                      SEKI Framework                              │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  Stage 1: 自演化 (Self-Evolution)                               │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │                                                          │   │
│  │   初始架构 ──→ 评估 ──→ LLM反思 ──→ 新架构              │   │
│  │      ↑                      │                            │   │
│  │      └──────────────────────┘                            │   │
│  │                                                          │   │
│  │   • 基于性能反馈迭代优化                                  │   │
│  │   • 累积高质量架构到知识库                                │   │
│  │                                                          │   │
│  └─────────────────────────────────────────────────────────┘   │
│                              │                                   │
│                              ▼                                   │
│  Stage 2: 知识蒸馏 (Knowledge Distillation)                     │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │                                                          │   │
│  │   知识库 ──→ 模式提取 ──→ 新架构                         │   │
│  │                                                          │   │
│  │   • 分析优秀架构的共同设计模式                            │   │
│  │   • 生成新的优化架构                                     │   │
│  │                                                          │   │
│  └─────────────────────────────────────────────────────────┘   │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

2. 核心公式

自演化排名

其中 是架构 在第 次评估中的排名。

最优配置

3. 性能结果

CIFAR-10/100(DARTS搜索空间)

方法CIFAR-10CIFAR-100搜索成本
DARTS97.11%82.11%1.0 GPU days
DrNAS97.45%82.90%0.4 GPU days
SEKI97.71%84.14%0.05 GPU days

SEKI在CIFAR-10上达到97.71%,搜索成本仅为0.05 GPU days!


VKDNW:Fisher信息零成本代理(CVPR 2025)

1. 核心贡献

VKDNW(Variance of Knowledge of Deep Network Weights)3首个成功将Fisher信息理论应用于大型深度网络的免训练NAS代理。

2. 理论基础

Fisher信息矩阵

Cramér-Rao下界

3. VKDNW代理定义

其中 是Fisher信息特征值的十分位数(deciles)。

4. 性能结果

NAS-Bench-201搜索空间

方法CIFAR-10 KTCIFAR-100 nDCGImageNet SPR
GradNorm0.3280.2780.418
SynFlow0.5610.5940.719
ZiCo0.6070.6070.779
AZ-NAS0.7120.5490.859
VKDNW agg0.7500.6360.919

RBFleX-NAS:RBF核零成本代理

1. 核心贡献

RBFleX-NAS使用径向基函数(RBF)核同时考虑:

  • 激活输出的相似性
  • 最后一层输入特征的相似性

2. 设计原理

# RBFleX-NAS核心思想
def rbf_flex_score(activations, inputs):
    """
    RBF核评分
    """
    # 激活输出RBF核
    K_act = rbf_kernel(activations)
    
    # 输入特征RBF核
    K_inp = rbf_kernel(inputs)
    
    # 综合评分
    score = alpha * K_act + (1-alpha) * K_inp
    
    return score

方法对比总结

1. 核心特性对比

方法核心创新代理类型无需数据搜索成本
RZ-NASLLM+反思多种可选0.03 GPU days
SEKI自演化+知识蒸馏性能反馈0.05 GPU days
VKDNWFisher信息FIM特征~0 GPU days
RBFleX-NASRBF核双视角激活分析~0 GPU days

2. 性能排名

排名方法CIFAR-10特点
🥇SEKI97.71%最高精度
🥈RZ-NAS(ZiCo)94.24%LLM增强
🥉VKDNW高KT/SPR理论驱动
4RBFleX-NASSOTA双视角

3. 技术趋势

2025年免训练NAS趋势:

┌─────────────────────────────────────────────────────────────┐
│                                                              │
│  1. LLM增强                                                 │
│     • RZ-NAS: LLM生成+反思                                  │
│     • SEKI: Chain-of-Thought搜索                            │
│                                                              │
│  2. 理论驱动                                                 │
│     • VKDNW: Fisher信息理论                                 │
│     • RBFleX-NAS: 核方法理论                                │
│                                                              │
│  3. 极低搜索成本                                            │
│     • 所有方法 < 0.1 GPU days                               │
│     • 相比传统NAS降低10000+倍                               │
│                                                              │
│  4. 强泛化能力                                              │
│     • 跨数据集                                              │
│     • 跨任务                                                │
│     • 跨模型家族                                            │
│                                                              │
└─────────────────────────────────────────────────────────────┘

实践指南

1. 方法选择

def select_nas_method(task, budget, constraints):
    """
    根据任务选择合适的NAS方法
    """
    if budget < 0.01:
        # 极低预算:使用VKDNW或RBFleX-NAS
        return "VKDNW"
    
    elif budget < 0.1 and task == "vision":
        # 低预算+视觉任务:使用SEKI
        return "SEKI"
    
    elif budget < 0.1 and has_llm_access:
        # 低预算+有LLM:使用RZ-NAS
        return "RZ-NAS"
    
    else:
        # 高预算:考虑传统方法
        return "DARTS"

2. 零成本代理选择

# 代理选择指南
proxy_guide = {
    "general": "ZiCo",           # 通用最佳
    "cnn": "Zen-NAS",          # CNN专用
    "vision_transformer": "SynFlow",  # ViT
    "small_model": "GraSP",     # 小模型
    "large_model": "VKDNW"     # 大模型(理论支撑)
}

未来方向

  1. 多模态NAS:视觉-语言联合搜索
  2. 硬件感知:考虑推理延迟和功耗
  3. 动态搜索空间:搜索空间自适应调整
  4. 组合策略:多种零成本代理组合

相关工作


参考

Footnotes

  1. RZ-NAS: Reflective Zero-cost NAS via LLM. ICML 2025

  2. SEKI: Self-Evolution and Knowledge Inspiration based NAS. arXiv:2502.04975 (2025)

  3. VKDNW: Variance of Knowledge of Deep Network Weights. CVPR 2025