免训练NAS方法2025年最新进展

概述

神经架构搜索（Neural Architecture Search, NAS）旨在自动设计神经网络架构，是AutoML的核心任务。然而，传统NAS方法需要大量训练计算，导致搜索成本高昂（通常需要数百到数千GPU days）。2025年，**免训练NAS（Training-free NAS）取得了突破性进展，实现了极低搜索成本（<0.1 GPU days）**的同时保持竞争力。

本文档综述了四种代表性的免训练NAS方法：RZ-NAS、SEKI、VKDNW和RBFleX-NAS。

背景：NAS的发展脉络

1. 传统NAS方法

NAS发展时间线：

2016: NAS (Zoph & Le)
├── 强化学习控制器
├── 搜索成本：22,800 GPU days
└── 问题：计算量巨大

2017-2018: DARTS系列
├── 可微搜索
├── 搜索成本：1-4 GPU days
└── 问题：需要松弛和优化

2019-2021: 效率优化
├── 权重共享
├── 搜索成本：0.5-1 GPU days
└── 问题：排名偏移

2022-2024: 免训练方法兴起
├── Zero-shot NAS
├── 搜索成本：~0 GPU days
└── 问题：精度待提升

2025: LLM增强 + 理论驱动 ★
├── RZ-NAS, SEKI, VKDNW, RBFleX-NAS
├── 搜索成本：<0.1 GPU days
└── 突破：SOTA精度！

2. 免训练代理的分类

免训练代理 (Zero-cost Proxies)
├── 梯度类
│   ├── GraSP: 基于梯度范数
│   ├── Synflow: 权重-梯度乘积
│   └── Gradnorm: 梯度L2范数
│
├── Fisher信息类
│   └── VKDNW: Fisher信息特征值
│
├── Jacobian类
│   ├── NASWOT: Jacobian矩阵范数
│   └── Jacov: Jacobian行列式
│
├── 熵类
│   ├── Zen-NAS: 激活熵
│   └── MAE-DET: 重建误差
│
├── 核方法类
│   └── RBFleX-NAS: RBF核相似度
│
└── LLM增强类
    ├── RZ-NAS: LLM+零成本代理
    └── SEKI: 自演化+知识蒸馏

RZ-NAS：反射式零成本NAS

1. 核心贡献

RZ-NAS¹是首个将大型语言模型（LLM）与免训练评估指标结合的NAS框架，实现了：

特性	描述
搜索效率	仅需0.03 GPU days
搜索空间	同时支持Micro和Macro
LLM角色	架构变异生成器 + 反思模块
零成本	无需模型训练

2. 框架设计

┌─────────────────────────────────────────────────────────────────┐
│                     RZ-NAS Framework                             │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  ┌──────────────┐                                                │
│  │  LLM        │ ← 架构变异生成器                                │
│  │ (GPT-4)     │    生成新架构                                  │
│  └──────┬───────┘                                                │
│         │                                                         │
│         ▼                                                         │
│  ┌──────────────┐                                                │
│  │  架构种群    │                                                │
│  │  (Population)│                                                │
│  └──────┬───────┘                                                │
│         │                                                         │
│         ▼                                                         │
│  ┌──────────────┐                                                │
│  │  零成本评估   │ ← 使用GraSP/Synflow/ZiCo等                     │
│  │  (Scoring)   │                                                │
│  └──────┬───────┘                                                │
│         │                                                         │
│         ▼                                                         │
│  ┌──────────────┐                                                │
│  │  LLM反思模块 │ ← 分析性能，指导优化                           │
│  │  (Reflection)│                                                │
│  └──────┬───────┘                                                │
│         │                                                         │
│         ▼                                                         │
│  ┌──────────────┐                                                │
│  │  迭代优化    │                                                │
│  │  (Iteration) │                                                │
│  └──────────────┘                                                │
│         │                                                         │
│         └──────────────→ 返回架构种群                              │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

3. 零成本代理选择

RZ-NAS支持多种零成本代理，可根据任务自动选择：

代理	原理	适用场景
GraSP	梯度范数之和	通用
Synflow	权重-梯度乘积	密集网络
Zen-NAS	激活复杂度	CNN
ZiCo	梯度变异系数	最佳

4. 性能结果

NAS-Bench-201搜索空间

方法	CIFAR-10	CIFAR-100	ImageNet-16-120
DARTS(2nd)	54.30%	15.61%	16.32%
GENIUS	93.79%	70.91%	44.96%
LLMatic	94.26%	71.62%	45.87%
RZ-NAS(GraSP)	92.79%	69.34%	43.16%
RZ-NAS(Zen-NAS)	93.48%	71.35%	45.12%
RZ-NAS(ZiCo)	94.24%	74.30%	46.18%

发现：RZ-NAS(ZiCo)在CIFAR-100和ImageNet-16-120上超越所有对比方法！

SEKI：自演化+知识蒸馏NAS

1. 核心贡献

SEKI²提出了一个两阶段框架，结合Chain-of-Thought思想：

┌─────────────────────────────────────────────────────────────────┐
│                      SEKI Framework                              │
├─────────────────────────────────────────────────────────────────┤
│                                                                  │
│  Stage 1: 自演化 (Self-Evolution)                               │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │                                                          │   │
│  │   初始架构 ──→ 评估 ──→ LLM反思 ──→ 新架构              │   │
│  │      ↑                      │                            │   │
│  │      └──────────────────────┘                            │   │
│  │                                                          │   │
│  │   • 基于性能反馈迭代优化                                  │   │
│  │   • 累积高质量架构到知识库                                │   │
│  │                                                          │   │
│  └─────────────────────────────────────────────────────────┘   │
│                              │                                   │
│                              ▼                                   │
│  Stage 2: 知识蒸馏 (Knowledge Distillation)                     │
│  ┌─────────────────────────────────────────────────────────┐   │
│  │                                                          │   │
│  │   知识库 ──→ 模式提取 ──→ 新架构                         │   │
│  │                                                          │   │
│  │   • 分析优秀架构的共同设计模式                            │   │
│  │   • 生成新的优化架构                                     │   │
│  │                                                          │   │
│  └─────────────────────────────────────────────────────────┘   │
│                                                                  │
└─────────────────────────────────────────────────────────────────┘

2. 核心公式

自演化排名

$rank_{a gg} (f) := lo g \prod_{j = 1}^{m} rank_{j} (f)$

其中 $rank_{j} (f)$ 是架构 $f$ 在第 $j$ 次评估中的排名。

最优配置

$λ^{*} = 35 γ^{*} = 15 k^{*} = 16 ξ^{*} = 8$

3. 性能结果

CIFAR-10/100（DARTS搜索空间）

方法	CIFAR-10	CIFAR-100	搜索成本
DARTS	97.11%	82.11%	1.0 GPU days
DrNAS	97.45%	82.90%	0.4 GPU days
SEKI	97.71%	84.14%	0.05 GPU days

SEKI在CIFAR-10上达到97.71%，搜索成本仅为0.05 GPU days！

VKDNW：Fisher信息零成本代理（CVPR 2025）

1. 核心贡献

VKDNW（Variance of Knowledge of Deep Network Weights）³是首个成功将Fisher信息理论应用于大型深度网络的免训练NAS代理。

2. 理论基础

Fisher信息矩阵

$F (θ) := E_{x \sim p (x)} [\nabla_{θ} σ_{θ} (c ∣ x) \nabla_{θ} σ_{θ} (c ∣ x)^{T}]$

Cramér-Rao下界

$Va r (\hat{θ}_{n}^{(j)}) \geq \frac{1}{n} (F^{- 1} (θ))_{jj}$

3. VKDNW代理定义

$V KD N W (f) := - \sum_{k = 1}^{9} \tilde{λ}_{k} lo g \tilde{λ}_{k}$

其中 $\tilde{λ}_{k}$ 是Fisher信息特征值的十分位数（deciles）。

4. 性能结果

NAS-Bench-201搜索空间

方法	CIFAR-10 KT	CIFAR-100 nDCG	ImageNet SPR
GradNorm	0.328	0.278	0.418
SynFlow	0.561	0.594	0.719
ZiCo	0.607	0.607	0.779
AZ-NAS	0.712	0.549	0.859
VKDNW agg	0.750	0.636	0.919

RBFleX-NAS：RBF核零成本代理

1. 核心贡献

RBFleX-NAS使用径向基函数（RBF）核同时考虑：

激活输出的相似性
最后一层输入特征的相似性

2. 设计原理

# RBFleX-NAS核心思想
def rbf_flex_score(activations, inputs):
    """
    RBF核评分
    """
    # 激活输出RBF核
    K_act = rbf_kernel(activations)
    
    # 输入特征RBF核
    K_inp = rbf_kernel(inputs)
    
    # 综合评分
    score = alpha * K_act + (1-alpha) * K_inp
    
    return score

方法对比总结

1. 核心特性对比

方法	核心创新	代理类型	无需数据	搜索成本
RZ-NAS	LLM+反思	多种可选	✓	0.03 GPU days
SEKI	自演化+知识蒸馏	性能反馈	✓	0.05 GPU days
VKDNW	Fisher信息	FIM特征	✓	~0 GPU days
RBFleX-NAS	RBF核双视角	激活分析	✓	~0 GPU days

2. 性能排名

排名	方法	CIFAR-10	特点
🥇	SEKI	97.71%	最高精度
🥈	RZ-NAS(ZiCo)	94.24%	LLM增强
🥉	VKDNW	高KT/SPR	理论驱动
4	RBFleX-NAS	SOTA	双视角

3. 技术趋势

2025年免训练NAS趋势：

┌─────────────────────────────────────────────────────────────┐
│                                                              │
│  1. LLM增强                                                 │
│     • RZ-NAS: LLM生成+反思                                  │
│     • SEKI: Chain-of-Thought搜索                            │
│                                                              │
│  2. 理论驱动                                                 │
│     • VKDNW: Fisher信息理论                                 │
│     • RBFleX-NAS: 核方法理论                                │
│                                                              │
│  3. 极低搜索成本                                            │
│     • 所有方法 < 0.1 GPU days                               │
│     • 相比传统NAS降低10000+倍                               │
│                                                              │
│  4. 强泛化能力                                              │
│     • 跨数据集                                              │
│     • 跨任务                                                │
│     • 跨模型家族                                            │
│                                                              │
└─────────────────────────────────────────────────────────────┘

实践指南

1. 方法选择

def select_nas_method(task, budget, constraints):
    """
    根据任务选择合适的NAS方法
    """
    if budget < 0.01:
        # 极低预算：使用VKDNW或RBFleX-NAS
        return "VKDNW"
    
    elif budget < 0.1 and task == "vision":
        # 低预算+视觉任务：使用SEKI
        return "SEKI"
    
    elif budget < 0.1 and has_llm_access:
        # 低预算+有LLM：使用RZ-NAS
        return "RZ-NAS"
    
    else:
        # 高预算：考虑传统方法
        return "DARTS"

2. 零成本代理选择

# 代理选择指南
proxy_guide = {
    "general": "ZiCo",           # 通用最佳
    "cnn": "Zen-NAS",          # CNN专用
    "vision_transformer": "SynFlow",  # ViT
    "small_model": "GraSP",     # 小模型
    "large_model": "VKDNW"     # 大模型（理论支撑）
}

未来方向

多模态NAS：视觉-语言联合搜索
硬件感知：考虑推理延迟和功耗
动态搜索空间：搜索空间自适应调整
组合策略：多种零成本代理组合

参考

RZ-NAS: Reflective Zero-cost NAS via LLM. ICML 2025 ↩
SEKI: Self-Evolution and Knowledge Inspiration based NAS. arXiv:2502.04975 (2025) ↩
VKDNW: Variance of Knowledge of Deep Network Weights. CVPR 2025 ↩

Metaphor

探索

免训练NAS方法2025年最新进展

概述

背景：NAS的发展脉络

1. 传统NAS方法

2. 免训练代理的分类

RZ-NAS：反射式零成本NAS

1. 核心贡献

2. 框架设计

3. 零成本代理选择

4. 性能结果

NAS-Bench-201搜索空间

SEKI：自演化+知识蒸馏NAS

1. 核心贡献

2. 核心公式

自演化排名

最优配置

3. 性能结果

CIFAR-10/100（DARTS搜索空间）

VKDNW：Fisher信息零成本代理（CVPR 2025）

1. 核心贡献

2. 理论基础

Fisher信息矩阵

Cramér-Rao下界

3. VKDNW代理定义

4. 性能结果

NAS-Bench-201搜索空间

RBFleX-NAS：RBF核零成本代理

1. 核心贡献

2. 设计原理

方法对比总结

1. 核心特性对比

2. 性能排名

3. 技术趋势

实践指南

1. 方法选择

2. 零成本代理选择

未来方向

相关工作

参考

Footnotes

关系图谱

目录