概述
神经架构搜索(Neural Architecture Search, NAS)旨在自动设计神经网络架构,是AutoML的核心任务。然而,传统NAS方法需要大量训练计算,导致搜索成本高昂(通常需要数百到数千GPU days)。2025年,**免训练NAS(Training-free NAS)取得了突破性进展,实现了极低搜索成本(<0.1 GPU days)**的同时保持竞争力。
本文档综述了四种代表性的免训练NAS方法:RZ-NAS、SEKI、VKDNW和RBFleX-NAS。
背景:NAS的发展脉络
1. 传统NAS方法
NAS发展时间线:
2016: NAS (Zoph & Le)
├── 强化学习控制器
├── 搜索成本:22,800 GPU days
└── 问题:计算量巨大
2017-2018: DARTS系列
├── 可微搜索
├── 搜索成本:1-4 GPU days
└── 问题:需要松弛和优化
2019-2021: 效率优化
├── 权重共享
├── 搜索成本:0.5-1 GPU days
└── 问题:排名偏移
2022-2024: 免训练方法兴起
├── Zero-shot NAS
├── 搜索成本:~0 GPU days
└── 问题:精度待提升
2025: LLM增强 + 理论驱动 ★
├── RZ-NAS, SEKI, VKDNW, RBFleX-NAS
├── 搜索成本:<0.1 GPU days
└── 突破:SOTA精度!
2. 免训练代理的分类
免训练代理 (Zero-cost Proxies)
├── 梯度类
│ ├── GraSP: 基于梯度范数
│ ├── Synflow: 权重-梯度乘积
│ └── Gradnorm: 梯度L2范数
│
├── Fisher信息类
│ └── VKDNW: Fisher信息特征值
│
├── Jacobian类
│ ├── NASWOT: Jacobian矩阵范数
│ └── Jacov: Jacobian行列式
│
├── 熵类
│ ├── Zen-NAS: 激活熵
│ └── MAE-DET: 重建误差
│
├── 核方法类
│ └── RBFleX-NAS: RBF核相似度
│
└── LLM增强类
├── RZ-NAS: LLM+零成本代理
└── SEKI: 自演化+知识蒸馏
RZ-NAS:反射式零成本NAS
1. 核心贡献
RZ-NAS1是首个将大型语言模型(LLM)与免训练评估指标结合的NAS框架,实现了:
| 特性 | 描述 |
|---|---|
| 搜索效率 | 仅需0.03 GPU days |
| 搜索空间 | 同时支持Micro和Macro |
| LLM角色 | 架构变异生成器 + 反思模块 |
| 零成本 | 无需模型训练 |
2. 框架设计
┌─────────────────────────────────────────────────────────────────┐
│ RZ-NAS Framework │
├─────────────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────┐ │
│ │ LLM │ ← 架构变异生成器 │
│ │ (GPT-4) │ 生成新架构 │
│ └──────┬───────┘ │
│ │ │
│ ▼ │
│ ┌──────────────┐ │
│ │ 架构种群 │ │
│ │ (Population)│ │
│ └──────┬───────┘ │
│ │ │
│ ▼ │
│ ┌──────────────┐ │
│ │ 零成本评估 │ ← 使用GraSP/Synflow/ZiCo等 │
│ │ (Scoring) │ │
│ └──────┬───────┘ │
│ │ │
│ ▼ │
│ ┌──────────────┐ │
│ │ LLM反思模块 │ ← 分析性能,指导优化 │
│ │ (Reflection)│ │
│ └──────┬───────┘ │
│ │ │
│ ▼ │
│ ┌──────────────┐ │
│ │ 迭代优化 │ │
│ │ (Iteration) │ │
│ └──────────────┘ │
│ │ │
│ └──────────────→ 返回架构种群 │
│ │
└─────────────────────────────────────────────────────────────────┘
3. 零成本代理选择
RZ-NAS支持多种零成本代理,可根据任务自动选择:
| 代理 | 原理 | 适用场景 |
|---|---|---|
| GraSP | 梯度范数之和 | 通用 |
| Synflow | 权重-梯度乘积 | 密集网络 |
| Zen-NAS | 激活复杂度 | CNN |
| ZiCo | 梯度变异系数 | 最佳 |
4. 性能结果
NAS-Bench-201搜索空间
| 方法 | CIFAR-10 | CIFAR-100 | ImageNet-16-120 |
|---|---|---|---|
| DARTS(2nd) | 54.30% | 15.61% | 16.32% |
| GENIUS | 93.79% | 70.91% | 44.96% |
| LLMatic | 94.26% | 71.62% | 45.87% |
| RZ-NAS(GraSP) | 92.79% | 69.34% | 43.16% |
| RZ-NAS(Zen-NAS) | 93.48% | 71.35% | 45.12% |
| RZ-NAS(ZiCo) | 94.24% | 74.30% | 46.18% |
发现:RZ-NAS(ZiCo)在CIFAR-100和ImageNet-16-120上超越所有对比方法!
SEKI:自演化+知识蒸馏NAS
1. 核心贡献
SEKI2提出了一个两阶段框架,结合Chain-of-Thought思想:
┌─────────────────────────────────────────────────────────────────┐
│ SEKI Framework │
├─────────────────────────────────────────────────────────────────┤
│ │
│ Stage 1: 自演化 (Self-Evolution) │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 初始架构 ──→ 评估 ──→ LLM反思 ──→ 新架构 │ │
│ │ ↑ │ │ │
│ │ └──────────────────────┘ │ │
│ │ │ │
│ │ • 基于性能反馈迭代优化 │ │
│ │ • 累积高质量架构到知识库 │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ Stage 2: 知识蒸馏 (Knowledge Distillation) │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 知识库 ──→ 模式提取 ──→ 新架构 │ │
│ │ │ │
│ │ • 分析优秀架构的共同设计模式 │ │
│ │ • 生成新的优化架构 │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
2. 核心公式
自演化排名
其中 是架构 在第 次评估中的排名。
最优配置
3. 性能结果
CIFAR-10/100(DARTS搜索空间)
| 方法 | CIFAR-10 | CIFAR-100 | 搜索成本 |
|---|---|---|---|
| DARTS | 97.11% | 82.11% | 1.0 GPU days |
| DrNAS | 97.45% | 82.90% | 0.4 GPU days |
| SEKI | 97.71% | 84.14% | 0.05 GPU days |
SEKI在CIFAR-10上达到97.71%,搜索成本仅为0.05 GPU days!
VKDNW:Fisher信息零成本代理(CVPR 2025)
1. 核心贡献
VKDNW(Variance of Knowledge of Deep Network Weights)3是首个成功将Fisher信息理论应用于大型深度网络的免训练NAS代理。
2. 理论基础
Fisher信息矩阵
Cramér-Rao下界
3. VKDNW代理定义
其中 是Fisher信息特征值的十分位数(deciles)。
4. 性能结果
NAS-Bench-201搜索空间
| 方法 | CIFAR-10 KT | CIFAR-100 nDCG | ImageNet SPR |
|---|---|---|---|
| GradNorm | 0.328 | 0.278 | 0.418 |
| SynFlow | 0.561 | 0.594 | 0.719 |
| ZiCo | 0.607 | 0.607 | 0.779 |
| AZ-NAS | 0.712 | 0.549 | 0.859 |
| VKDNW agg | 0.750 | 0.636 | 0.919 |
RBFleX-NAS:RBF核零成本代理
1. 核心贡献
RBFleX-NAS使用径向基函数(RBF)核同时考虑:
- 激活输出的相似性
- 最后一层输入特征的相似性
2. 设计原理
# RBFleX-NAS核心思想
def rbf_flex_score(activations, inputs):
"""
RBF核评分
"""
# 激活输出RBF核
K_act = rbf_kernel(activations)
# 输入特征RBF核
K_inp = rbf_kernel(inputs)
# 综合评分
score = alpha * K_act + (1-alpha) * K_inp
return score方法对比总结
1. 核心特性对比
| 方法 | 核心创新 | 代理类型 | 无需数据 | 搜索成本 |
|---|---|---|---|---|
| RZ-NAS | LLM+反思 | 多种可选 | ✓ | 0.03 GPU days |
| SEKI | 自演化+知识蒸馏 | 性能反馈 | ✓ | 0.05 GPU days |
| VKDNW | Fisher信息 | FIM特征 | ✓ | ~0 GPU days |
| RBFleX-NAS | RBF核双视角 | 激活分析 | ✓ | ~0 GPU days |
2. 性能排名
| 排名 | 方法 | CIFAR-10 | 特点 |
|---|---|---|---|
| 🥇 | SEKI | 97.71% | 最高精度 |
| 🥈 | RZ-NAS(ZiCo) | 94.24% | LLM增强 |
| 🥉 | VKDNW | 高KT/SPR | 理论驱动 |
| 4 | RBFleX-NAS | SOTA | 双视角 |
3. 技术趋势
2025年免训练NAS趋势:
┌─────────────────────────────────────────────────────────────┐
│ │
│ 1. LLM增强 │
│ • RZ-NAS: LLM生成+反思 │
│ • SEKI: Chain-of-Thought搜索 │
│ │
│ 2. 理论驱动 │
│ • VKDNW: Fisher信息理论 │
│ • RBFleX-NAS: 核方法理论 │
│ │
│ 3. 极低搜索成本 │
│ • 所有方法 < 0.1 GPU days │
│ • 相比传统NAS降低10000+倍 │
│ │
│ 4. 强泛化能力 │
│ • 跨数据集 │
│ • 跨任务 │
│ • 跨模型家族 │
│ │
└─────────────────────────────────────────────────────────────┘
实践指南
1. 方法选择
def select_nas_method(task, budget, constraints):
"""
根据任务选择合适的NAS方法
"""
if budget < 0.01:
# 极低预算:使用VKDNW或RBFleX-NAS
return "VKDNW"
elif budget < 0.1 and task == "vision":
# 低预算+视觉任务:使用SEKI
return "SEKI"
elif budget < 0.1 and has_llm_access:
# 低预算+有LLM:使用RZ-NAS
return "RZ-NAS"
else:
# 高预算:考虑传统方法
return "DARTS"2. 零成本代理选择
# 代理选择指南
proxy_guide = {
"general": "ZiCo", # 通用最佳
"cnn": "Zen-NAS", # CNN专用
"vision_transformer": "SynFlow", # ViT
"small_model": "GraSP", # 小模型
"large_model": "VKDNW" # 大模型(理论支撑)
}未来方向
- 多模态NAS:视觉-语言联合搜索
- 硬件感知:考虑推理延迟和功耗
- 动态搜索空间:搜索空间自适应调整
- 组合策略:多种零成本代理组合
相关工作
- nas-zero-shot-methods — Zero-Shot NAS方法综述
- nas-llm-guided-nas — LLM引导的NAS
- nas-benchmarks-evaluation — NAS基准与评估
- nas-darts-variants-survey — DARTS变体综述