LLM时代模型合并综述

1. 背景

随着开源LLM（如LLaMA、Mistral、Qwen）的普及，如何高效组合这些模型的专长成为重要课题。模型合并提供了一种无需额外训练的解决方案。¹

2. FUSE分类体系

本文采用FUSE框架组织模型合并方法：

Foundations：理论基础
Unification Strategies：统一策略
Scenarios：应用场景
Ecosystem：生态系统

3. 理论基础

3.1 损失景观几何

模型合并与损失景观拓扑密切相关：

低损失空间连续性：好极小值之间由低损失路径连接
模式连接：参数可以在极小值之间移动而不显著增加损失
参数对称性：参数对称性导致等效极小值

3.2 线性模式连接

对于共享预训练的两个模型 $θ_{A}, θ_{B}$ ，存在线性路径连接：

θ (t) = (1 - t) θ_{A} + t θ_{B}

使得路径上所有点的损失都不显著高于端点。

4. 统一策略

4.1 权重平均类

方法	核心思想	代表工作
简单平均	算术平均	Single-model
Model Soup	超参数探索	Wortsman et al. 2022
SLERP	球面插值	Shoemake 1985
RegMean	统计合并	Jin et al. 2024

4.2 任务向量类

方法	核心思想	代表工作
Task Arithmetic	差分向量运算	Ilharco et al. 2022
TIES-Merging	符号统一	Yadav et al. 2023
DARE	稀疏化	Yu et al. 2024

4.3 进化优化类

方法	核心思想	代表工作
Evolutionary Merging	遗传算法搜索	Hashimoto et al. 2024
AutoMerge	自动配方优化	Matena et al. 2024

4.4 MoE架构类

方法	核心思想	代表工作
MoE-Merge	专家选择	Lee et al. 2024
ZipLoRA	LoRA组合	Kong et al. 2024

5. 应用场景

5.1 多任务学习

将不同任务的专家模型合并为多任务模型：

θ_{multi-task} = θ_{pretrain} + i \sum α_{i} τ_{i}^{task_{i}}

5.2 安全对齐

合并无害模型和有害模型，通过减弱有害能力同时保留有用功能。

5.3 领域专业化

通用模型 + 领域专家 → 领域专业化模型

源模型	目标领域	合并方法
LLaMA-7B	医疗	TIES
Mistral-7B	法律	Task Arithmetic
Qwen-14B	代码	DARE

5.4 联邦学习

在保护隐私的前提下合并多方模型：

θ_{federated} = \frac{1}{K} k = 1 \sum K θ_{k}^{local}

6. 生态系统

6.1 MergeKit

最流行的模型合并工具，支持多种合并方法：²

# mergekit.yaml
models:
  - model: meta-llama/Llama-2-7b
  - model: meta-llama/Llama-2-7b-chat
  - model: meta-llama/Llama-2-7b-hf
 
merge_method: ties
tasks:
  - chat
  - code
 
base_model: meta-llama/Llama-2-7b

6.2 评估基准

基准	任务数	模型数	指标
MMLU-Merge	57	100+	平均准确率
MT-Bench-Merge	8	50+	胜率
Safety-Merge-Eval	5	30+	安全分数

7. 开放挑战

7.1 未解决问题

理论理解：为什么某些合并有效而其他无效？
自动化：如何自动发现最优合并策略？
规模化：如何高效合并超大规模模型？
安全性：如何防止恶意合并？

7.2 未来方向

跨架构合并：合并Transformer和SSM模型
动态合并：根据输入动态调整合并权重
安全保证：形式化验证合并结果

8. 方法选择指南

开始
  │
  ├─ 是否只有2个模型？
  │    ├─ 是 → SLERP
  │    └─ 否 → 继续
  │
  ├─ 是否高干扰任务？
  │    ├─ 是 → TIES + DARE
  │    └─ 否 → 继续
  │
  ├─ 是否需要稀疏性？
  │    ├─ 是 → DARE
  │    └─ 否 → Model Soup
  │
  └─ 默认 → Task Arithmetic

9. 参考资料

Song, M., & Zheng, M. (2026). Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions. arXiv:2603.09938. ↩
Labonne, M. (2024). Merge Large Language Models with MergeKit. https://github.com/arcee-ai/mergekit ↩

Metaphor

探索

LLM时代模型合并综述

LLM时代模型合并综述

1. 背景

2. FUSE分类体系

3. 理论基础

3.1 损失景观几何

3.2 线性模式连接

4. 统一策略

4.1 权重平均类

4.2 任务向量类

4.3 进化优化类

4.4 MoE架构类

5. 应用场景

5.1 多任务学习

5.2 安全对齐

5.3 领域专业化

5.4 联邦学习

6. 生态系统

6.1 MergeKit

6.2 评估基准

7. 开放挑战

7.1 未解决问题

7.2 未来方向

8. 方法选择指南

9. 参考资料

关系图谱

目录

Metaphor

探索

LLM时代模型合并综述

LLM时代模型合并综述

1. 背景

2. FUSE分类体系

3. 理论基础

3.1 损失景观几何

3.2 线性模式连接

4. 统一策略

4.1 权重平均类

4.2 任务向量类

4.3 进化优化类

4.4 MoE架构类

5. 应用场景

5.1 多任务学习

5.2 安全对齐

5.3 领域专业化

5.4 联邦学习

6. 生态系统

6.1 MergeKit

6.2 评估基准

7. 开放挑战

7.1 未解决问题

7.2 未来方向

8. 方法选择指南

9. 参考资料

Footnotes

关系图谱

目录