模型合并基础

1. 什么是模型合并？

模型合并（Model Merging）是将多个已训练神经网络的参数直接组合成单一模型的技术，无需进行额外训练。这一方法在大型语言模型（LLM）时代变得尤为重要，因为：

计算效率高：避免了对多个模型分别进行推理的开销
能力组合：将不同模型的专长（如安全对齐、领域知识）合并
成本低廉：无需重新训练或收集新数据

2. 理论基础

2.1 损失景观几何

模型合并的理论基础与损失景观的拓扑结构密切相关。¹

根据模式连接理论，神经网络的不同局部极小值之间往往由低损失路径连接。这意味着：

存在连接各极小值的「盆地」
参数可以在盆地内自由移动而不显著增加损失
直接平均可能导致意外的高损失点

2.2 参数对称性

深度学习模型存在大量参数对称性，包括：

置换对称性：同一层神经元可以互换
正交变换对称性：某些架构允许正交参数变换

这些对称性导致参数空间中存在大量等效的极小值，给合并带来挑战。

3. 模型合并的核心挑战

3.1 参数干扰（Parameter Interference）

当合并专注于不同任务的模型时，参数可能「相互干扰」：

L_{merge} = α_{1} L_{1} + α_{2} L_{2} + \dots

理想情况下，合并后的模型应同时在所有任务上表现良好，但实际上存在任务冲突。

3.2 符号冲突

不同模型对某些参数的方向（正/负）可能有不同偏好：

模型 A： $W^{+} = + 1$ （增强某特征）
模型 B： $W^{-} = - 1$ （抑制某特征）

简单平均会导致特征被相互抵消。

3.3 幅度不匹配

不同微调模型可能具有不同的权重幅度：

∥ W_{1} ∥ \neq = ∥ W_{2} ∥

直接平均会偏向幅度较大的模型。

4. 模型合并分类体系

根据FUSE框架，模型合并方法可分为：²

类别	代表方法	特点
权重平均	Model Soup, RegMean	简单高效，但处理冲突能力有限
任务向量算术	Task Arithmetic, TIES	利用任务向量，精确控制能力
稀疏化增强	DARE, Fisher修剪	丢弃冗余参数，减少干扰
MoE架构	MoE合并	模块化组合，灵活度高
进化优化	Evolutionary Merging	自动搜索最优合并策略

5. 与相关技术的对比

5.1 模型集成 vs 模型合并

维度	模型集成	模型合并
推理成本	N倍（N个模型）	1倍（单个模型）
存储成本	N倍	1倍
参数更新	独立	共享
能力组合	间接	直接

5.2 迁移学习 vs 模型合并

迁移学习：将一个模型的知识迁移到另一个
模型合并：将多个模型的参数直接组合

6. 评估指标

模型合并的质量通常通过以下指标评估：

任务准确率：在各个任务上的平均/最差性能
能力保留率：合并后保留原模型能力的百分比
干扰度量：任务间冲突程度

7. 下一步

Task Arithmetic：基于任务向量的合并方法
TIES-Merging：解决符号冲突的合并方法
DARE：基于稀疏化的合并方法
Model Soup：权重平均方法

参考资料

Garipov, T., et al. (2018). Loss Surfaces, Mode Connectivity, and Fast Ensembling of DNNs. NeurIPS 2018. ↩
Song, M., & Zheng, M. (2026). Model Merging in the Era of Large Language Models: Methods, Applications, and Future Directions. arXiv:2603.09938. ↩

Metaphor

探索

模型合并基础

模型合并基础

1. 什么是模型合并？

2. 理论基础

2.1 损失景观几何

2.2 参数对称性

3. 模型合并的核心挑战

3.1 参数干扰（Parameter Interference）

3.2 符号冲突

3.3 幅度不匹配

4. 模型合并分类体系

5. 与相关技术的对比

5.1 模型集成 vs 模型合并

5.2 迁移学习 vs 模型合并

6. 评估指标

7. 下一步

参考资料

关系图谱

目录

反向链接

Metaphor

探索

模型合并基础

模型合并基础

1. 什么是模型合并？

2. 理论基础

2.1 损失景观几何

2.2 参数对称性

3. 模型合并的核心挑战

3.1 参数干扰（Parameter Interference）

3.2 符号冲突

3.3 幅度不匹配

4. 模型合并分类体系

5. 与相关技术的对比

5.1 模型集成 vs 模型合并

5.2 迁移学习 vs 模型合并

6. 评估指标

7. 下一步

参考资料

Footnotes

关系图谱

目录

反向链接