一个反直觉的问题
大多数提升 LLM 性能的思路都围绕一个前提:你需要更多的训练——更多的数据、更多的计算、更多的迭代。
Darwin Family 问了另一个问题:如果模型们已经各自具备了某些能力,我们能不能把它们"拼"在一起,而不再训练?
答案听起来不可思议,但论文给出了令人信服的证据。
三个核心创新
1. 14 维自适应合并基因组
传统的模型合并(比如 simple averaging、task arithmetic)通常在整个模型层面操作。Darwin 把合并粒度细化到了组件级和 block 级——每个层的合并权重都是一个独立的可优化参数。14 个维度的"基因组"允许对不同模块进行细粒度的重组。
2. MRI-Trust Fusion
这个方法名字取得很学术,但核心思想直观:它结合了两种信号来决定每个层应该如何合并——诊断性的层重要性信号和进化搜索信号,通过一个可学习的信任参数来动态平衡两者。
简单说:先用诊断方法评估每一层对推理能力的重要性,再用进化搜索探索最优合并方案,信任参数决定你在多大程度上"相信"诊断结果。
3. Architecture Mapper
这是最激进的部分:Darwin 支持跨架构的"杂交"。Transformer 和 Mamba 的组件可以被合并到一起。这不是简单地在同一个模型里混用两种架构,而是把不同架构的 checkpoint 通过一个映射器对齐到同一个权重空间,然后进行进化合并。
数字说话
Darwin-27B-Opus 在 GPQA Diamond 上达到 86.9%。
这个数字意味着什么?在 1,252 个已评估模型中排名第 6。而且它没有进行任何基于梯度的训练——所有的性能提升都来自于对已有 checkpoint 的权重空间重组。
更惊人的是,它在 4B 到 35B 的多个规模上都一致地超越了各自的"父模型",并且支持递归的多代进化——合并出来的模型可以继续作为下一代进化的起点。
这为什么重要
训练成本是 LLM 领域最大的瓶颈之一。如果免训练的方法能带来接近或超过后训练的效果,那对资源有限的研究团队和小公司来说意义重大。
Darwin 的贡献不是某个具体的合并算法(slerp、ties merging、dare 等方法已经存在),而是展示了一个完整的框架:诊断评估 → 进化搜索 → 跨架构映射的流水线可以产生系统性的性能提升。
局限性
论文也坦诚地列出了局限:进化合并的性能上限受限于参与合并的模型的质量和能力分布。如果所有父模型都在某个能力维度上有欠缺,合并也无法凭空创造出这个能力。此外,搜索空间的复杂度随着模型规模呈指数增长,需要高效的进化策略来应对。
与 Model Soups 的关系
这个工作可以看作 Model Soups 路线的延续和扩展——通过权重空间组合而非数据空间组合来提升模型性能。但 Darwin 在粒度(block 级)、跨架构支持和进化策略上做出了实质性的推进。
主要来源:
- arXiv:2605.14386 Darwin Family
- Taebong Kim, Youngsik Hong, Minsik Kim, Sunyoung Choi, Jaewon Jang, Junghoon Shin, Minseo Kim
- NeurIPS 2026 submission