不训练也能变强？Darwin Family 用进化合并把 LLM 推理能力拉到了 GPQA Diamond 86.9%

一个反直觉的问题

大多数提升 LLM 性能的思路都围绕一个前提：你需要更多的训练——更多的数据、更多的计算、更多的迭代。

Darwin Family 问了另一个问题：如果模型们已经各自具备了某些能力，我们能不能把它们"拼"在一起，而不再训练？

答案听起来不可思议，但论文给出了令人信服的证据。

1. 14 维自适应合并基因组

传统的模型合并（比如 simple averaging、task arithmetic）通常在整个模型层面操作。Darwin 把合并粒度细化到了组件级和 block 级——每个层的合并权重都是一个独立的可优化参数。14 个维度的"基因组"允许对不同模块进行细粒度的重组。

2. MRI-Trust Fusion

这个方法名字取得很学术，但核心思想直观：它结合了两种信号来决定每个层应该如何合并——诊断性的层重要性信号和进化搜索信号，通过一个可学习的信任参数来动态平衡两者。

简单说：先用诊断方法评估每一层对推理能力的重要性，再用进化搜索探索最优合并方案，信任参数决定你在多大程度上"相信"诊断结果。

3. Architecture Mapper

这是最激进的部分：Darwin 支持跨架构的"杂交"。Transformer 和 Mamba 的组件可以被合并到一起。这不是简单地在同一个模型里混用两种架构，而是把不同架构的 checkpoint 通过一个映射器对齐到同一个权重空间，然后进行进化合并。

Darwin-27B-Opus 在 GPQA Diamond 上达到 86.9%。

这个数字意味着什么？在 1,252 个已评估模型中排名第 6。而且它没有进行任何基于梯度的训练——所有的性能提升都来自于对已有 checkpoint 的权重空间重组。

更惊人的是，它在 4B 到 35B 的多个规模上都一致地超越了各自的"父模型"，并且支持递归的多代进化——合并出来的模型可以继续作为下一代进化的起点。

训练成本是 LLM 领域最大的瓶颈之一。如果免训练的方法能带来接近或超过后训练的效果，那对资源有限的研究团队和小公司来说意义重大。

Darwin 的贡献不是某个具体的合并算法（slerp、ties merging、dare 等方法已经存在），而是展示了一个完整的框架：诊断评估 → 进化搜索 → 跨架构映射的流水线可以产生系统性的性能提升。

论文也坦诚地列出了局限：进化合并的性能上限受限于参与合并的模型的质量和能力分布。如果所有父模型都在某个能力维度上有欠缺，合并也无法凭空创造出这个能力。此外，搜索空间的复杂度随着模型规模呈指数增长，需要高效的进化策略来应对。

这个工作可以看作 Model Soups 路线的延续和扩展——通过权重空间组合而非数据空间组合来提升模型性能。但 Darwin 在粒度（block 级）、跨架构支持和进化策略上做出了实质性的推进。

主要来源：

arXiv:2605.14386 Darwin Family
Taebong Kim, Youngsik Hong, Minsik Kim, Sunyoung Choi, Jaewon Jang, Junghoon Shin, Minseo Kim
NeurIPS 2026 submission