Можно ли стать сильнее без обучения? Семейство Darwin использует эволюционное объединение для повышения рассуждающих способностей LLM до 86,9 % на GPQA Diamond

Парадоксальный вопрос

Большинство подходов к улучшению производительности LLM опираются на одно ключевое допущение: вам нужно больше обучения — больше данных, больше вычислительных ресурсов, больше итераций.

Семейство Darwin задаёт иной вопрос: если модели уже обладают определёнными способностями, можно ли «собрать» их вместе, не прибегая к обучению?

Ответ звучит невероятно, однако в статье приводятся убедительные доказательства.

Три ключевых инновации

1. Адаптивный 14-мерный «геном» объединения

Традиционные методы объединения моделей (например, простое усреднение или арифметика задач) обычно работают на уровне всей модели целиком. Darwin же детализирует процесс объединения до уровня компонентов и блоков — веса объединения для каждого слоя являются отдельными параметрами, подлежащими оптимизации. «Геном» из 14 измерений позволяет осуществлять тонкую перестройку различных модулей.

2. MRI-Trust Fusion

Название этого метода звучит академично, но его основная идея интуитивно понятна: он объединяет два типа сигналов для определения того, как именно следует объединять каждый слой — диагностический сигнал важности слоя и сигнал эволюционного поиска, баланс между которыми динамически регулируется обучаемым параметром доверия.

Проще говоря: сначала диагностические методы оценивают важность каждого слоя для рассуждающих способностей; затем эволюционный поиск исследует оптимальные схемы объединения; параметр доверия определяет, в какой степени мы «доверяем» результатам диагностики.

3. Architecture Mapper

Это самая радикальная часть: Darwin поддерживает «гибридизацию» между различными архитектурами. Компоненты Transformer и Mamba могут быть объединены друг с другом. Речь идёт не просто о совместном использовании двух архитектур в одной модели, а о том, что чекпоинты разных архитектур сопоставляются в единое весовое пространство с помощью специального маппера, после чего применяется эволюционное объединение.

Цифры говорят сами за себя

Darwin-27B-Opus достигает 86,9 % на GPQA Diamond.

Что означает этот показатель? Модель занимает 6-е место среди 1252 уже оценённых моделей. При этом она не проходила ни одного этапа градиентного обучения — весь прирост производительности получен исключительно за счёт перестройки весового пространства существующих чекпоинтов.

Ещё более впечатляюще то, что она последовательно превосходит свои «родительские» модели во всех масштабах — от 4 млрд до 35 млрд параметров — и поддерживает рекурсивную многоступенчатую эволюцию: объединённые модели могут служить отправной точкой для следующего поколения эволюционного объединения.

Почему это важно

Затраты на обучение — один из главных узких мест в области LLM. Если методы без обучения позволяют достичь результатов, сопоставимых или даже превосходящих результаты постобучения, это имеет огромное значение для исследовательских групп и небольших компаний с ограниченными ресурсами.

Вклад Darwin заключается не в конкретном алгоритме объединения (такие методы, как slerp, ties merging, dare, уже существуют), а в демонстрации целостного фреймворка: конвейера диагностической оценки → эволюционного поиска → межархитектурного сопоставления, способного обеспечить систематическое повышение производительности.

Ограничения

В статье честно перечислены и ограничения: потенциал эволюционного объединения ограничен качеством и распределением способностей участвующих в объединении моделей. Если все «родительские» модели слабы в какой-либо конкретной области способностей, объединение не сможет «создать из ничего» эту способность. Кроме того, сложность пространства поиска растёт экспоненциально с увеличением размера моделей, поэтому требуются эффективные стратегии эволюционного поиска.

Связь с Model Soups

Эта работа может рассматриваться как продолжение и расширение направления Model Soups — повышение производительности моделей за счёт комбинирования в весовом, а не в данных пространстве. Однако Darwin делает существенный шаг вперёд по трём направлениям: более тонкая детализация (на уровне блоков), поддержка межархитектурного объединения и усовершенствованные стратегии эволюционного поиска.

Основные источники:

arXiv:2605.14386 Darwin Family
Тэбон Ким, Ёнсик Хонг, Минсик Ким, Сунён Чхой, Джэвон Чхан, Чхонхун Шин, Минсё Ким
Подана на конференцию NeurIPS 2026

Парадоксальный вопрос

Три ключевых инновации

Цифры говорят сами за себя

Почему это важно

Ограничения

Связь с Model Soups

Похожие материалы

APWA: Распределённая архитектура для истинной параллелизации мультиагентных систем

Dual-Dimensional Consistency: новый метод, позволяющий сократить расход токенов при масштабировании во время вывода в 10 раз

MemEye: Визуально-ориентированная платформа оценки памяти мультимодальных агентов