Обучение большой языковой модели стоит миллионы долларов.
Но что если у меня есть 5 разных моделей, каждая сильна в своей области — можно ли объединить их в одну, которая сильнее каждой по отдельности?
Это核心 идея серии Darwin: Эволюционное слияние (Evolutionary Merging).
Не дистилляция. Не файн-тюнинг. Не продолжение предобучения. Это интеллектуальная комбинация параметров на уровне нескольких моделей с помощью эволюционных алгоритмов — сохранение хороших весов,淘汰 плохих — как естественный отбор.
Что такое эволюционное слияние
Традиционные методы оптимизации моделей:
- Файн-тюнинг: Продолжение обучения с новыми данными. Требует данных и вычислений.
- Дистилляция: Большая модель учит маленькую. Требует уже сильной модели-учителя.
- Ансамбль: Несколько моделей голосуют. Высокая стоимость инференса, сложный деплой.
Эволюционное слияние идёт четвёртым путём: интеллектуальная комбинация на уровне параметров.
核心 идея: у каждой модели есть «хорошие» и «плохие» параметры. Если скомбинировать сильные математические параметры модели A с сильными языковыми параметрами модели B, merged модель превзойдёт любую по отдельности.
Основные источники:
- GitHub-организация Darwin Family
- README проекта и документация по алгоритмам