LoRA — хорошо знакомый метод. Замораживаем веса, добавляем две низкоранговые матрицы и снижаем стоимость тонкой настройки на порядки. Стандартный выбор для плотных моделей.
Но в MoE-моделях подход LoRA выглядит неестественно.
Суть MoE в том, что каждый токен активирует лишь несколько экспертов. Добавлять LoRA-адаптеры ко всем экспертам — это как платить зарплату тем, кто не приходит на работу.
Идея почти слишком простая
HELLoRA — добавлять LoRA только к наиболее часто активируемым экспертам на каждом слое, остальные не трогать.
Звучит слишком просто?
Но цифры говорят сами за себя.
На OlMoE-1B-7B HELLoRA использует лишь 15.7% параметров vanilla LoRA, сокращает FLOPs адаптера на 38.7%, увеличивает пропускную способность обучения в 1.9 раза — и повышает точность на 9.2%.
Ценность работы не в технической сложности, а в важном наблюдении: при эффективной настройке параметров на разреженных архитектурах саму разреженность нужно использовать, а не игнорировать.
Статья: HELLoRA