C
ChaoBro

HELLoRA: тонкая настройка MoE-моделей через LoRA только активных экспертов

HELLoRA: тонкая настройка MoE-моделей через LoRA только активных экспертов

LoRA — хорошо знакомый метод. Замораживаем веса, добавляем две низкоранговые матрицы и снижаем стоимость тонкой настройки на порядки. Стандартный выбор для плотных моделей.

Но в MoE-моделях подход LoRA выглядит неестественно.

Суть MoE в том, что каждый токен активирует лишь несколько экспертов. Добавлять LoRA-адаптеры ко всем экспертам — это как платить зарплату тем, кто не приходит на работу.

Идея почти слишком простая

HELLoRA — добавлять LoRA только к наиболее часто активируемым экспертам на каждом слое, остальные не трогать.

Звучит слишком просто?

Но цифры говорят сами за себя.

На OlMoE-1B-7B HELLoRA использует лишь 15.7% параметров vanilla LoRA, сокращает FLOPs адаптера на 38.7%, увеличивает пропускную способность обучения в 1.9 раза — и повышает точность на 9.2%.

Ценность работы не в технической сложности, а в важном наблюдении: при эффективной настройке параметров на разреженных архитектурах саму разреженность нужно использовать, а не игнорировать.

Статья: HELLoRA