C
ChaoBro

HELLoRA:MoE モデルのLoRA微调、活躍エキスパートのみを対象にすると効果が向上

HELLoRA:MoE モデルのLoRA微调、活躍エキスパートのみを対象にすると効果が向上

LoRAはよく知られています。元の重みを固定し、2つの低ランク行列を注入して、ファインチューニングのコストを桁違いに削減。denseモデルのデフォルト選択肢です。

しかしMoEモデルでは、LoRAのアプローチが少し不自然に感じます。

MoEの核心は、各トークンが少数のエキスパートのみを活性化すること。つまり、すべてのエキスパートにLoRAアダプタを取り付けるのは、仕事に来ない人にも給料を払うようなものです。

ほぼ「当たり前」に思えるアイデア

HELLoRAの核心は一言で言えます:各層で最も頻繁に活性化されるエキスパートのみにLoRAを追加し、他はそのままにする。

シンプルすぎると思うかもしれません。

しかし実験結果は明確です。

OlMoE-1B-7Bでは、HELLoRAはvanilla LoRAの15.7%の学習パラメータを使用し、アダプタFLOPsを38.7%削減、トレーニングスループットを1.9倍向上させ、精度が9.2%向上しました。

このアイデアの価値は技術的な複雑さにはありません。重要なのは、スパース構造でパラメータ効率的ファインチューニングを行う場合、スパース性自体を活用すべきだという洞察です。

論文:HELLoRA