C
ChaoBro

パラメータ拡大なし、ただループする:Fully Looped Transformerが推論計算量を調整可能なノックに変える

パラメータ拡大なし、ただループする:Fully Looped Transformerが推論計算量を調整可能なノックに変える

モデルを強くしたいなら、パラメータを増やすのが最も直接的な方法。でもコストはどんどん上がっていく。

Looped Transformerは別の道を試みる:同じTransformerブロックを再利用。推論時にループを増やすほど効果が良くなる。

問題はループ回数が増えると訓練が崩れること。

Fully Looped Transformerの解決策

追加パラメータゼロの2つの変更:

完全ループアーキテクチャ。 ループ間の信号を全層に分散。残差爆発を緩和。

アテンション注入。 既存のアテンションモジュールを再利用して勾配振動を抑制。

結果?従来のモデルは12回のループで崩壊、Fully Looped Transformerは安定して訓練完了。下流タスクの平均性能を最大13.2%向上。

論文:Fully Looped Transformer