モデルを強くしたいなら、パラメータを増やすのが最も直接的な方法。でもコストはどんどん上がっていく。
Looped Transformerは別の道を試みる:同じTransformerブロックを再利用。推論時にループを増やすほど効果が良くなる。
問題はループ回数が増えると訓練が崩れること。
Fully Looped Transformerの解決策
追加パラメータゼロの2つの変更:
完全ループアーキテクチャ。 ループ間の信号を全層に分散。残差爆発を緩和。
アテンション注入。 既存のアテンションモジュールを再利用して勾配振動を抑制。
結果?従来のモデルは12回のループで崩壊、Fully Looped Transformerは安定して訓練完了。下流タスクの平均性能を最大13.2%向上。