拡散モデルは画像・動画生成では確固たる地位を築いたが、言語モデリングでは苦戦してきた。
理由は単純——画像や動画のデータは本質的に連続だが、言語は離散的。文字はトークンであり、「半分の文字」は存在しない。
Meta FAIRの何愷明チームのアプローチは直接的:離散空間でうまくいかないなら、離散空間でやるな。
ELFのコアアイデア
**ELF(Embedded Language Flows)**の核心:
- テキストを連続埋め込み空間にマッピング
- 埋め込み空間でFlow Matchingを実行
- 最終ステップでのみ離散トークンに変換
実験結果
ELFは生成品質において既存の離散・連続DLMを大幅に上回り、サンプリングステップ数も少ない。
主な情報源: