C
ChaoBro

何愷明チーム、ELFリリース:連続埋め込み空間での拡散言語モデル

何愷明チーム、ELFリリース:連続埋め込み空間での拡散言語モデル

拡散モデルは画像・動画生成では確固たる地位を築いたが、言語モデリングでは苦戦してきた。

理由は単純——画像や動画のデータは本質的に連続だが、言語は離散的。文字はトークンであり、「半分の文字」は存在しない。

Meta FAIRの何愷明チームのアプローチは直接的:離散空間でうまくいかないなら、離散空間でやるな。

ELFのコアアイデア

**ELF(Embedded Language Flows)**の核心:

  1. テキストを連続埋め込み空間にマッピング
  2. 埋め込み空間でFlow Matchingを実行
  3. 最終ステップでのみ離散トークンに変換

実験結果

ELFは生成品質において既存の離散・連続DLMを大幅に上回り、サンプリングステップ数も少ない。


主な情報源: