Диффузионные модели прочно закрепились в генерации изображений и видео, но испытывали трудности в языковом моделировании.
Причина проста — данные изображений и видео по своей природе непрерывны, а язык дискретен.
Подход команды Каймин Хе из Meta FAIR прямой: если дискретное пространство не работает, не работайте в дискретном пространстве.
Основная идея ELF
ELF (Embedded Language Flows) — ключевая операция:
- Маппинг текста в непрерывное пространство эмбеддингов
- Запуск Flow Matching в пространстве эмбеддингов
- Только на последнем шаге — маппинг обратно в дискретные токены
Основные источники: