C
ChaoBro

Команда Каймин Хе выпускает ELF: Диффузионные языковые модели в непрерывном пространстве эмбеддингов

Команда Каймин Хе выпускает ELF: Диффузионные языковые модели в непрерывном пространстве эмбеддингов

Диффузионные модели прочно закрепились в генерации изображений и видео, но испытывали трудности в языковом моделировании.

Причина проста — данные изображений и видео по своей природе непрерывны, а язык дискретен.

Подход команды Каймин Хе из Meta FAIR прямой: если дискретное пространство не работает, не работайте в дискретном пространстве.

Основная идея ELF

ELF (Embedded Language Flows) — ключевая операция:

  1. Маппинг текста в непрерывное пространство эмбеддингов
  2. Запуск Flow Matching в пространстве эмбеддингов
  3. Только на последнем шаге — маппинг обратно в дискретные токены

Основные источники: