C
ChaoBro

Диффузионные модели вторгаются в генерацию текста: возможно, это конец эпохи LLM — ставка Эндрю Нга и Андрея Карпати

Диффузионные модели вторгаются в генерацию текста: возможно, это конец эпохи LLM — ставка Эндрю Нга и Андрея Карпати

В сообществе ИИ тихо распространилась новость: стартап, создающий текст с помощью диффузионных моделей, привлёк seed-инвестиции от Эндрю Нга и Андрея Карпати, а Microsoft и SpaceX активно стремятся войти в раунд финансирования.

Генерация текста с помощью диффузионных моделей? Разве этим не занимаются GPT и подобные им модели?

Не спешите с выводами. Этот случай заслуживает внимания не просто потому, что ещё один стартап получил финансирование — в 2026 году привлечение средств ИИ-компаниями уже не новость, — а потому что диффузионные модели в области генерации текста демонстрируют признаки потенциального свержения доминирования LLM.

Почему диффузионные модели могут оспорить лидерство LLM?

За последние три года LLM практически монополизировали генерацию текста: от ChatGPT до Claude, от Gemini до Wenxin Yiyan — все соревнуются на одной и той же трассе.

Однако у LLM есть фундаментальное ограничение: они автогрессивны. То есть каждая модель генерирует по одному токену за раз, предсказывая следующий на основе уже сгенерированного контекста. Этот процесс линеен и последователен — параллельное выполнение невозможно.

Диффузионные модели работают иначе. Их принцип — сначала создать шум, а затем пошагово устранять его, пока не получится осмысленный текст. У этого процесса есть преимущество, недоступное LLM: каждый шаг может выполняться параллельно.

Что это значит на практике? Теоретически диффузионные модели обладают преимуществом в скорости вывода (inference) на порядки величины. Кроме того, поскольку они не генерируют текст токен за токеном, их выход может быть более стабильным по качеству и лучше сохранять глобальную связность и целостность текста.

Почему именно сейчас?

Диффузионные модели — не новое понятие. Stable Diffusion уже доказала свою эффективность в генерации изображений. Однако текст и изображения — принципиально разные сущности: текст дискретен и символичен, тогда как изображения непрерывны и пиксельны. Перенос диффузионных моделей из области изображений в область текста требует преодоления огромного технологического барьера.

Тот факт, что на текущем этапе компания смогла создать продукт, достойный инвестиций Эндрю Нга и Андрея Карпати, говорит как минимум о двух вещах:

Во-первых, технология дискретных диффузионных моделей достигла прорыва. Возможно, найдены новые методы непрерывного представления токенов в пространстве, либо в процесс удаления шума внедрены более эффективные стратегии языкового моделирования.

Во-вторых, рост вычислительных затрат на LLM стал катализатором. Стоимость вывода LLM чрезвычайно высока, особенно при массовом параллельном использовании. Параллельная архитектура диффузионных моделей как раз решает эту проблему.

Тревога гигантов: страх упустить следующую парадигму

Спешка Microsoft и SpaceX с инвестированием сама по себе говорит о многом: крупные игроки боятся упустить следующий технологический сдвиг.

Вспомним историю: первенство OpenAI в развитии LLM создало колоссальное конкурентное давление для всех остальных. Когда появляется новый технологический подход, естественная реакция гигантов — «застраховаться»: вне зависимости от того, реализуется ли он в полной мере, нужно занять позицию уже сейчас.

Это так называемые «оборонительные инвестиции». В худшем случае — потеря суммы. В лучшем — если технология взлетит, вы останетесь в игре. А если не вложитесь — рискуете оказаться полностью выбитыми из рынка.

С другой стороны, такой интерес со стороны Microsoft и SpaceX говорит и о другом: диффузионные модели для генерации текста действительно содержат что-то стоящее. Профессиональные инвестиционные команды этих компаний не станут платить за чисто маркетинговую шумиху.

Остыньте: LLM не исчезнут так быстро

Несмотря на теоретические преимущества диффузионных моделей, путь к реальному свержению доминирования LLM ещё очень долог.

Во-первых, барьер экосистемы. LLM уже построили масштабную экосистему разработчиков, инструментарий и сценарии применения. Диффузионным моделям придётся начинать всё с нуля.

Во-вторых, обучение и методология. Методология обучения LLM уже чрезвычайно зрелая: предварительное обучение (pre-training), тонкая настройка (SFT), оптимизация с подкреплением (RLHF) — каждый этап имеет обширную научную базу и практический опыт. Методы обучения диффузионных моделей в текстовой области ещё только предстоит проверить и усовершенствовать.

В-третьих, пользовательский опыт. У LLM прекрасный потоковый вывод: пользователь видит, как текст появляется посимвольно. Неясно, сможет ли процесс денойзинга в диффузионных моделях обеспечить аналогичное ощущение живого взаимодействия.

Главный смысл: многообразие технологических подходов

Наиболее важное значение генерации текста с помощью диффузионных моделей, вероятно, заключается не в замене LLM, а в разрушении их монополии и продвижении технологического многообразия.

Последние три года весь индустриальный сектор делал ставку исключительно на автогрессивные языковые модели. Это дало быстрый технический прогресс, но породило и когнитивные ограничения — жёсткую привязку к одной технологии и её методологии.

Появление диффузионных моделей напоминает всем: способов генерации текста существует больше одного. Возможно, оптимальное решение будущего — ни чистый LLM, ни чистая диффузионная модель, а их гибрид.

Инвестиции Эндрю Нга и Андрея Карпати — это ставка не на драматичный сценарий «диффузионные модели убивают LLM», а на простую и глубокую идею: технологические пути должны быть разнообразными.

Это ценнее любой отдельной новости о финансировании.