xAI сделал ещё один шаг вперёд на мобильных устройствах.
В приложении Grok для iOS появился режим Imagine Agent Mode, позволяющий пользователям генерировать изображения и видео напрямую через нативно оптимизированный интерфейс, поддерживающий сложные многошаговые рабочие процессы.
Не обёртка WebView. Нативный UI.
Что произошло
Ранний предварительный просмотр Imagine Agent Mode появился в iOS-приложении Grok. В отличие от десктопной версии функции Imagine, эта мобильная версия специально оптимизирована для взаимодействия на экране телефона.
Два ключевых изменения:
Во-первых, агентизация. Это не просто «введите промпт → получите изображение». Imagine Agent Mode поддерживает более сложные рабочие процессы — он может понимать многошаговые инструкции, автоматически разбивать задачи генерации и даже обеспечивать согласованность между изображениями и видео. xAI использовала фразу "more complex workflows" в своём анонсе, что подразумевает нечто большее, чем просто обновление фронтенда.
Во-вторых, нативный опыт. Они не пошли по пути WebView — они создали нативный UI. Это означает более быструю загрузку, жестовое взаимодействие и интеграцию с системными возможностями iOS (например, прямое сохранение в Фото, публикация в социальных приложениях) — всё это будет на ступень выше веб-версии.
Где это находится
Поместите это в более широкую картину:
xAI превращает Grok из «чат-бота» в «мультимодальный инструмент для творчества». Imagine Agent — это не новая функция — десктопная версия уже имела генерацию изображений. Но перенос её в нативное iOS-приложение с агентизированными рабочими процессами — это обновление формы продукта.
Как обстоят дела у конкурентов:
- ChatGPT: iOS-приложение поддерживает генерацию изображений GPT-4o и понимание видео, но агентные рабочие процессы в стиле Imagine ещё не попали на мобильные устройства
- Claude: iOS-приложение фокусируется на общении и обработке документов, с ограниченной генерацией изображений
- Gemini: Есть генерация изображений Imagen, но агентизация на iOS посредственная
xAI действительно опережает в этой конкретной нише.
Но не спешите радоваться
Мобильная генерация изображений/видео имеет жёсткие ограничения:
Вычисления не локальные. Генерация Grok полностью зависит от облачного кластера Colossus. Это означает задержку сети, время ожидания в очереди, ограничения параллелизма — всё это усиливается на мобильных устройствах. У пользователей, достающих телефон для ожидания генерации изображения, терпения гораздо меньше, чем у тех, кто сидит за компьютером.
Качество на высоте? Пока нет данных сторонних тестов о качестве и скорости генерации на ранней стадии предварительного просмотра. Типичный паттерн xAI — сначала выпустить функции, а потом оптимизировать, так что первая версия может быть не идеальной.
Сложность рабочих процессов vs размер экрана. Управление сложными многошаговыми процессами генерации на маленьком экране телефона — это вызов для дизайна взаимодействия. Если сделано плохо, «сложные рабочие процессы» станут负担ом, а не преимуществом.
За чем следить
Собственное заявление xAI — "getting quite ahead of everyone else on this front". Половина этого верна — в нише мобильной агентизированной генерации изображений/видео Grok действительно лидирует.
Другая половина зависит от данных: удержание пользователей, оценки качества генерации и скорость сокращения функционального разрыва с десктопом. Эти цифры покажут, является ли это преимуществом продукта или маркетинговой шумихой.
Следующее крупное обновление Grok ожидается летом. Если к тому времени Imagine Agent Mode добавит предварительный просмотр в реальном времени и более сильную согласованность видео, стоит вернуться и проверить.
Основные источники: