HiDream-O1-Image с открытым исходным кодом: пиксельный Unified Transformer от Китая входит в топ-8 Arena генерации изображений

8 мая HiDream открыла исходный код HiDream-O1-Image (кодовое имя: Peanut) на Hugging Face — модели генерации изображений с 8 млрд параметров. Лицензия MIT.

Две вещи делают этот проект примечательным.

Архитектура: без обходных путей

Большинство современных моделей генерации изображений используют диффузионную модель + VAE. HiDream-O1-Image идёт более прямым путём:

Единый Pixel-level Unified Transformer, обученный напрямую на сырых пикселях. Без внешнего VAE, без отдельного текстового кодировщика. Текст и изображение объединены в едином токеном пространстве.

Обратная сторона — более высокие вычислительные затраты. Обработка пикселей напрямую обходится дороже, чем работа со сжатыми латентами.

Возможности: больше, чем text-to-image

HiDream-O1-Image объединяет несколько функций в одной модели:

Генерация изображений из текста, до 2048×2048
Рендеринг длинного текста и компоновка
Редактирование изображений по инструкции
Персонализация на основе объекта
Генерация раскадровок

Встроенный Reasoning-Driven Prompt Agent — перед генерацией модель «думает», решая проблемы неявных знаний и компоновки.

Результаты

На Artificial Analysis Text to Image Arena HiDream-O1-Image занимает 8 место (на 5 мая 2026 года). Среди моделей с открытыми весами — лучший результат.

Основные источники:

Архитектура: без обходных путей

Возможности: больше, чем text-to-image

Результаты

Похожие материалы

Open Source генератор маньхуа с 1,4k звёздами: загрузи сценарий — получи анимационное видео

Наблюдение за AI-проектами GitHub на этой неделе: финансовые агенты Anthropic набрали 8800 звёзд за неделю, инструментальная цепочка агентов взрывается

TanStack AI: команда фронтенд-инфраструктуры создаёт ИИ SDK — фреймворк-независимость реальная потребность или просто трюк?