C
ChaoBro

HiDream-O1-Image с открытым исходным кодом: пиксельный Unified Transformer от Китая входит в топ-8 Arena генерации изображений

HiDream-O1-Image с открытым исходным кодом: пиксельный Unified Transformer от Китая входит в топ-8 Arena генерации изображений

8 мая HiDream открыла исходный код HiDream-O1-Image (кодовое имя: Peanut) на Hugging Face — модели генерации изображений с 8 млрд параметров. Лицензия MIT.

Две вещи делают этот проект примечательным.

Архитектура: без обходных путей

Большинство современных моделей генерации изображений используют диффузионную модель + VAE. HiDream-O1-Image идёт более прямым путём:

Единый Pixel-level Unified Transformer, обученный напрямую на сырых пикселях. Без внешнего VAE, без отдельного текстового кодировщика. Текст и изображение объединены в едином токеном пространстве.

Обратная сторона — более высокие вычислительные затраты. Обработка пикселей напрямую обходится дороже, чем работа со сжатыми латентами.

Возможности: больше, чем text-to-image

HiDream-O1-Image объединяет несколько функций в одной модели:

  • Генерация изображений из текста, до 2048×2048
  • Рендеринг длинного текста и компоновка
  • Редактирование изображений по инструкции
  • Персонализация на основе объекта
  • Генерация раскадровок

Встроенный Reasoning-Driven Prompt Agent — перед генерацией модель «думает», решая проблемы неявных знаний и компоновки.

Результаты

На Artificial Analysis Text to Image Arena HiDream-O1-Image занимает 8 место (на 5 мая 2026 года). Среди моделей с открытыми весами — лучший результат.

Основные источники: