8 мая HiDream открыла исходный код HiDream-O1-Image (кодовое имя: Peanut) на Hugging Face — модели генерации изображений с 8 млрд параметров. Лицензия MIT.
Две вещи делают этот проект примечательным.
Архитектура: без обходных путей
Большинство современных моделей генерации изображений используют диффузионную модель + VAE. HiDream-O1-Image идёт более прямым путём:
Единый Pixel-level Unified Transformer, обученный напрямую на сырых пикселях. Без внешнего VAE, без отдельного текстового кодировщика. Текст и изображение объединены в едином токеном пространстве.
Обратная сторона — более высокие вычислительные затраты. Обработка пикселей напрямую обходится дороже, чем работа со сжатыми латентами.
Возможности: больше, чем text-to-image
HiDream-O1-Image объединяет несколько функций в одной модели:
- Генерация изображений из текста, до 2048×2048
- Рендеринг длинного текста и компоновка
- Редактирование изображений по инструкции
- Персонализация на основе объекта
- Генерация раскадровок
Встроенный Reasoning-Driven Prompt Agent — перед генерацией модель «думает», решая проблемы неявных знаний и компоновки.
Результаты
На Artificial Analysis Text to Image Arena HiDream-O1-Image занимает 8 место (на 5 мая 2026 года). Среди моделей с открытыми весами — лучший результат.
Основные источники: