5月8日、HiDream は Hugging Face 上で HiDream-O1-Image(コードネーム: Peanut)をオープンソース化した。8B パラメータの画像生成基盤モデル。MIT ライセンス。
このプロジェクトが注目される理由は2つある。
アーキテクチャ:回り道をしない
現在の主流の画像生成モデルの多くは拡散モデル + VAE のルートを取る。HiDream-O1-Image のアプローチはより直接的だ:
単一の Pixel-level Unified Transformer で、生ピクセル上で直接訓練。 外部 VAE なし、独立したテキストエンコーダなし。テキストと画像が単一の共有トークン空間で統一処理される。
これにはトレードオフがある。ピクセルを直接処理するのは圧縮された latent を扱うよりも計算コストが高いのだ。8B パラメータがこのアーキテクチャでどのような効率を出すかは、コミュニティの実測を待つ必要がある。
機能:テキストから画像だけではない
HiDream-O1-Image は単なる text-to-image ではない:
- テキストから画像生成、最大 2048×2048 解像度
- 長文レンダリングとレイアウト — 生成画像内で複数領域・多言語のテキストを正確にレンダリング
- 指示ベースの画像編集
- 主題駆動のパーソナライゼーション(新しいシーンでアイデンティティを保持)
- ストーリーボード生成
組み込みの Reasoning-Driven Prompt Agent も特徴。生成前にモデルが「思考」し、プロンプト内の暗黙的な知識、レイアウト、テキストレンダリングの問題を解決する。
結果
Artificial Analysis Text to Image Arena で、HiDream-O1-Image は 8 位(2026年5月5日現在)。オープンウェイトモデルの中で現在最高の結果。
主要情報源: