HiDream-O1-Image オープンソース：VAE に依存しないピクセルレベル Unified Transformer、中国チームの画像生成モデルが Arena 8 位に

5月8日、HiDream は Hugging Face 上で HiDream-O1-Image（コードネーム: Peanut）をオープンソース化した。8B パラメータの画像生成基盤モデル。MIT ライセンス。

このプロジェクトが注目される理由は2つある。

アーキテクチャ：回り道をしない

現在の主流の画像生成モデルの多くは拡散モデル + VAE のルートを取る。HiDream-O1-Image のアプローチはより直接的だ：

単一の Pixel-level Unified Transformer で、生ピクセル上で直接訓練。 外部 VAE なし、独立したテキストエンコーダなし。テキストと画像が単一の共有トークン空間で統一処理される。

これにはトレードオフがある。ピクセルを直接処理するのは圧縮された latent を扱うよりも計算コストが高いのだ。8B パラメータがこのアーキテクチャでどのような効率を出すかは、コミュニティの実測を待つ必要がある。

HiDream-O1-Image は単なる text-to-image ではない：

組み込みの Reasoning-Driven Prompt Agent も特徴。生成前にモデルが「思考」し、プロンプト内の暗黙的な知識、レイアウト、テキストレンダリングの問題を解決する。

Artificial Analysis Text to Image Arena で、HiDream-O1-Image は 8 位（2026年5月5日現在）。オープンウェイトモデルの中で現在最高の結果。

主要情報源：