C
ChaoBro

HiDream-O1-Image オープンソース:VAE に依存しないピクセルレベル Unified Transformer、中国チームの画像生成モデルが Arena 8 位に

HiDream-O1-Image オープンソース:VAE に依存しないピクセルレベル Unified Transformer、中国チームの画像生成モデルが Arena 8 位に

5月8日、HiDream は Hugging Face 上で HiDream-O1-Image(コードネーム: Peanut)をオープンソース化した。8B パラメータの画像生成基盤モデル。MIT ライセンス。

このプロジェクトが注目される理由は2つある。

アーキテクチャ:回り道をしない

現在の主流の画像生成モデルの多くは拡散モデル + VAE のルートを取る。HiDream-O1-Image のアプローチはより直接的だ:

単一の Pixel-level Unified Transformer で、生ピクセル上で直接訓練。 外部 VAE なし、独立したテキストエンコーダなし。テキストと画像が単一の共有トークン空間で統一処理される。

これにはトレードオフがある。ピクセルを直接処理するのは圧縮された latent を扱うよりも計算コストが高いのだ。8B パラメータがこのアーキテクチャでどのような効率を出すかは、コミュニティの実測を待つ必要がある。

機能:テキストから画像だけではない

HiDream-O1-Image は単なる text-to-image ではない:

  • テキストから画像生成、最大 2048×2048 解像度
  • 長文レンダリングとレイアウト — 生成画像内で複数領域・多言語のテキストを正確にレンダリング
  • 指示ベースの画像編集
  • 主題駆動のパーソナライゼーション(新しいシーンでアイデンティティを保持)
  • ストーリーボード生成

組み込みの Reasoning-Driven Prompt Agent も特徴。生成前にモデルが「思考」し、プロンプト内の暗黙的な知識、レイアウト、テキストレンダリングの問題を解決する。

結果

Artificial Analysis Text to Image Arena で、HiDream-O1-Image は 8 位(2026年5月5日現在)。オープンウェイトモデルの中で現在最高の結果。

主要情報源: