HiDream-O1-Image 开源：不靠 VAE 的像素级统一 Transformer，中国团队的图像生成模型冲进 Arena 前八

5 月 8 日，HiDream 在 Hugging Face 上开源了 HiDream-O1-Image（代号 Peanut），一个 8B 参数的图像生成基础模型。MIT 许可。

这个项目有两个值得注意的地方。

架构：不绕弯子

当前主流的图像生成模型大多走扩散模型 + VAE 的路线——先把像素压缩到潜空间，在潜空间里生成，再解码回像素。HiDream-O1-Image 的做法更直接：

一个 Pixel-level Unified Transformer，直接在原始像素上训练。 没有外部 VAE，没有独立的文本编码器，文本和图像在同一个 token 空间里被统一处理。

这听起来像是把简单的事情变复杂了，但实际上减少了一个关键的误差来源：VAE 的压缩损失。当模型直接在像素层面学习时，它看到的、生成的都是原始像素，没有中间转换带来的信息丢失。

当然，代价是计算量更大——毕竟直接处理像素比处理压缩后的 latent 要贵得多。8B 参数跑在这个架构上，效率如何，还需要社区实测来回答。

HiDream-O1-Image 的野心不止于文生图。它在一个模型里集成了：

还有一个内置的 Reasoning-Driven Prompt Agent——在生成之前，模型会先"思考"一下，解决提示词中的隐含知识、布局和文本渲染问题。这有点像 GPT 的 thinking 模式被搬到了图像生成流程里。

在 Artificial Analysis Text to Image Arena 中，HiDream-O1-Image 位列第八（截至 2026 年 5 月 5 日）。在开源权重模型中，这是目前最好的成绩。

开源两天，Hugging Face 上已有 124 个 like 和 1.2k 关注者。技术报告同步发布。

如果你在做图像生成相关工作，这个项目值得花 30 分钟跑一遍 demo。理由：

但也要有心理预期：直接像素生成的计算成本会比 VAE-based 方案高不少，消费级 GPU 上跑 2048×2048 可能需要一些耐心。

Dev 蒸馏版本也已开源，如果对生成质量要求不是极致，Dev 版本会更友好。

主要来源：