C
ChaoBro

HiDream-O1-Image 开源:不靠 VAE 的像素级统一 Transformer,中国团队的图像生成模型冲进 Arena 前八

HiDream-O1-Image 开源:不靠 VAE 的像素级统一 Transformer,中国团队的图像生成模型冲进 Arena 前八

5 月 8 日,HiDream 在 Hugging Face 上开源了 HiDream-O1-Image(代号 Peanut),一个 8B 参数的图像生成基础模型。MIT 许可。

这个项目有两个值得注意的地方。

架构:不绕弯子

当前主流的图像生成模型大多走扩散模型 + VAE 的路线——先把像素压缩到潜空间,在潜空间里生成,再解码回像素。HiDream-O1-Image 的做法更直接:

一个 Pixel-level Unified Transformer,直接在原始像素上训练。 没有外部 VAE,没有独立的文本编码器,文本和图像在同一个 token 空间里被统一处理。

这听起来像是把简单的事情变复杂了,但实际上减少了一个关键的误差来源:VAE 的压缩损失。当模型直接在像素层面学习时,它看到的、生成的都是原始像素,没有中间转换带来的信息丢失。

当然,代价是计算量更大——毕竟直接处理像素比处理压缩后的 latent 要贵得多。8B 参数跑在这个架构上,效率如何,还需要社区实测来回答。

能力:不只是文生图

HiDream-O1-Image 的野心不止于文生图。它在一个模型里集成了:

  • 文本到图像生成,最高支持 2048×2048 分辨率
  • 长文本渲染与排版——能在生成的图像中准确呈现多区域、多语言的文本
  • 指令式图像编辑
  • 主题驱动的个性化生成(保持身份/IP 在新场景中的一致性)
  • 故事板生成

还有一个内置的 Reasoning-Driven Prompt Agent——在生成之前,模型会先"思考"一下,解决提示词中的隐含知识、布局和文本渲染问题。这有点像 GPT 的 thinking 模式被搬到了图像生成流程里。

成绩

Artificial Analysis Text to Image Arena 中,HiDream-O1-Image 位列第八(截至 2026 年 5 月 5 日)。在开源权重模型中,这是目前最好的成绩。

开源两天,Hugging Face 上已有 124 个 like 和 1.2k 关注者。技术报告同步发布。

值不值得试

如果你在做图像生成相关工作,这个项目值得花 30 分钟跑一遍 demo。理由:

  • MIT 许可,商用无障碍
  • 像素级架构是一个有别于扩散模型的技术路线,值得关注
  • 长文本渲染能力在开源模型中比较少见
  • HiDream 团队之前已经在图像生成领域有不错的积累

但也要有心理预期:直接像素生成的计算成本会比 VAE-based 方案高不少,消费级 GPU 上跑 2048×2048 可能需要一些耐心。

Dev 蒸馏版本也已开源,如果对生成质量要求不是极致,Dev 版本会更友好。

主要来源: