5 月 8 日,HiDream 在 Hugging Face 上开源了 HiDream-O1-Image(代号 Peanut),一个 8B 参数的图像生成基础模型。MIT 许可。
这个项目有两个值得注意的地方。
架构:不绕弯子
当前主流的图像生成模型大多走扩散模型 + VAE 的路线——先把像素压缩到潜空间,在潜空间里生成,再解码回像素。HiDream-O1-Image 的做法更直接:
一个 Pixel-level Unified Transformer,直接在原始像素上训练。 没有外部 VAE,没有独立的文本编码器,文本和图像在同一个 token 空间里被统一处理。
这听起来像是把简单的事情变复杂了,但实际上减少了一个关键的误差来源:VAE 的压缩损失。当模型直接在像素层面学习时,它看到的、生成的都是原始像素,没有中间转换带来的信息丢失。
当然,代价是计算量更大——毕竟直接处理像素比处理压缩后的 latent 要贵得多。8B 参数跑在这个架构上,效率如何,还需要社区实测来回答。
能力:不只是文生图
HiDream-O1-Image 的野心不止于文生图。它在一个模型里集成了:
- 文本到图像生成,最高支持 2048×2048 分辨率
- 长文本渲染与排版——能在生成的图像中准确呈现多区域、多语言的文本
- 指令式图像编辑
- 主题驱动的个性化生成(保持身份/IP 在新场景中的一致性)
- 故事板生成
还有一个内置的 Reasoning-Driven Prompt Agent——在生成之前,模型会先"思考"一下,解决提示词中的隐含知识、布局和文本渲染问题。这有点像 GPT 的 thinking 模式被搬到了图像生成流程里。
成绩
在 Artificial Analysis Text to Image Arena 中,HiDream-O1-Image 位列第八(截至 2026 年 5 月 5 日)。在开源权重模型中,这是目前最好的成绩。
开源两天,Hugging Face 上已有 124 个 like 和 1.2k 关注者。技术报告同步发布。
值不值得试
如果你在做图像生成相关工作,这个项目值得花 30 分钟跑一遍 demo。理由:
- MIT 许可,商用无障碍
- 像素级架构是一个有别于扩散模型的技术路线,值得关注
- 长文本渲染能力在开源模型中比较少见
- HiDream 团队之前已经在图像生成领域有不错的积累
但也要有心理预期:直接像素生成的计算成本会比 VAE-based 方案高不少,消费级 GPU 上跑 2048×2048 可能需要一些耐心。
Dev 蒸馏版本也已开源,如果对生成质量要求不是极致,Dev 版本会更友好。
主要来源: