C
ChaoBro

xAI 上线 Grok 图像生成质量模式:已驱动 3 亿张图片,面向企业开放

xAI 上线 Grok 图像生成质量模式:已驱动 3 亿张图片,面向企业开放

xAI 今天宣布 Grok 图像生成 Quality Mode 正式接入 API。

这不是什么"我们也做了一个文生图"的故事——这个模型已经在 Grok 平台上跑了 3 亿张图片的生成量。 先在自己产品上验证,再对外开放,这个节奏比很多 AI 公司的发布靠谱。

三个改进方向

xAI 列了三个重点:

更高真实感。 这个不用多解释,所有图像生成模型都在卷的方向。关键是 Grok 用的训练数据和方法——如果能在人物皮肤、光影、材质上做到接近 Midjourney v6 的水平,API 市场就有竞争力。

更强的文字渲染。 这是图像生成领域长期以来的痛点。DALL-E 3 在文字渲染上领先,Midjourney v6 跟上了,Stable Diffusion 3 也有进步。Grok 如果能在这个维度进入第一梯队,对做海报、广告、电商图的企业客户是实打实的价值。

更好的创意控制。 意思是可控性——风格迁移、构图控制、局部编辑。这类能力对 B 端客户比 C 端用户重要得多。

3 亿张图片的数据优势

这才是最值得注意的点。

3 亿张图片的生成量意味着什么?意味着 Grok 的图像模型已经在真实用户场景里跑了足够多的数据——用户喜欢什么风格、什么提示词容易出好图、什么场景的生成质量不稳定,这些数据都在。

图像生成模型的迭代不是纯靠算法,更多是靠数据反馈。 3 亿张的用户行为数据,比实验室里的 benchmark 跑分有用得多。

竞争格局

图像生成 API 市场现在的玩家:

  • OpenAI DALL-E 3:集成在 ChatGPT 和 API 里,文字渲染强
  • Midjourney:C 端最强,但 API 开放程度有限
  • Stability AI SD3:开源生态最大,但商业化还在摸索
  • Google Imagen:深度集成 Google 生态
  • xAI Grok:新入局,但有 Grok 平台的 3 亿张数据打底

Grok 图像生成 API 的差异化可能在于:跟 Grok 文本模型的深度集成。 xAI 一直在推"多模态统一"的叙事,图像生成不应该是独立模块,而是跟文本理解、推理能力打通的整体。

我的判断

图像生成这个赛道已经卷到"差不多"的阶段了——各家在真实感上差距不大,决定胜负的可能是生态整合和价格。

xAI 这次开放 API,如果定价激进(考虑到它一直走的是性价比路线),可能会对中小企业的图像生成选型产生影响。但如果价格跟 DALL-E 3 差不多,那用户没有理由从成熟平台迁移。

价格页还没公布,先观望。

Grok 4.3 API 上线

多模态模型竞争

Qwen 图像模型排行


主要来源:xAI 官方推文(@xai)