xAI 在移动端又往前迈了一步。
Grok iOS 应用刚刚上线了 Imagine Agent Mode,用户可以直接在原生优化的界面里生成图像和视频,而且支持需要多步骤协作的复杂工作流。
不是网页套壳,是原生 UI。
发生了什么
Imagine Agent Mode 的早期预览已经在 Grok iOS 应用中出现。和桌面版的 Imagine 功能不同,这次的移动端版本专门做了界面优化,适配手机屏幕的交互逻辑。
核心变化有两个:
第一,Agent 化。 不是简单的"输入提示词 → 出图"。Imagine Agent Mode 支持更复杂的工作流——可以理解多步指令,自动拆解生成任务,甚至在图像和视频之间做连贯性处理。xAI 在推文里用了 "more complex workflows" 这个词,暗示这不仅仅是前端换皮。
第二,原生体验。 没有走 WebView 的捷径,而是做了 native UI。这意味着加载速度、手势交互、和 iOS 系统能力的集成(比如直接保存到相册、分享到社交应用)都会比网页版好一截。
位置在哪
把这件事放在更大的版图里看:
xAI 正在把 Grok 从一个"聊天机器人"变成一个"多模态创作工具"。Imagine Agent 不是新功能——桌面版早就有了图像生成能力。但把它搬进 iOS 原生应用,并且加上 Agent 化的工作流,这是产品形态的升级。
竞争对手们怎么做:
- ChatGPT:iOS 应用支持 GPT-4o 的图像生成和视频理解,但 Imagine 式的 Agent 工作流还没有搬到移动端
- Claude:iOS 应用主要聚焦对话和文档处理,图像生成能力有限
- Gemini:有 Imagen 图像生成,但 iOS 端的 Agent 化程度一般
xAI 在这个细分方向上确实跑在了前面。
但别急着激动
移动端的图像/视频生成有几个硬约束:
算力不在本地。 Grok 的生成能力完全依赖云端 Colossus 集群。这意味着网络延迟、排队时间、并发限制——这些在手机端会被放大。用户掏出手机等一张图生成,耐心比在电脑前短得多。
质量能不能打? 早期预览阶段的生成质量和速度还没有第三方实测数据。xAI 一贯的做法是先上功能再优化,所以第一版体验可能不会太完美。
工作流复杂度 vs 屏幕尺寸。 在手机的小屏幕上操作复杂的多步生成工作流,交互设计是个大挑战。如果做得不好,"复杂工作流"反而会成为负担。
后续观察
xAI 自己的说法是 "getting quite ahead of everyone else on this front"。这个判断有一半是对的——在移动端 Agent 化图像/视频生成这个细分赛道,Grok 确实领先。
但另一半要看数据:用户留存、生成质量评分、和桌面版的功能差距缩小速度。这些数字出来之后,才能真正判断这是产品亮点还是营销噱头。
下一次 Grok 大版本更新预计在夏季,如果到时候 Imagine Agent Mode 能加上实时预览和更强的视频连贯性,值得回来看。
主要来源: