Gemini 3.1 Ultra 发布：200 万 token 原生多模态上下文，Google I/O 预告新 Flash 模型

核心发布

Google 正式推出 Gemini 3.1 Ultra，将上下文窗口推向了 200 万 token 级别，且是原生多模态——文本、图像、音频、视频全部在一个模型中统一处理，不再需要拼接多个模型。

维度	Gemini 3.1 Ultra	Gemini 3.0 Ultra	Claude Opus 4.6
上下文窗口	2M tokens	1M tokens	1M tokens
模态支持	文本+图像+音频+视频	文本+图像+音频	文本+图像
多模态方式	原生统一	原生统一	多模型拼接
发布节奏	2026.05	2026.02	2026.04

200 万 token 约等于：

在单一推理请求中处理这些数据量，意味着 RAG（检索增强生成）的需求可能被重新定义——当上下文窗口足够大时，“检索”这一步骤可能变得不再必要。

Google 正在构建分层产品策略：

同时，LMSys 竞技场已出现新版 Gemini Flash 模型的评测记录（可能是 3.5 版本），结合 Google I/O 大会即将召开的背景，预计会有更大幅度的产品更新。

当前上下文窗口军备竞赛已进入新阶段：

对于大多数应用场景，262K-1M 已完全够用。2M 的价值主要在一次性处理超大规模文档（如法律卷宗、医学文献、完整代码仓库）的场景中体现。