核心发布
Google 正式推出 Gemini 3.1 Ultra,将上下文窗口推向了 200 万 token 级别,且是原生多模态——文本、图像、音频、视频全部在一个模型中统一处理,不再需要拼接多个模型。
关键指标对比
| 维度 | Gemini 3.1 Ultra | Gemini 3.0 Ultra | Claude Opus 4.6 |
|---|---|---|---|
| 上下文窗口 | 2M tokens | 1M tokens | 1M tokens |
| 模态支持 | 文本+图像+音频+视频 | 文本+图像+音频 | 文本+图像 |
| 多模态方式 | 原生统一 | 原生统一 | 多模型拼接 |
| 发布节奏 | 2026.05 | 2026.02 | 2026.04 |
2M 上下文意味着什么
200 万 token 约等于:
- 150 万英文单词或 100 万中文字符
- 一本 1500 页的技术书籍
- 一部完整电影的完整转录 + 分镜描述
- 1000 页代码库的全部内容
在单一推理请求中处理这些数据量,意味着 RAG(检索增强生成)的需求可能被重新定义——当上下文窗口足够大时,“检索”这一步骤可能变得不再必要。
Gemini 生态的四个层次
Google 正在构建分层产品策略:
- Gemini Chat(免费层):日常问答,使用 3.1 Pro 处理复杂问题
- Gemini Advanced(订阅层):解锁 Ultra 模型,2M 上下文
- Gemini API(开发者层):按量计费,支持 Fine-tuning
- Gemini Enterprise(企业层):私有化部署选项
同时,LMSys 竞技场已出现新版 Gemini Flash 模型的评测记录(可能是 3.5 版本),结合 Google I/O 大会即将召开的背景,预计会有更大幅度的产品更新。
竞争格局判断
当前上下文窗口军备竞赛已进入新阶段:
- Gemini 3.1 Ultra:2M,领跑
- Claude Opus 4.6:1M,紧随
- GPT-5.5:200K,差距明显但 Agentic 能力领先
- Qwen 3.6 Max:262K,性价比优势
对于大多数应用场景,262K-1M 已完全够用。2M 的价值主要在一次性处理超大规模文档(如法律卷宗、医学文献、完整代码仓库)的场景中体现。
行动建议
- 长文档分析需求者:优先试用 Gemini 3.1 Ultra,2M 上下文在处理完整书籍/代码库时无需分块
- 多模态工作流用户:原生统一处理避免了多模型串联的信息损失
- 成本敏感用户:关注 Gemini Flash 的更新,Google I/O 后可能会有新定价策略
- 开发者:API 已可用,建议测试 2M 上下文下的实际 token 消耗和性能表现