核心发布
Google在本月发布了Gemini 3.1 Ultra——被AI Tools Recap评为"本月最重要的基础设施级发布"。
三个关键特性值得单独拎出来:
200万token上下文窗口
这不是小数字。200万token大约相当于150万英文单词,或者一本600页小说的1.5倍。在这个上下文窗口里,Gemini可以:
- 一次性阅读整本技术文档
- 分析数小时的会议记录
- 处理大型代码库的全量代码
相比之下,OpenAI GPT-4o的上下文窗口是128K token,Claude Opus 4是200K。Gemini 3.1 Ultra的上下文是竞争对手的10-15倍。
真正的原生多模态
Gemini 3.1 Ultra的"原生多模态"不是营销话术。它直接在文本、图像、音频和视频之间操作,不需要转录中间层。
这意味着什么?以往的多模态模型处理视频时,通常先把视频帧转为文字描述,再进行分析——这个过程会丢失大量视觉和时间信息。Gemini 3.1 Ultra直接在原始视频帧上操作,保留了完整的时空信息。
内置沙盒代码执行
Gemini 3.1 Ultra自带一个沙盒化的Code Execution工具——模型可以在对话中编写并运行代码。这不是"推荐一段代码给你",而是直接在安全沙盒里执行,把结果返回给你。
对于数据分析、科学计算、可视化等场景,这基本上消灭了"复制代码→打开Jupyter→粘贴→运行→看结果"的整个流程。
Google的时间线
这个发布并非孤立事件。Google正在密集的AI发布周期中:
- 5月12日:Google Android Show直播,预告Android 17、Gemini agentic更新
- 5月19-20日:Google I/O 2026大会
Gemini 3.1 Ultra在这个时间点发布,显然是为I/O大会预热。可以合理预期,I/O上会有更多关于Gemini生态的产品发布。
竞争格局
Google在模型竞赛中的位置正在发生微妙变化:
| 维度 | Google Gemini 3.1 Ultra | Anthropic Claude | OpenAI GPT-5.5 |
|---|---|---|---|
| 上下文窗口 | 200万token | 200K token | 128K token |
| 原生多模态 | ✅ 文本/图像/音频/视频 | ✅ 文本/图像 | ✅ 文本/图像/音频 |
| 代码执行 | ✅ 沙盒内置 | ❌ 需Claude Code | ❌ 需Codex |
| 开源策略 | 部分开源 | 闭源 | 闭源 |
Google的策略越来越清晰:用基础设施优势(算力、上下文、多模态深度)建立技术护城河,同时保持部分开源策略吸引开发者社区。
隐忧
200万token上下文不是免费的。推理成本会指数级增长,特别是在处理满容量上下文时。Google如何定价、如何在性能和成本之间平衡,将是决定这个特性能否大规模落地的关键。
此外,"上下文越大越好"这个假设本身也需要验证。研究表明,当上下文窗口过大时,模型的注意力分配可能变得低效——它可能"看到"了所有信息,但无法精准地聚焦在最相关的部分。