Google Gemini 3.1 Ultra发布：200万token上下文，原生多模态的时代来了

核心发布

Google在本月发布了Gemini 3.1 Ultra——被AI Tools Recap评为"本月最重要的基础设施级发布"。

三个关键特性值得单独拎出来：

这不是小数字。200万token大约相当于150万英文单词，或者一本600页小说的1.5倍。在这个上下文窗口里，Gemini可以：

相比之下，OpenAI GPT-4o的上下文窗口是128K token，Claude Opus 4是200K。Gemini 3.1 Ultra的上下文是竞争对手的10-15倍。

Gemini 3.1 Ultra的"原生多模态"不是营销话术。它直接在文本、图像、音频和视频之间操作，不需要转录中间层。

这意味着什么？以往的多模态模型处理视频时，通常先把视频帧转为文字描述，再进行分析——这个过程会丢失大量视觉和时间信息。Gemini 3.1 Ultra直接在原始视频帧上操作，保留了完整的时空信息。

Gemini 3.1 Ultra自带一个沙盒化的Code Execution工具——模型可以在对话中编写并运行代码。这不是"推荐一段代码给你"，而是直接在安全沙盒里执行，把结果返回给你。

对于数据分析、科学计算、可视化等场景，这基本上消灭了"复制代码→打开Jupyter→粘贴→运行→看结果"的整个流程。

这个发布并非孤立事件。Google正在密集的AI发布周期中：

Gemini 3.1 Ultra在这个时间点发布，显然是为I/O大会预热。可以合理预期，I/O上会有更多关于Gemini生态的产品发布。

Google在模型竞赛中的位置正在发生微妙变化：

维度	Google Gemini 3.1 Ultra	Anthropic Claude	OpenAI GPT-5.5
上下文窗口	200万token	200K token	128K token
原生多模态	✅ 文本/图像/音频/视频	✅ 文本/图像	✅ 文本/图像/音频
代码执行	✅ 沙盒内置	❌ 需Claude Code	❌ 需Codex
开源策略	部分开源	闭源	闭源

Google的策略越来越清晰：用基础设施优势（算力、上下文、多模态深度）建立技术护城河，同时保持部分开源策略吸引开发者社区。

200万token上下文不是免费的。推理成本会指数级增长，特别是在处理满容量上下文时。Google如何定价、如何在性能和成本之间平衡，将是决定这个特性能否大规模落地的关键。

此外，"上下文越大越好"这个假设本身也需要验证。研究表明，当上下文窗口过大时，模型的注意力分配可能变得低效——它可能"看到"了所有信息，但无法精准地聚焦在最相关的部分。