Google I/O 2026 的 keynote 上,DeepMind CTO Koray Kavukcuoglu 和 Jeff Dean 联手登场,宣布了一个不算意外但依然值得关注的消息:Gemini 3.5 系列来了。首发的是 3.5 Flash,3.5 Pro 已经在内部跑着,下个月出。
3.5 Flash 的定位很明确——不是来刷榜的,是给 Agent 用的。
数字先看
Terminal-Bench 2.1 上跑到 76.2%,GDPval-AA 上 1656 Elo,MCP Atlas 83.6%。在 CharXiv Reasoning 多模态理解上拿了 84.2%。这些分数意味着什么?简单说:在编码和 Agent 任务上,3.5 Flash 超过了自家上一代 3.1 Pro。
速度是另一个卖点。Google 声称输出 token 速度是其他前沿模型的 4 倍。这个数字我没有独立验证过,但如果属实,对于需要大量交互的 Agent 工作流来说,延迟确实是一个可以接受的 tradeoff。
Agentic 才是核心
3.5 Flash 最大的变化不是"更聪明",而是"更耐跑"。长时间多步任务的执行能力是这次的重点。Google 演示了几个案例:
- 用两个 subagent 在 6 小时内从零合成 AlphaZero 论文并写出可运行的游戏代码
- 把一堆乱七八糟的 legacy 代码库迁移到 Next.js
- 银行用它自动处理 100+ 页的合规文档
这些都是需要模型持续规划、执行、检查、迭代的工作。过去的模型在这种任务上很容易跑偏或者中途放弃,3.5 Flash 的设计目标是降低这种失败率。
配合 Antigravity(Google 新推出的 agent-first 开发平台),3.5 Flash 可以调度多个 subagent 并行工作。这个思路其实和 Anthropic 的 computer use 以及 OpenAI 的 operator 类似,但 Google 的打法更偏工程化——直接集成到 AI Studio 和 Android Studio 里。
价格呢?
Google 提到 3.5 Flash 的成本"不到其他前沿模型的一半",但没有给出具体的 API 价格表。这个信息需要在后续文档中确认。如果价格真能压到一半,加上 4 倍速度,对已经用上 Agent 框架的开发者来说,迁移的理由是充分的。
值得跟进的点
3.5 Flash 已经在 Gemini App、Google Search AI 模式、Gemini API、AI Studio 和 Android Studio 上线。企业用户可以在 Gemini Enterprise Agent Platform 使用。
但我建议等 3.5 Pro 出来再做最终评估。Flash 系列一贯是性价比路线,Pro 才是真正的前沿能力代表。如果 Pro 能在 Flash 的速度基础上再拉升一个档次,那 Google 在 I/O 这一波确实交出了有竞争力的答卷。
主要来源: