Google 没开发布会,没发博客,直接在 OpenRouter 上把 Gemini 3.1 Flash-Lite 推成了 GA。
定价很直白:输入 $0.25/M tokens,输出 $1.50/M。这个价格放在今天的小模型战场上,属于直接掀桌子级别。
规格速览
Flash-Lite 不是 Flash 的缩水版——它走的是另一条路线:
- 多模态输入:文本、图片、视频、音频、PDF 都能喂,输出文本
- 1M 上下文窗口:和 3.1 Ultra 同级
- 可选思考层级:低/中/高,按场景调
- service_tier 参数:OpenRouter 新增的 cost/latency 开关,可以在成本和延迟之间做 tradeoff
预览版 gemini-3.1-flash-lite-preview 5 月 11 日停更,5 月 25 日直接关停。Google 这次没留缓冲期。
价格意味着什么
把 Flash-Lite 放进 当前 API 价格战 的上下文里看:
$0.25/M 输入是什么水平?比上个月最便宜的前梯队模型还低一档。如果你的工作流是大批量文档处理、翻译、或者 Agent 的高频轻量调用,这个数字不是"可以考虑"——是"没有理由不用"。
输出 $1.50/M 也不贵,但别被输入价骗了。长回复场景下,输出 token 才是账单的大头。Flash-Lite 适合的任务恰恰是输出短的:分类、摘要、翻译、数据清洗。
和 3.2 Flash 的关系
昨天 Gemini 3.2 Flash 泄露 的文章里提到 Google 正在调整命名体系。现在回头看,Flash-Lite 是这条产品线最底层的棋子:
| 层级 | 定位 |
|---|---|
| 3.1 Ultra | 旗舰,2M 上下文,最贵 |
| 3.2 Flash | 中坚,速度与推理平衡 |
| 3.1 Flash-Lite | 低成本高吞吐,Agent 批量调用 |
三层分工明确。Flash-Lite 不是拿来和 Opus、GPT-5.5 拼推理的——它的战场在量不在质。
谁该用,谁不该
适合:
- 需要处理大量文档/翻译的 pipeline
- Agent 框架里的高频轻量调用(工具选择、意图分类、格式校验)
- 成本敏感的批量任务
不适合:
- 需要复杂推理的场景(写代码、数学、长链式推理)
- 对延迟极度敏感又不想调 service_tier 的场景
- 需要稳定多模态输出的任务(它只输出文本)
一个实际观察
Google 这次选择通过 OpenRouter 先上 GA 而不是等 Google I/O,信号很有意思。上个月 Google 的 I/O 预告 把重头戏押在 Gemini Omni 上,而 Flash-Lite 这种"基建型"模型不需要舞台——它直接进 API catalog,开发者自己会来用。
这种静默发布对 Google 来说越来越像常态。不开发布会,不搞营销,把价格放到足够低,让账单说话。
Preview 版本还有不到三周就关了。如果你的 pipeline 还在跑 gemini-3.1-flash-lite-preview,现在该切了。
主要来源:
- OpenRouter Gemini 3.1 Flash-Lite 页面
- Google DeepMind 官方 X 账号 (@GoogleDeepMind) 2026-05-07 帖文
- OpenRouter 公告帖(预览版弃用时间表)