プレスコンファレンスなし。ブログ記事なし。Google は Gemini 3.1 Flash-Lite を OpenRouter 経由でいきなり GA に切り替えた。
価格は容赦ない:入力 $0.25/M トークン、出力 $1.50/M。今のスモールモデル価格戦争において、これは競争的どころか破壊的だ。
仕様一覧
Flash-Lite は Flash の廉価版じゃない——別のレーンだ:
- マルチモーダル入力:テキスト、画像、動画、音声、PDF → テキスト出力
- 1M コンテキストウィンドウ:3.1 Ultra と同格
- 推論レベルの選択:低/中/高、用途に合わせて調整可能
- service_tier パラメータ:OpenRouter の新機能、コストとレイテンシのトレードオフを切り替え
プレビュー版 gemini-3.1-flash-lite-preview は5月11日で更新停止、5月25日で完全シャットダウン。Google は猶予をほとんど残していない。
この価格が意味すること
現在の API 価格戦争 の文脈で Flash-Lite を見てみよう:
入力 $0.25/M は、先月まで最安だったフロントティアのモデルすら undercut する。大量のドキュメント処理、翻訳、または高頻度の軽量 Agent 呼び出しがワークフローにあるなら、これは「検討に値する」レベルじゃない——「使わない理由がない」レベルだ。
出力 $1.50/M も悪くない。でも入力価格に騙されるな。長い応答シナリオでは出力トークンが請求書の大部分を占める。Flash-Lite の得意領域はまさにその逆:短い出力。分類、要約、翻訳、データクリーニング。
3.2 Flash との関係
昨日の Gemini 3.2 Flash リーク の記事で Google が命名体系を組み替えていると書いた。フルラインナップを今見てみると、Flash-Lite は三段構えの最下層だ:
| 階層 | ポジショニング |
|---|---|
| 3.1 Ultra | フラッグシップ、2M コンテキスト、最高額 |
| 3.2 Flash | ミドルレンジ、速度と推論のバランス |
| 3.1 Flash-Lite | 低コスト・高スループット、Agent バルク呼び出し |
3 つのティア、役割分担は明確。Flash-Lite は Opus や GPT-5.5 と推論能力で競うためにあるんじゃない——量で勝負するモデルだ。
誰が使うべきで、誰が使うべきじゃないか
向いている人:
- 大量のドキュメント・翻訳を処理するパイプライン
- Agent フレームワーク内の高頻度軽量呼び出し(ツール選択、意図分類、フォーマット検証)
- コストに敏感なバッチジョブ
向いていない人:
- 複雑な推論タスク(コーディング、数学、長い論理連鎖)
- service_tier を細かく調整しない限りレイテンシがクリティカルな場面
- マルチモーダル出力が必要なタスク(出力はテキストのみ)
ひとつの観察
Google が Google I/O を待たず OpenRouter 経由でローンチしたという選択は示唆的だ。先月の Google I/O ティザー では Gemini Omni にスポットライトを当てたが、Flash-Lite のようなインフラグレードのモデルはステージを必要としない。API カタログに放り込めば、開発者が勝手に見つけてくれる。
この静黙リリースのやり方は Google の常套手段になりつつある。キーノートなし、マーケティングなし、ただ価格を十分低く下げて、請求書に語らせる。
プレビューシャットダウンまで3週間切った。パイプラインでまだ gemini-3.1-flash-lite-preview を使っているなら、今が移行のタイミングだ。
主要情報源:
- OpenRouter Gemini 3.1 Flash-Lite ページ
- Google DeepMind 公式 X アカウント (@GoogleDeepMind)、2026-05-07 投稿
- OpenRouter アナウンススレッド(プレビュー版非推奨スケジュール)