C
ChaoBro

Gemini 3.1 Flash-Lite が GA に:Google が API 価格を $0.25/M まで引き下げ

Gemini 3.1 Flash-Lite が GA に:Google が API 価格を $0.25/M まで引き下げ

プレスコンファレンスなし。ブログ記事なし。Google は Gemini 3.1 Flash-Lite を OpenRouter 経由でいきなり GA に切り替えた。

価格は容赦ない:入力 $0.25/M トークン、出力 $1.50/M。今のスモールモデル価格戦争において、これは競争的どころか破壊的だ。

仕様一覧

Flash-Lite は Flash の廉価版じゃない——別のレーンだ:

  • マルチモーダル入力:テキスト、画像、動画、音声、PDF → テキスト出力
  • 1M コンテキストウィンドウ:3.1 Ultra と同格
  • 推論レベルの選択:低/中/高、用途に合わせて調整可能
  • service_tier パラメータ:OpenRouter の新機能、コストとレイテンシのトレードオフを切り替え

プレビュー版 gemini-3.1-flash-lite-preview は5月11日で更新停止、5月25日で完全シャットダウン。Google は猶予をほとんど残していない。

この価格が意味すること

現在の API 価格戦争 の文脈で Flash-Lite を見てみよう:

入力 $0.25/M は、先月まで最安だったフロントティアのモデルすら undercut する。大量のドキュメント処理、翻訳、または高頻度の軽量 Agent 呼び出しがワークフローにあるなら、これは「検討に値する」レベルじゃない——「使わない理由がない」レベルだ。

出力 $1.50/M も悪くない。でも入力価格に騙されるな。長い応答シナリオでは出力トークンが請求書の大部分を占める。Flash-Lite の得意領域はまさにその逆:短い出力。分類、要約、翻訳、データクリーニング。

3.2 Flash との関係

昨日の Gemini 3.2 Flash リーク の記事で Google が命名体系を組み替えていると書いた。フルラインナップを今見てみると、Flash-Lite は三段構えの最下層だ:

階層 ポジショニング
3.1 Ultra フラッグシップ、2M コンテキスト、最高額
3.2 Flash ミドルレンジ、速度と推論のバランス
3.1 Flash-Lite 低コスト・高スループット、Agent バルク呼び出し

3 つのティア、役割分担は明確。Flash-Lite は Opus や GPT-5.5 と推論能力で競うためにあるんじゃない——量で勝負するモデルだ。

誰が使うべきで、誰が使うべきじゃないか

向いている人

  • 大量のドキュメント・翻訳を処理するパイプライン
  • Agent フレームワーク内の高頻度軽量呼び出し(ツール選択、意図分類、フォーマット検証)
  • コストに敏感なバッチジョブ

向いていない人

  • 複雑な推論タスク(コーディング、数学、長い論理連鎖)
  • service_tier を細かく調整しない限りレイテンシがクリティカルな場面
  • マルチモーダル出力が必要なタスク(出力はテキストのみ)

ひとつの観察

Google が Google I/O を待たず OpenRouter 経由でローンチしたという選択は示唆的だ。先月の Google I/O ティザー では Gemini Omni にスポットライトを当てたが、Flash-Lite のようなインフラグレードのモデルはステージを必要としない。API カタログに放り込めば、開発者が勝手に見つけてくれる。

この静黙リリースのやり方は Google の常套手段になりつつある。キーノートなし、マーケティングなし、ただ価格を十分低く下げて、請求書に語らせる。

プレビューシャットダウンまで3週間切った。パイプラインでまだ gemini-3.1-flash-lite-preview を使っているなら、今が移行のタイミングだ。


主要情報源:

  • OpenRouter Gemini 3.1 Flash-Lite ページ
  • Google DeepMind 公式 X アカウント (@GoogleDeepMind)、2026-05-07 投稿
  • OpenRouter アナウンススレッド(プレビュー版非推奨スケジュール)