C
ChaoBro

Gemini 3.1 Flash-Lite вышел в GA: Google опустил цену API до $0.25/M

Gemini 3.1 Flash-Lite вышел в GA: Google опустил цену API до $0.25/M

Без пресс-конференции. Без поста в блоге. Google просто переключил Gemini 3.1 Flash-Lite в статус GA через OpenRouter.

Цена без обиняков: $0.25/M входных токенов, $1.50/M выходных. В нынешней ценовой войне среди компактных моделей — это не конкуренция, это зачистка.

Характеристики

Flash-Lite — это не урезанный Flash. Это другая лига:

  • Мультимодальный ввод: текст, изображения, видео, аудио, PDF → текстовый вывод
  • Контекст 1M: на уровне 3.1 Ultra
  • Выбираемые уровни рассуждения: низкий / средний / высокий, настройка под задачу
  • Параметр service_tier: новая функция OpenRouter — переключатель стоимость/задержка

Превью-версия gemini-3.1-flash-lite-preview прекращает обновление 11 мая и полностью отключается 25 мая. Google не оставляет много времени на раздумья.

Что значит эта цена

Посмотрим на Flash-Lite в контексте текущей ценовой войны API:

$0.25/M на ввод дешевле, чем самые доступные модели фронт-тира ещё месяц назад. Если ваш воркфлоу включает пакетную обработку документов, перевод или высокочастотные лёгкие вызовы агентов — это уже не «стоит рассмотреть». Это «нет причин не переключаться».

$1.50/M на вывод тоже адекватно, но не обманывайтесь ценой ввода. В сценариях с длинными ответами именно выходные токены съедают бюджет.Sweet spot Flash-Lite — как раз противоположность: короткие ответы. Классификация, суммаризация, перевод, очистка данных.

Как это вписывается рядом с 3.2 Flash

Вчерашняя статья о утечке Gemini 3.2 Flash упоминала, что Google перетряхивает систему наименований. Теперь, видя полную линейку, Flash-Lite — это нижний уровень трёхступенчатой стратегии:

Уровень Позиционирование
3.1 Ultra Флагман, 2M контекст, самый дорогой
3.2 Flash Средний сегмент, баланс скорости и рассуждения
3.1 Flash-Lite Низкая стоимость, высокая пропускная способность, массовые вызовы агентов

Три тира, чёткое разделение задач. Flash-Lite не здесь, чтобы перещеговать Opus или GPT-5.5 в рассуждениях — он соревнуется объёмом, а не глубиной.

Кому подойдёт, кому — нет

Подходит:

  • Пайплайны, обрабатывающие большие объёмы документов/переводов
  • Высокочастотные лёгкие вызовы в Agent-фреймворках (выбор инструментов, классификация намерений, валидация формата)
  • Чувствительные к стоимости пакетные задачи

Не подходит:

  • Сложные задачи рассуждения (кодирование, математика, длинные цепочки логики)
  • Сценарии, критичные к задержке, без тонкой настройки service_tier
  • Задачи, требующие мультимодального вывода (только текст)

Одно наблюдение

То, что Google запустил модель через OpenRouter, не дожидаясь Google I/O, говорит само за себя. В прошломесячном тизере Google I/O главный свет достался Gemini Omni, а Flash-Lite — модель инфраструктурного уровня — не нуждается в сцене. Она попадает прямо в каталог API, и разработчики найдут её сами.

Этот приём «тихого релиза» становится для Google нормой. Без ключнота, без маркетинга — просто опускаешь цену достаточно низко, и счёт делает всю рекламу сам.

До отключения превью осталось меньше трёх недель. Если ваш пайплайн всё ещё крутится на gemini-3.1-flash-lite-preview — пора мигрировать.


Основные источники: