Gemini 3.1 Flash-Lite вышел в GA: Google опустил цену API до $0.25/M

Без пресс-конференции. Без поста в блоге. Google просто переключил Gemini 3.1 Flash-Lite в статус GA через OpenRouter.

Цена без обиняков: $0.25/M входных токенов, $1.50/M выходных. В нынешней ценовой войне среди компактных моделей — это не конкуренция, это зачистка.

Характеристики

Flash-Lite — это не урезанный Flash. Это другая лига:

Мультимодальный ввод: текст, изображения, видео, аудио, PDF → текстовый вывод
Контекст 1M: на уровне 3.1 Ultra
Выбираемые уровни рассуждения: низкий / средний / высокий, настройка под задачу
Параметр service_tier: новая функция OpenRouter — переключатель стоимость/задержка

Превью-версия gemini-3.1-flash-lite-preview прекращает обновление 11 мая и полностью отключается 25 мая. Google не оставляет много времени на раздумья.

Что значит эта цена

Посмотрим на Flash-Lite в контексте текущей ценовой войны API:

$0.25/M на ввод дешевле, чем самые доступные модели фронт-тира ещё месяц назад. Если ваш воркфлоу включает пакетную обработку документов, перевод или высокочастотные лёгкие вызовы агентов — это уже не «стоит рассмотреть». Это «нет причин не переключаться».

$1.50/M на вывод тоже адекватно, но не обманывайтесь ценой ввода. В сценариях с длинными ответами именно выходные токены съедают бюджет.Sweet spot Flash-Lite — как раз противоположность: короткие ответы. Классификация, суммаризация, перевод, очистка данных.

Как это вписывается рядом с 3.2 Flash

Вчерашняя статья о утечке Gemini 3.2 Flash упоминала, что Google перетряхивает систему наименований. Теперь, видя полную линейку, Flash-Lite — это нижний уровень трёхступенчатой стратегии:

Уровень	Позиционирование
3.1 Ultra	Флагман, 2M контекст, самый дорогой
3.2 Flash	Средний сегмент, баланс скорости и рассуждения
3.1 Flash-Lite	Низкая стоимость, высокая пропускная способность, массовые вызовы агентов

Три тира, чёткое разделение задач. Flash-Lite не здесь, чтобы перещеговать Opus или GPT-5.5 в рассуждениях — он соревнуется объёмом, а не глубиной.

Кому подойдёт, кому — нет

Подходит:

Пайплайны, обрабатывающие большие объёмы документов/переводов
Высокочастотные лёгкие вызовы в Agent-фреймворках (выбор инструментов, классификация намерений, валидация формата)
Чувствительные к стоимости пакетные задачи

Не подходит:

Сложные задачи рассуждения (кодирование, математика, длинные цепочки логики)
Сценарии, критичные к задержке, без тонкой настройки service_tier
Задачи, требующие мультимодального вывода (только текст)

Одно наблюдение

То, что Google запустил модель через OpenRouter, не дожидаясь Google I/O, говорит само за себя. В прошломесячном тизере Google I/O главный свет достался Gemini Omni, а Flash-Lite — модель инфраструктурного уровня — не нуждается в сцене. Она попадает прямо в каталог API, и разработчики найдут её сами.

Этот приём «тихого релиза» становится для Google нормой. Без ключнота, без маркетинга — просто опускаешь цену достаточно низко, и счёт делает всю рекламу сам.

До отключения превью осталось меньше трёх недель. Если ваш пайплайн всё ещё крутится на gemini-3.1-flash-lite-preview — пора мигрировать.

Основные источники:

Страница Gemini 3.1 Flash-Lite на OpenRouter
Официальный X-аккаунт Google DeepMind (@GoogleDeepMind), пост от 2026-05-07
Анонс OpenRouter (график депрекации превью-версии)

Характеристики

Что значит эта цена

Как это вписывается рядом с 3.2 Flash

Кому подойдёт, кому — нет

Одно наблюдение

Похожие материалы

Самая большая ловушка при написании LLM кода для комбинаторной оптимизации: просишь оптимизировать — модель только всё портит

Чем детальнее оценочные критерии, тем больше модель находит лазейки: взлом системы вознаграждения в обучении с подкреплением на основе рубрик

RLHF тихонько разрушает «честность» ИИ: в чём суть Semantic Reward Collapse