Без пресс-конференции. Без поста в блоге. Google просто переключил Gemini 3.1 Flash-Lite в статус GA через OpenRouter.
Цена без обиняков: $0.25/M входных токенов, $1.50/M выходных. В нынешней ценовой войне среди компактных моделей — это не конкуренция, это зачистка.
Характеристики
Flash-Lite — это не урезанный Flash. Это другая лига:
- Мультимодальный ввод: текст, изображения, видео, аудио, PDF → текстовый вывод
- Контекст 1M: на уровне 3.1 Ultra
- Выбираемые уровни рассуждения: низкий / средний / высокий, настройка под задачу
- Параметр service_tier: новая функция OpenRouter — переключатель стоимость/задержка
Превью-версия gemini-3.1-flash-lite-preview прекращает обновление 11 мая и полностью отключается 25 мая. Google не оставляет много времени на раздумья.
Что значит эта цена
Посмотрим на Flash-Lite в контексте текущей ценовой войны API:
$0.25/M на ввод дешевле, чем самые доступные модели фронт-тира ещё месяц назад. Если ваш воркфлоу включает пакетную обработку документов, перевод или высокочастотные лёгкие вызовы агентов — это уже не «стоит рассмотреть». Это «нет причин не переключаться».
$1.50/M на вывод тоже адекватно, но не обманывайтесь ценой ввода. В сценариях с длинными ответами именно выходные токены съедают бюджет.Sweet spot Flash-Lite — как раз противоположность: короткие ответы. Классификация, суммаризация, перевод, очистка данных.
Как это вписывается рядом с 3.2 Flash
Вчерашняя статья о утечке Gemini 3.2 Flash упоминала, что Google перетряхивает систему наименований. Теперь, видя полную линейку, Flash-Lite — это нижний уровень трёхступенчатой стратегии:
| Уровень | Позиционирование |
|---|---|
| 3.1 Ultra | Флагман, 2M контекст, самый дорогой |
| 3.2 Flash | Средний сегмент, баланс скорости и рассуждения |
| 3.1 Flash-Lite | Низкая стоимость, высокая пропускная способность, массовые вызовы агентов |
Три тира, чёткое разделение задач. Flash-Lite не здесь, чтобы перещеговать Opus или GPT-5.5 в рассуждениях — он соревнуется объёмом, а не глубиной.
Кому подойдёт, кому — нет
Подходит:
- Пайплайны, обрабатывающие большие объёмы документов/переводов
- Высокочастотные лёгкие вызовы в Agent-фреймворках (выбор инструментов, классификация намерений, валидация формата)
- Чувствительные к стоимости пакетные задачи
Не подходит:
- Сложные задачи рассуждения (кодирование, математика, длинные цепочки логики)
- Сценарии, критичные к задержке, без тонкой настройки service_tier
- Задачи, требующие мультимодального вывода (только текст)
Одно наблюдение
То, что Google запустил модель через OpenRouter, не дожидаясь Google I/O, говорит само за себя. В прошломесячном тизере Google I/O главный свет достался Gemini Omni, а Flash-Lite — модель инфраструктурного уровня — не нуждается в сцене. Она попадает прямо в каталог API, и разработчики найдут её сами.
Этот приём «тихого релиза» становится для Google нормой. Без ключнота, без маркетинга — просто опускаешь цену достаточно низко, и счёт делает всю рекламу сам.
До отключения превью осталось меньше трёх недель. Если ваш пайплайн всё ещё крутится на gemini-3.1-flash-lite-preview — пора мигрировать.
Основные источники:
- Страница Gemini 3.1 Flash-Lite на OpenRouter
- Официальный X-аккаунт Google DeepMind (@GoogleDeepMind), пост от 2026-05-07
- Анонс OpenRouter (график депрекации превью-версии)