Google Gemini API File Search становится мультимодальным: RAG теперь может «видеть» изображения

Последний элемент пазла для RAG — Google только что его поставил.

Google объявил, что функция File Search в Gemini API теперь поддерживает мультимодальный ввод. Можно загружать изображения, PDF с изображениями и сканированные документы прямо в пайплайн поиска, и Gemini может искать не только текст, но и понимать визуальный контент.

Что это на самом деле означает

File Search — это функция, запущенная Google для Gemini API в прошлом году: вы загружаете документы, Google их индексирует и автоматически извлекает релевантный контент во время разговора. По сути — managed RAG-сервис.

Но предыдущие версии работали только с обычным текстом. Если у вас были руководства по продуктам, скриншоты счетов, отчёты с графиками — всё, что содержит визуальный контент, — File Search был слеп.

Теперь мультимодальный File Search может понимать:

Текст и визуальную информацию в изображениях
Графики и скриншоты в PDF
Сканированные документы (OCR + визуальное понимание)

Что это экономит разработчикам

Ранее обработка изображений в RAG означала собственный пайплайн: OCR + модель компьютерного зрения + интеграция в векторную базу данных. Каждый шаг требует выбора инструментов и настройки параметров.

Теперь Google упаковывает всё это в один API-вызов.

Конкурентный ландшафт

GPT-4o от OpenAI давно поддерживает мультимодальный ввод, но в managed RAG-сервисах прогресс различается:

Google теперь интегрирует мультимодальность с File Search
Assistants API от OpenAI имеет аналогичную обработку файлов
Claude от Anthropic обладает сильными мультимодальными возможностями, но нет нативного managed RAG

Преимущество Google — наследие обработки документов. Экосистема Google Docs и Drive не копируется быстро.

Практические ограничения

В анонсе упущены несколько ключевых деталей:

Цены — будет ли мультимодальный поиск значительно дороже текстового?
Задержка — понимание изображений намного медленнее текстового сопоставления
Поддерживаемые форматы — помимо PDF и изображений, что насчёт PPT и Excel?

Мультимодальный RAG только начинает становиться конкурентным в 2026 году.

Основной источник: Google Developers Blog, "Gemini API File Search is now multimodal"

Что это на самом деле означает

Что это экономит разработчикам

Конкурентный ландшафт

Практические ограничения

Похожие материалы

Самая большая ловушка при написании LLM кода для комбинаторной оптимизации: просишь оптимизировать — модель только всё портит

Чем детальнее оценочные критерии, тем больше модель находит лазейки: взлом системы вознаграждения в обучении с подкреплением на основе рубрик

RLHF тихонько разрушает «честность» ИИ: в чём суть Semantic Reward Collapse