Google Gemini API 文件搜索支持多模态：RAG 现在可以直接"看"图片了

RAG 的最后一块拼图，Google 补上了。

Google 宣布 Gemini API 的 File Search 功能正式支持多模态——意味着你可以直接把图片、带图的 PDF、扫描件扔进检索流程，Gemini 不仅能搜文字，还能理解图像内容。

这个更新到底意味着什么

先说背景。File Search 是 Google 去年为 Gemini API 推出的一项功能：你上传一批文档，Google 帮你建索引，然后在对话时自动检索相关内容。本质上是一个 managed RAG 服务。

但之前的版本只能处理纯文本。如果你有一堆产品手册、发票截图、带图表的报告——这些带图像内容的文件，File Search 基本瞎了。

现在不一样了。多模态 File Search 可以直接理解：

在这之前，如果你想在 RAG 里处理图片，基本要自己搭一套 pipeline：OCR 提取文字 + 视觉模型理解图像 + 把结果合并进向量库。每一步都要选工具、调参数、处理边缘情况。

现在 Google 把这一坨东西打包成了一个 API 调用。

不是说这个方案一定比自建的好，但对"想快速跑通 demo"或者"团队没有专门做多模态基础设施的人"来说，这是一个显著的门槛降低。

OpenAI 的 GPT-4o 早就支持多模态输入，但在 managed RAG 服务层面，各家进度不太一样：

Google 的优势在于它的文档处理能力——Google Docs、Drive 的生态积累不是短期能复制的。如果 File Search 能和 Drive 深度整合，那对于已经有大量文件存在 Google 生态里的企业来说，迁移成本几乎为零。

公告里没有提到几个关键信息：

这些细节会在后续文档里补充。如果你打算在产品里用，建议先跑一轮 POC 再决定。

多模态 RAG 这个赛道，2026 年才刚刚开始卷。

主要来源：Google Developers Blog, "Gemini API File Search is now multimodal"