小红书 AI 团队发了篇 RL 论文：让多模态搜索 Agent "并行干活"，还知道省算力

小红书 AI 团队在 Hugging Face Daily Papers 上发表了一篇论文："HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents"。57 upvotes。

论文的名字很长，拆开来看其实讲了三个关键词：

Parallel Multimodal Search：并行多模态搜索——同时用文本、图片、视频等多种模态做搜索
Dual-Grained：双粒度——在两个不同的尺度上做优化
Efficiency-Aware RL：效率感知的强化学习——让 agent 在追求效果的同时，也知道省算力

小红书为什么要做这个

先想一下小红书的使用场景。用户搜"这家餐厅怎么样"，搜索结果不只是文字评论，还有图片、视频、地理位置、价格信息。多模态。

而且搜索不是串行的——系统需要同时处理多种模态的信息，而不是先搜文字、再搜图片、再搜视频。并行的。

这跟传统的搜索引擎很不一样。Google 搜索的核心还是文本，图片和视频是附加的。但小红书的核心体验就是多模态融合。

所以小红书 AI 团队面临的技术挑战很具体：怎么让 search agent 在多种模态之间高效地并行搜索，同时控制计算成本？

"双粒度"是什么

论文里的 "dual-grained" 指的是两个优化粒度：

细粒度（Fine-grained）：单个 agent 的决策层面。比如一个负责文本搜索的 agent，它需要决定用什么 query、检索多少结果、什么时候停止搜索。RL 在这里优化的是每个 agent 的具体行为策略。

粗粒度（Coarse-grained）：多 agent 协作层面。系统里有多个 agent 并行工作（文本 agent、图片 agent、视频 agent），粗粒度的 RL 负责决定资源怎么分配——哪个 agent 多给点计算预算，哪个可以少给点。

这两个粒度需要同时优化。只优化细粒度，可能出现"每个 agent 都很努力，但整体效率很低"的情况（比如三个 agent 都在搜同一个方向，重复劳动）。只优化粗粒度，又可能忽略了单个 agent 内部的效率损失。

"效率感知"的设计

这篇论文最务实的地方在于它把"效率"直接写进了 RL 的 reward 函数里。

很多 RL 论文只优化效果（准确率、召回率），不考虑成本。但工业场景不一样——小红书的搜索系统每天要处理海量查询，如果每个查询都不计成本地调用多模态模型，服务器会炸。

HyperEyes 的做法是在 reward 里同时包含效果项和成本项：

Reward = α × 搜索效果 + β × (-计算成本)

agent 需要在效果和成本之间做 tradeoff。有时候一个粗略的搜索结果"够用"了，就没必要继续深入——agent 要学会"适可而止"。

工业落地的挑战

从研究到生产，还有几个坎：

第一，reward 设计很难。 怎么量化"搜索效果"？点击率？停留时长？用户满意度？不同的指标可能导致 agent 学到不同的行为。而且效果项和成本项之间的权重（α 和 β）怎么调，也是个经验问题。

第二，并行 agent 的协调是个工程难题。 多个 agent 同时运行，它们之间的信息同步、资源竞争、失败恢复都需要基础设施支持。这不是论文能解决的。

第三，多模态模型的推理成本本身就在降，这个优化框架的长期价值需要重新评估。 如果明年多模态模型的推理成本降了 10 倍，那 HyperEyes 精心设计的效率感知可能就没那么重要了。

一个信号：大厂 AI 团队在发什么

从更大的视角看，这篇论文反映了一个趋势：中国大厂的 AI 团队正在从"追模型"转向"追系统"。

前两年，各大厂的论文大多是关于新模型架构、新训练方法、新 benchmark。现在越来越多论文开始聚焦于：怎么把已有的模型组合成高效的系统？怎么在效果和成本之间做工程化的优化？

小红书这篇论文跟腾讯混元的 Listwise Policy Optimization、Google 的 Agentic Discovery 放在一起看，能看出一个共性：大家都在想办法让 AI 系统更聪明地使用自己，而不是单纯地让模型更大、更强。

判断

HyperEyes 是一篇偏工程导向的研究论文。它的学术贡献可能不如前面几篇那么大（mean-variance split residuals 或者 listwise policy optimization 都是新的算法思路），但它的实用性可能更高——因为它直接瞄准了一个工业场景的真实痛点。

对于做搜索系统、推荐系统或者任何需要多模态检索的团队来说，这篇论文里的 dual-grained 优化思路和 efficiency-aware reward 设计值得参考。

主要来源：

Hugging Face Daily Papers - May 11, 2026
Xiaohongshu AI, "HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents"

小红书为什么要做这个

"双粒度"是什么

"效率感知"的设计

工业落地的挑战

一个信号：大厂 AI 团队在发什么

判断

Related

LLM 写组合优化代码时最大的坑：你让它优化，它反而变蠢了

Rubric 越细，模型越会钻空子：基于评分标准的强化学习中的奖励黑客

RLHF 正在悄悄毁掉 AI 的"诚实"：Semantic Reward Collapse 到底说了什么