小红书 AI 团队在 Hugging Face Daily Papers 上发表了一篇论文:"HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents"。57 upvotes。
论文的名字很长,拆开来看其实讲了三个关键词:
- Parallel Multimodal Search:并行多模态搜索——同时用文本、图片、视频等多种模态做搜索
- Dual-Grained:双粒度——在两个不同的尺度上做优化
- Efficiency-Aware RL:效率感知的强化学习——让 agent 在追求效果的同时,也知道省算力
小红书为什么要做这个
先想一下小红书的使用场景。用户搜"这家餐厅怎么样",搜索结果不只是文字评论,还有图片、视频、地理位置、价格信息。多模态。
而且搜索不是串行的——系统需要同时处理多种模态的信息,而不是先搜文字、再搜图片、再搜视频。并行的。
这跟传统的搜索引擎很不一样。Google 搜索的核心还是文本,图片和视频是附加的。但小红书的核心体验就是多模态融合。
所以小红书 AI 团队面临的技术挑战很具体:怎么让 search agent 在多种模态之间高效地并行搜索,同时控制计算成本?
"双粒度"是什么
论文里的 "dual-grained" 指的是两个优化粒度:
细粒度(Fine-grained):单个 agent 的决策层面。比如一个负责文本搜索的 agent,它需要决定用什么 query、检索多少结果、什么时候停止搜索。RL 在这里优化的是每个 agent 的具体行为策略。
粗粒度(Coarse-grained):多 agent 协作层面。系统里有多个 agent 并行工作(文本 agent、图片 agent、视频 agent),粗粒度的 RL 负责决定资源怎么分配——哪个 agent 多给点计算预算,哪个可以少给点。
这两个粒度需要同时优化。只优化细粒度,可能出现"每个 agent 都很努力,但整体效率很低"的情况(比如三个 agent 都在搜同一个方向,重复劳动)。只优化粗粒度,又可能忽略了单个 agent 内部的效率损失。
"效率感知"的设计
这篇论文最务实的地方在于它把"效率"直接写进了 RL 的 reward 函数里。
很多 RL 论文只优化效果(准确率、召回率),不考虑成本。但工业场景不一样——小红书的搜索系统每天要处理海量查询,如果每个查询都不计成本地调用多模态模型,服务器会炸。
HyperEyes 的做法是在 reward 里同时包含效果项和成本项:
Reward = α × 搜索效果 + β × (-计算成本)
agent 需要在效果和成本之间做 tradeoff。有时候一个粗略的搜索结果"够用"了,就没必要继续深入——agent 要学会"适可而止"。
工业落地的挑战
从研究到生产,还有几个坎:
第一,reward 设计很难。 怎么量化"搜索效果"?点击率?停留时长?用户满意度?不同的指标可能导致 agent 学到不同的行为。而且效果项和成本项之间的权重(α 和 β)怎么调,也是个经验问题。
第二,并行 agent 的协调是个工程难题。 多个 agent 同时运行,它们之间的信息同步、资源竞争、失败恢复都需要基础设施支持。这不是论文能解决的。
第三,多模态模型的推理成本本身就在降,这个优化框架的长期价值需要重新评估。 如果明年多模态模型的推理成本降了 10 倍,那 HyperEyes 精心设计的效率感知可能就没那么重要了。
一个信号:大厂 AI 团队在发什么
从更大的视角看,这篇论文反映了一个趋势:中国大厂的 AI 团队正在从"追模型"转向"追系统"。
前两年,各大厂的论文大多是关于新模型架构、新训练方法、新 benchmark。现在越来越多论文开始聚焦于:怎么把已有的模型组合成高效的系统?怎么在效果和成本之间做工程化的优化?
小红书这篇论文跟腾讯混元的 Listwise Policy Optimization、Google 的 Agentic Discovery 放在一起看,能看出一个共性:大家都在想办法让 AI 系统更聪明地使用自己,而不是单纯地让模型更大、更强。
判断
HyperEyes 是一篇偏工程导向的研究论文。它的学术贡献可能不如前面几篇那么大(mean-variance split residuals 或者 listwise policy optimization 都是新的算法思路),但它的实用性可能更高——因为它直接瞄准了一个工业场景的真实痛点。
对于做搜索系统、推荐系统或者任何需要多模态检索的团队来说,这篇论文里的 dual-grained 优化思路和 efficiency-aware reward 设计值得参考。
主要来源:
- Hugging Face Daily Papers - May 11, 2026
- Xiaohongshu AI, "HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents"