C
ChaoBro

小红书 AI 团队发了篇 RL 论文:让多模态搜索 Agent "并行干活",还知道省算力

小红书 AI 团队发了篇 RL 论文:让多模态搜索 Agent "并行干活",还知道省算力

小红书 AI 团队在 Hugging Face Daily Papers 上发表了一篇论文:"HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents"。57 upvotes。

论文的名字很长,拆开来看其实讲了三个关键词:

  1. Parallel Multimodal Search:并行多模态搜索——同时用文本、图片、视频等多种模态做搜索
  2. Dual-Grained:双粒度——在两个不同的尺度上做优化
  3. Efficiency-Aware RL:效率感知的强化学习——让 agent 在追求效果的同时,也知道省算力

小红书为什么要做这个

先想一下小红书的使用场景。用户搜"这家餐厅怎么样",搜索结果不只是文字评论,还有图片、视频、地理位置、价格信息。多模态。

而且搜索不是串行的——系统需要同时处理多种模态的信息,而不是先搜文字、再搜图片、再搜视频。并行的。

这跟传统的搜索引擎很不一样。Google 搜索的核心还是文本,图片和视频是附加的。但小红书的核心体验就是多模态融合。

所以小红书 AI 团队面临的技术挑战很具体:怎么让 search agent 在多种模态之间高效地并行搜索,同时控制计算成本?

"双粒度"是什么

论文里的 "dual-grained" 指的是两个优化粒度:

细粒度(Fine-grained):单个 agent 的决策层面。比如一个负责文本搜索的 agent,它需要决定用什么 query、检索多少结果、什么时候停止搜索。RL 在这里优化的是每个 agent 的具体行为策略。

粗粒度(Coarse-grained):多 agent 协作层面。系统里有多个 agent 并行工作(文本 agent、图片 agent、视频 agent),粗粒度的 RL 负责决定资源怎么分配——哪个 agent 多给点计算预算,哪个可以少给点。

这两个粒度需要同时优化。只优化细粒度,可能出现"每个 agent 都很努力,但整体效率很低"的情况(比如三个 agent 都在搜同一个方向,重复劳动)。只优化粗粒度,又可能忽略了单个 agent 内部的效率损失。

"效率感知"的设计

这篇论文最务实的地方在于它把"效率"直接写进了 RL 的 reward 函数里。

很多 RL 论文只优化效果(准确率、召回率),不考虑成本。但工业场景不一样——小红书的搜索系统每天要处理海量查询,如果每个查询都不计成本地调用多模态模型,服务器会炸。

HyperEyes 的做法是在 reward 里同时包含效果项和成本项:

Reward = α × 搜索效果 + β × (-计算成本)

agent 需要在效果和成本之间做 tradeoff。有时候一个粗略的搜索结果"够用"了,就没必要继续深入——agent 要学会"适可而止"。

工业落地的挑战

从研究到生产,还有几个坎:

第一,reward 设计很难。 怎么量化"搜索效果"?点击率?停留时长?用户满意度?不同的指标可能导致 agent 学到不同的行为。而且效果项和成本项之间的权重(α 和 β)怎么调,也是个经验问题。

第二,并行 agent 的协调是个工程难题。 多个 agent 同时运行,它们之间的信息同步、资源竞争、失败恢复都需要基础设施支持。这不是论文能解决的。

第三,多模态模型的推理成本本身就在降,这个优化框架的长期价值需要重新评估。 如果明年多模态模型的推理成本降了 10 倍,那 HyperEyes 精心设计的效率感知可能就没那么重要了。

一个信号:大厂 AI 团队在发什么

从更大的视角看,这篇论文反映了一个趋势:中国大厂的 AI 团队正在从"追模型"转向"追系统"。

前两年,各大厂的论文大多是关于新模型架构、新训练方法、新 benchmark。现在越来越多论文开始聚焦于:怎么把已有的模型组合成高效的系统?怎么在效果和成本之间做工程化的优化?

小红书这篇论文跟腾讯混元的 Listwise Policy Optimization、Google 的 Agentic Discovery 放在一起看,能看出一个共性:大家都在想办法让 AI 系统更聪明地使用自己,而不是单纯地让模型更大、更强。

判断

HyperEyes 是一篇偏工程导向的研究论文。它的学术贡献可能不如前面几篇那么大(mean-variance split residuals 或者 listwise policy optimization 都是新的算法思路),但它的实用性可能更高——因为它直接瞄准了一个工业场景的真实痛点。

对于做搜索系统、推荐系统或者任何需要多模态检索的团队来说,这篇论文里的 dual-grained 优化思路和 efficiency-aware reward 设计值得参考。

主要来源: