HyperEyes：小红书的多模态搜索 Agent，一次查多个而不是排着队查

多模态搜索 Agent 有个通病：查到第一个实体，再去查第二个，再去查第三个——一个接一个地调工具，调用轮数随着查询中的实体数量线性增长。

小红书的这篇论文把这个问题翻过来了：为什么不让 Agent 一次查多个？

HyperEyes 的核心是把视觉定位和检索合并成一个原子动作（atomic action），在一次 round 内并发搜索多个实体。论文还做了一个很少见的决定：把推理效率当作一等训练目标（first-class training objective），而不是事后优化的指标。

双层训练框架

训练分两个阶段。冷启动阶段用 Parallel-Amenable Data Synthesis Pipeline 合成数据，覆盖视觉多实体和文本多约束查询，通过 Progressive Rejection Sampling 筛选出效率导向的轨迹。

核心贡献是 Dual-Grained Efficiency-Aware RL 框架，分两层：

宏观层：TRACE（Tool-use Reference-Adaptive Cost Efficiency），轨迹级别的奖励。训练过程中单调收紧参考标准，在不限制真实多步搜索的前提下抑制多余的工具调用。

微观层：用 On-Policy Distillation 从外部教师模型注入密集的 token 级别纠错信号，解决稀疏结果奖励的 credit assignment 问题。

他们还提出了 IMEB 基准——300 条人工标注的测试集，同时评估搜索能力和效率。六个基准上，HyperEyes-30B 比最强的可比开源 Agent 准确率高 9.9%，平均工具调用轮数少 5.3 倍。

把效率当作训练目标而不是事后优化，这个思路在 Agent 领域还不常见。大多数论文只报告准确率，忽略推理成本。HyperEyes 的 TRACE 奖励机制在训练过程中动态收紧参考标准，既能减少冗余调用又不会误伤真正的多步推理需求。

30B 参数的模型在开源 Agent 里算是中等规模，5.3x 的工具调用缩减在实际部署中的成本收益比很可观。不过合成数据的质量和 IMEB 基准的覆盖范围还需要社区进一步验证。

代码和 IMEB 基准已开源。

主要来源：

arXiv:2605.07177, "HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents", Guankai Li et al. (Xiaohongshu), May 2026
GitHub: github.com/Guankai-Li/HyperEyes