Agent 的记忆能力正在成为 2026 年 AI 研究的关键方向之一。但和 MemLens 聚焦于 LVLM 模型本身的记忆不同,MemEye 把镜头对准了另一个问题:当 Agent 在多模态环境中工作时,它的记忆系统到底表现如何?
MemEye 由 Boxuan Zhang、Yihao Quan、Zeru Shi 等 17 位研究者协作完成,在 Hugging Face Daily Papers 上获得了 52 次 upvote。
视觉中心:为什么是视觉
MemEye 的核心设计理念是"visual-centric"——以视觉为中心。这背后的逻辑很直接:在多模态 Agent 的工作场景中,视觉信息往往是最丰富也最容易被遗忘的。
Agent 需要记住:
- 之前看到的界面截图是什么样子
- 用户分享的图表中的关键数据
- 操作步骤中涉及的视觉元素位置
- 跨多轮对话中引用的图片内容
传统评估框架大多以文本为中心,忽略了 Agent 在视觉记忆上的独特挑战。MemEye 把这个维度补上了。
评估维度
MemEye 从多个角度评估多模态 Agent 的记忆能力:
- 视觉信息提取记忆:Agent 能否记住从图像中提取的关键信息
- 视觉-文本关联记忆:图像和对应文本描述之间的关联能否被长期保持
- 时序视觉记忆:跨时间序列的视觉信息记忆能力
- 视觉干扰鲁棒性:在面对相似但不相同的视觉输入时,记忆是否会被混淆
与 MemLens 的区别
同一天,Hugging Face 上还出现了 NVIDIA 的 MemLens。两者都关注多模态记忆,但侧重点不同:
- MemLens 评估的是 LVLM 模型本身的长期记忆能力——模型能不能"记住"
- MemEye 评估的是 Agent 系统中的记忆模块——Agent 能不能在任务执行中有效利用记忆
一个是模型层面的基准,一个是系统层面的框架。两者互补。
为什么值得关注
随着多模态 Agent 在客服、教育、医疗等场景的落地,记忆能力的评估变得越来越重要。一个记不住用户之前说过的话、展示过的图片的 Agent,体验会大打折扣。
MemEye 提供了一套可操作的评估工具,让开发者可以量化 Agent 的记忆表现,针对性地优化记忆模块。
论文由 17 位研究者合作完成,在 HuggingFace 社区获得了 52 次 upvote,说明这个方向正在引起越来越多研究者的关注。