你有没有试过让 AI 帮你总结一篇学术论文或一份财报,然后发现它"引用"的数据根本不存在?
这不是 AI 在撒谎——它只是不知道"引用"意味着什么。
CiteVQA 的出现,就是为了解决这个看似简单实则棘手的问题:让 AI 在回答文档相关问题时,能精确指出答案来自原文的哪个位置。
问题的本质
当前的文档问答系统(Document VQA)通常只关注一个问题:答案对不对?
但这个问题远远不够。想象一下这个场景:
你是一家律所的分析师,让 AI 从一份 200 页的合同中提取某个条款的具体内容。AI 给出了答案,看起来完全正确。但你怎么知道这个答案是真的来自合同,还是模型基于训练数据"编"出来的?
如果 AI 不能告诉你"这个答案来自第 47 页第 3 段",那它在法律、金融、医疗这些高可靠性要求领域的应用,始终会有一层信任天花板。
这就是 CiteVQA 要解决的问题。
CiteVQA 做了什么?
CiteVQA(Cite-based Visual Question Answering)的核心创新是在文档问答任务中引入了"证据归因"(Evidence Attribution)的评估维度。
简单来说,系统不仅要给出正确的答案,还要标注出答案所依据的原文片段。评测标准包括:
- 答案正确性:回答是否准确
- 引用精确性:标注的原文片段是否确实支撑了答案
- 引用完整性:是否遗漏了重要的支撑证据
- 引用纯净性:是否引用了不相关或误导性的原文片段
这四个维度组合在一起,构成了一个立体的可信度评估框架。
数据集设计
OpenDataLab 团队在数据集设计上花了不少心思:
文档类型覆盖广泛。 包括学术论文、技术报告、财务报表、法律文书等多种类型,每种类型的引用规范和信息密度都不同。
多层次标注。 不仅有答案级别的标注,还有片段级别的细粒度标注,甚至包含了"答案需要综合多个片段才能得出"这种复杂情况。
对抗性样本。 数据集中特意加入了一些"看起来相关但实际上不支撑答案"的干扰片段,测试模型是否真的在推理,还是在玩关键词匹配。
为什么 143 票登顶?
在 HuggingFace Daily Papers 上拿到 143 票,说明这个方向戳中了社区的一个痛点。
背后的大趋势是:AI 正在从"聊天工具"变成"工作工具"。
聊天工具不需要引用来源——你觉得说得有道理就行。但工作工具不行。如果你的 AI 助手在帮你做尽职调查、撰写研究报告、审核合同条款,那每一条信息都必须有据可查。
CiteVQA 把"可信"从一个模糊的概念,变成了可以量化、可以比较、可以优化的技术指标。这就是它的价值。
现有的局限
当然,CiteVQA 也有自己的局限:
语言覆盖。 目前主要集中在英文文档,中文和其他语言的文档智能还需要更多工作。
多模态文档。 对于包含图表、公式、手写注释的复杂文档,当前的证据归因方法还比较粗糙。
推理链溯源。 当答案需要多步推理(A → B → C)时,如何追溯每一步的依据,仍然是一个开放问题。
更大的图景
把 CiteVQA 放到更大的背景里看,你会发现整个 AI 行业正在经历一个微妙的转变:
从"模型能做什么"到"模型做的方式是否可信"。
过去两年,我们被模型的基准分数刷屏了——MMLU、HumanEval、GPQA……这些分数越来越高,但很少有人问:这些分数背后的答案,是真的推理出来的,还是模型记住了训练数据里的模式?
CiteVQA 代表的方向,是在回答这个更深层的问题。
也许未来的 AI 评测,不仅要看答案对不对,还要看"你怎么知道的"。这听起来像小学老师追问学生解题过程——但恰恰是这种追问,让 AI 从"看起来聪明"走向"真的可靠"。