CiteVQA：OpenDataLab 发布的文档智能基准，让 AI 的每一次引用都有据可查

你有没有试过让 AI 帮你总结一篇学术论文或一份财报，然后发现它"引用"的数据根本不存在？

这不是 AI 在撒谎——它只是不知道"引用"意味着什么。

CiteVQA 的出现，就是为了解决这个看似简单实则棘手的问题：让 AI 在回答文档相关问题时，能精确指出答案来自原文的哪个位置。

问题的本质

当前的文档问答系统（Document VQA）通常只关注一个问题：答案对不对？

但这个问题远远不够。想象一下这个场景：

你是一家律所的分析师，让 AI 从一份 200 页的合同中提取某个条款的具体内容。AI 给出了答案，看起来完全正确。但你怎么知道这个答案是真的来自合同，还是模型基于训练数据"编"出来的？

如果 AI 不能告诉你"这个答案来自第 47 页第 3 段"，那它在法律、金融、医疗这些高可靠性要求领域的应用，始终会有一层信任天花板。

这就是 CiteVQA 要解决的问题。

CiteVQA（Cite-based Visual Question Answering）的核心创新是在文档问答任务中引入了"证据归因"（Evidence Attribution）的评估维度。

简单来说，系统不仅要给出正确的答案，还要标注出答案所依据的原文片段。评测标准包括：

这四个维度组合在一起，构成了一个立体的可信度评估框架。

OpenDataLab 团队在数据集设计上花了不少心思：

文档类型覆盖广泛。 包括学术论文、技术报告、财务报表、法律文书等多种类型，每种类型的引用规范和信息密度都不同。

多层次标注。 不仅有答案级别的标注，还有片段级别的细粒度标注，甚至包含了"答案需要综合多个片段才能得出"这种复杂情况。

对抗性样本。 数据集中特意加入了一些"看起来相关但实际上不支撑答案"的干扰片段，测试模型是否真的在推理，还是在玩关键词匹配。

在 HuggingFace Daily Papers 上拿到 143 票，说明这个方向戳中了社区的一个痛点。

背后的大趋势是：AI 正在从"聊天工具"变成"工作工具"。

聊天工具不需要引用来源——你觉得说得有道理就行。但工作工具不行。如果你的 AI 助手在帮你做尽职调查、撰写研究报告、审核合同条款，那每一条信息都必须有据可查。

CiteVQA 把"可信"从一个模糊的概念，变成了可以量化、可以比较、可以优化的技术指标。这就是它的价值。

当然，CiteVQA 也有自己的局限：

语言覆盖。 目前主要集中在英文文档，中文和其他语言的文档智能还需要更多工作。

多模态文档。 对于包含图表、公式、手写注释的复杂文档，当前的证据归因方法还比较粗糙。

推理链溯源。 当答案需要多步推理（A → B → C）时，如何追溯每一步的依据，仍然是一个开放问题。

把 CiteVQA 放到更大的背景里看，你会发现整个 AI 行业正在经历一个微妙的转变：

从"模型能做什么"到"模型做的方式是否可信"。

过去两年，我们被模型的基准分数刷屏了——MMLU、HumanEval、GPQA……这些分数越来越高，但很少有人问：这些分数背后的答案，是真的推理出来的，还是模型记住了训练数据里的模式？

CiteVQA 代表的方向，是在回答这个更深层的问题。

也许未来的 AI 评测，不仅要看答案对不对，还要看"你怎么知道的"。这听起来像小学老师追问学生解题过程——但恰恰是这种追问，让 AI 从"看起来聪明"走向"真的可靠"。