CiteVQA: бенчмарк для интеллектуальной обработки документов от OpenDataLab, делающий каждую ссылку ИИ проверяемой

Вы когда-нибудь просили ИИ обобщить научную статью или финансовый отчет, только чтобы обнаружить, что «приведенные» им данные вообще не существуют?

Это не значит, что ИИ лжет — он просто не понимает, что означает «ссылка на источник».

Появление CiteVQA призвано решить эту на первый взгляд простую, но на деле сложную проблему: заставить ИИ при ответе на вопросы по документу точно указывать, в каком месте исходного текста находится подтверждение ответа.

Суть проблемы

Современные системы визуального вопросно-ответного анализа документов (Document VQA) обычно фокусируются лишь на одном вопросе: правильный ли дан ответ?

Но этого совершенно недостаточно. Представьте следующую ситуацию:

Вы — аналитик в юридической фирме и просите ИИ извлечь конкретное содержание пункта из 200-страничного контракта. ИИ выдает ответ, который выглядит абсолютно верным. Но как вы узнаете, действительно ли этот ответ взят из контракта, или модель «придумала» его на основе обучающих данных?

Если ИИ не может сказать вам: «этот ответ взят из третьего абзаца на 47-й странице», то его применение в таких требовательных к надежности сферах, как юриспруденция, финансы и медицина, всегда будет упираться в «потолок доверия».

Именно эту проблему и призван решить CiteVQA.

Что делает CiteVQA?

Ключевая инновация CiteVQA (Cite-based Visual Question Answering) заключается в внедрении в задачи вопросно-ответного анализа документов измерительного параметра «атрибуция доказательств» (Evidence Attribution).

Проще говоря, система должна не только дать правильный ответ, но и выделить фрагмент исходного текста, на котором он основан. Критерии оценки включают:

Точность ответа: насколько корректно сформулирован ответ
Точность ссылки: действительно ли выделенный фрагмент текста подтверждает ответ
Полнота ссылки: не упущены ли важные подтверждающие доказательства
Чистота ссылки: не были ли использованы нерелевантные или вводящие в заблуждение фрагменты текста

Вместе эти четыре измерения формируют многомерную структуру для оценки надежности.

Дизайн набора данных

Команда OpenDataLab уделила немало внимания проектированию набора данных:

Широкое покрытие типов документов. Включает научные статьи, технические отчеты, финансовую отчетность, юридические документы и многое другое. Каждый тип имеет свои стандарты цитирования и разную плотность информации.

Многоуровневая разметка. Помимо разметки на уровне ответов, присутствует детализированная разметка на уровне фрагментов, а также учтены сложные случаи, когда «для получения ответа необходимо синтезировать информацию из нескольких фрагментов».

Адверсариальные примеры. В набор данных намеренно включены «отвлекающие» фрагменты, которые «кажутся релевантными, но на самом деле не подтверждают ответ», чтобы проверить, действительно ли модель рассуждает или просто играет в сопоставление ключевых слов.

Почему 143 голоса вывели его на вершину?

Получение 143 голосов в HuggingFace Daily Papers свидетельствует о том, что это направление затронуло одну из болевых точек сообщества.

За этим стоит глобальная тенденция: ИИ превращается из «инструмента для общения» в «рабочий инструмент».

Инструменту для общения не нужны ссылки на источники — достаточно, чтобы сказанное казалось логичным. Но с рабочим инструментом так не получится. Если ваш ИИ-ассистент помогает вам проводить проверку due diligence, писать исследовательские отчеты или анализировать условия контрактов, каждая порция информации должна быть документально подтверждена.

CiteVQA превращает «надежность» из размытого понятия в измеримый, сопоставимый и оптимизируемый технический показатель. В этом и заключается его ценность.

Текущие ограничения

Разумеется, у CiteVQA есть и свои ограничения:

Языковое покрытие. На данный момент фокус в основном на англоязычных документах; для интеллектуальной обработки китайских и других языков потребуется дополнительная работа.

Мультимодальные документы. Для сложных документов, содержащих графики, формулы и рукописные примечания, текущие методы атрибуции доказательств остаются довольно грубыми.

Отслеживание цепочки рассуждений. Когда ответ требует многошагового вывода (A → B → C), вопрос о том, как отследить обоснование каждого шага, остается открытым.

Более широкая перспектива

Если рассмотреть CiteVQA в более широком контексте, можно заметить, что вся индустрия ИИ переживает тонкий сдвиг:

От «что может сделать модель» к «насколько надежен способ, которым модель это делает».

За последние два года нас завалили новостями о рекордных баллах моделей на бенчмарках — MMLU, HumanEval, GPQA… Эти показатели постоянно растут, но мало кто задается вопросом: являются ли ответы, стоящие за этими баллами, результатом настоящих рассуждений, или же модель просто запомнила паттерны из обучающих данных?

Направление, которое представляет CiteVQA, как раз и направлено на ответ на этот более глубокий вопрос.

Возможно, в будущем оценка ИИ будет учитывать не только правильность ответа, но и «как ты это узнал». Это звучит как вопрос учителя начальных классов, требующего от ученика показать ход решения задачи — но именно такой подход позволит ИИ перейти от «кажущейся умности» к «подлинной надежности».

Суть проблемы

Что делает CiteVQA?

Дизайн набора данных

Почему 143 голоса вывели его на вершину?

Текущие ограничения

Более широкая перспектива

Похожие материалы

APWA: Распределённая архитектура для истинной параллелизации мультиагентных систем

Dual-Dimensional Consistency: новый метод, позволяющий сократить расход токенов при масштабировании во время вывода в 10 раз

MemEye: Визуально-ориентированная платформа оценки памяти мультимодальных агентов