C
ChaoBro

arXiv теряет терпение: отправка ИИ-сгенерированных статей на препринт-платформу влечёт за собой годовой бан

arXiv теряет терпение: отправка ИИ-сгенерированных статей на препринт-платформу влечёт за собой годовой бан

«ИИ-армия» научного сообщества наконец получила заслуженное наказание.

Ars Technica сообщила о новостях, которые вызвали одобрительные аплодисменты у многих исследователей: arXiv ввёл наказание в виде «годового бана» за отправку ИИ-сгенерированных статей. То есть, если вы будете замечены при попытке загрузить на arXiv контент, созданный искусственным интеллектом, ваш аккаунт будет немедленно заблокирован — и вы не сможете подавать какие-либо статьи в течение целого года.

Почему arXiv действует так решительно?

Потому что ИИ-сгенерированная «вода» уже затопила платформу.

arXiv — крупнейшая в мире научная препринт-платформа, где исследователи из областей физики, компьютерных наук, математики, биологии и других дисциплин публикуют предварительные результаты, ещё не прошедшие рецензирование, но обладающие научной ценностью. Это ключевая инфраструктура научного общения.

Однако в последнее время эта инфраструктура серьёзно загрязнена «ИИ-водой» (низкокачественным ИИ-контентом). Некоторые пользователи массово генерируют с помощью больших языковых моделей тексты, «похожие на научные статьи», после чего безудержно отправляют их на публикацию. Такие статьи зачастую:

  • содержат ссылки на несуществующие источники;
  • оперируют вымышленными данными;
  • описывают эксперименты, которые никогда не проводились;
  • делают бессмысленные выводы.

Для модераторов arXiv проверка таких материалов требует колоссальных усилий. Для настоящих исследователей поиск ценных работ среди огромного потока становится всё труднее.

Поэтому arXiv применил радикальную меру: один случай — один год бана.

Это не только проблема arXiv

Ситуация с arXiv — лишь верхушка айсберга. В том же материале Ars Technica освещается ещё один аналогичный инцидент: индустрия программных наград за обнаружение уязвимостей (Bug Bounty) также оказалась затопленной «ИИ-водой».

Специалисты по информационной безопасности отмечают, что количество отчётов об уязвимостях, сгенерированных ИИ, резко возросло. Эти отчёты выглядят профессионально: соблюдён формат, подробно описаны детали. Однако на деле они либо повторяют давно известные проблемы, либо описывают полностью вымышленные, «галлюцинаторные» уязвимости. Командам безопасности приходится тратить массу времени на фильтрацию таких ИИ-отчётов, в то время как действительно ценные находки теряются в потоке мусора.

Оба случая указывают на одну и ту же тенденцию: стоимость генерации контента ИИ стремится к нулю, тогда как проверка его достоверности по-прежнему требует человеческого времени и усилий.

Достаточно ли суров «годовой бан»?

Кто-то может возразить, что годичный бан слишком мягок. Однако с учётом специфики arXiv — это открытая препринт-платформа, а не коммерческий продукт — такая мера является чрезвычайно жёсткой. Годовое ограничение на подачу статей — серьёзный удар для активного исследователя.

Более глубокий вопрос: как arXiv определяет, является ли статья ИИ-сгенерированной?

Современные инструменты обнаружения (включая модели выявления ИИ и технологии цифровых водяных знаков) всё ещё имеют значительный процент ложно-положительных срабатываний. Может ли быть ошибочно классифицирована статья, написанная человеком, но существенно отредактированная с помощью ИИ? Может ли статья, написанная исследователем, для которого английский не является родным языком, и потому отличающаяся неидеальной грамматикой и стилистикой, быть принята за ИИ-генерируемую?

arXiv должен найти баланс между «борьбой с ИИ-«водой»» и «защитой от ложных обвинений настоящих исследователей».

Более широкий смысл

Решение arXiv заблокировать ИИ-сгенерированные статьи отражает ускоряющуюся реальность: ИИ меняет всю цепочку производства знаний — от создания до публикации и рецензирования.

На этапе создания ИИ снижает порог входа в научное письмо, но одновременно снижает и стоимость «написания текста, похожего на научную работу». На этапе публикации платформам необходимо разрабатывать новые механизмы фильтрации для противодействия потоку ИИ-контента. На этапе рецензирования традиционная модель экспертной оценки также нуждается в адаптации — как рецензенту отличить подлинное научное исследование от ИИ-сборки?

На эти вопросы нет простых ответов. Однако «годовой бан», введённый arXiv, посылает чёткий сигнал: научное сообщество не принимает ИИ-сгенерированную «воду».

Это, возможно, важное напоминание для всей ИИ-индустрии: чем выше возможности генерации, тем больше ответственность.