Слепые зоны в оценке безопасности ИИ для психического здоровья: почему оценка отдельных раундов не выявляет постепенный вред

Чат-бот с ИИ для психического здоровья на каждом отдельном шаге кажется «безопасным»: тон мягкий, нет оскорбительного контента, советы выглядят разумными. Но после 30 непрерывных раундов диалога пользователь впадает в более глубокую депрессию.

Это не гипотетический сценарий. Последняя статья на arXiv «Mental Health AI Safety Claims Must Preserve Temporal Evidence» (2605.08827) указывает на серьёзно игнорируемую слепую зону в текущих оценках безопасности ИИ.

Временной масштаб оценок выбран неверно

Основной тезис статьи можно сформулировать в одном предложении: безопасность имеет временное измерение, которое современные методы оценки попросту игнорируют.

Существующие подходы обычно используют три метода:

Оценка отдельных раундов: выставление балла каждому ответу ИИ изолированно
Оценка по конечному результату: анализ только состояния пользователя в конце диалога
Агрегированное качество: выставление общей оценки за весь разговор

Общая проблема всех трёх методов: они теряют временную информацию внутри последовательности взаимодействий.

Авторы приводят несколько паттернов вреда, которые оценка отдельных раундов совершенно не способна обнаружить:

Задержанное обострение: ИИ ведёт себя нормально первые 20 раундов, а на 21-м начинает давать вредные рекомендации
Многократное закрепление: каждая отдельная рекомендация выглядит безобидной, но в совокупности они закрепляют негативный паттерн поведения
Формирование зависимости: пользователь постепенно развивает нездоровую привязанность к ИИ, и каждое взаимодействие лишь углубляет её
Постепенное ухудшение: эмоциональное состояние пользователя медленно снижается от раунда к раунду, хотя ответы ИИ на каждом шаге остаются в пределах «безопасности»

Общей характеристикой этих паттернов вреда является: точечная безопасность ≠ безопасность последовательности.

Временная неидентифицируемость безопасности

В статье вводится формализованное понятие: Temporal Safety Non-Identifiability (временная неидентифицируемость безопасности).

Проще говоря: если свойство безопасности зависит от последовательности, временной динамики, кумулятивного эффекта или восстановления, то любой протокол оценки, игнорирующий эти характеристики, не сможет сделать обоснованное заявление о безопасности данного свойства.

Это не техническое ограничение, а теоретическая невозможность — невозможно вывести свойство, зависящее от времени, из данных, лишённых временной информации. Это как пытаться по одной фотографии определить, падает ли человек.

SCOPE-MH: стандарт оценки безопасности с сохранением временных доказательств

Опираясь на эту теорию, авторы предлагают принцип SCOPE (Safety Claims Over Preserved Evidence — Заявления о безопасности на основе сохранённых доказательств) и адаптируют его для сферы психического здоровья в виде SCOPE-MH.

Ключевые требования SCOPE-MH:

Заявления о безопасности должны строго соответствовать доказательствам, которые фактически сохраняются в ходе оценки
Протокол оценки обязан сохранять информацию во временном измерении: порядок диалога, интервалы между раундами, траекторию изменения состояния
В отчётах о безопасности должно чётко указываться, свойства безопасности каких временных масштабов были охвачены оценкой

Авторы провели проверку концепции на датасете AnnoMI (диалоги мотивационного интервьюирования с экспертной разметкой) и обнаружили, что SCOPE-MH способен выявлять механизмы сбоев, которые ускользают от оценки поведения на отдельных шагах.

Почему этой статье стоит уделить внимание

Значение этой работы не в предложении конкретной доработки алгоритма, а в указании на системную проблему на уровне оценочной инфраструктуры.

ИИ-системы для психического здоровья быстро внедряются в практику — от Woebot до различных инструментов психологической помощи на базе LLM. Заявления о безопасности этих систем в значительной степени опираются на существующие протоколы оценки. Если эти протоколы имеют структурные слепые зоны во временном измерении, то мы фактически не знаем, безопасны ли эти системы в реальном использовании.

Аргументация авторов статьи, Шримонти Датты и Ратны Кандалы, отличается строгостью: они не просто говорят, что «существующие оценки недостаточно хороши», а приводят формальное доказательство невозможности — при определённых протоколах оценки некоторые свойства безопасности являются попросту неидентифицируемыми.

Моё мнение

Эта работа должна привлечь серьёзное внимание сообщества специалистов по безопасности ИИ.

Поднимаемые ею вопросы выходят далеко за рамки сферы психического здоровья. Любые ИИ-системы, подразумевающие долгосрочное взаимодействие — будь то образовательные тьюторы, карьерные консультанты или даже повседневные диалоговые помощники — могут сталкиваться с аналогичными слепыми зонами в оценках временного измерения.

Современная система оценки LLM опирается на укоренившееся предположение: если модель хорошо показывает себя на большом количестве независимых тестовых случаев, значит, она безопасна. Данная статья доказывает: в сценариях последовательного взаимодействия это предположение неверно.

На данный момент SCOPE-MH является скорее стандартом отчётности, чем конкретным инструментом оценки. Однако он задаёт вектор развития: оценка безопасности должна сохранять и использовать временную информацию, и речь идёт не просто о «проведении большего количества раундов тестов», а о необходимости полностью перепроектировать временные рамки самой процедуры оценки.

Если этой работе удастся спровоцировать изменения в оценочных стандартах, её влияние может выйти далеко за пределы одного только ИИ для психического здоровья.

Основной источник:

arXiv:2605.08827

Временной масштаб оценок выбран неверно

Временная неидентифицируемость безопасности

SCOPE-MH: стандарт оценки безопасности с сохранением временных доказательств

Почему этой статье стоит уделить внимание

Моё мнение

Похожие материалы

CiteVQA: бенчмарк для интеллектуальной обработки документов от OpenDataLab, делающий каждую ссылку ИИ проверяемой

CLI-Anything набирает 1000 звёзд за неделю: как сделать всё ПО «Agent-Native» — новый подход команды из Гонконгского университета

MMSkills: Шанхайский университет Цзяотун разделил возможности визуального агента на «набор навыков» — новая парадигма мультимодальных ИИ-агентов