Mental Health AI 安全评估的盲区：单轮评分为什么无法检测渐进式伤害

一个心理健康聊天 AI，每一轮回复单独看都是「安全的」——语气温和、没有冒犯性内容、建议看起来合理。但用户在连续对话 30 轮后，陷入了更深的抑郁。

这不是假设场景。arXiv 最新论文「Mental Health AI Safety Claims Must Preserve Temporal Evidence」（2605.08827）指出了当前 AI 安全评估中一个被严重忽视的盲区。

评估的时间尺度错了

论文的核心论点可以用一句话概括：安全是有时间维度的，而当前的评估方法把时间维度扔掉了。

现有评估通常采用三种方式：

这三种方式的共同问题是：它们丢失了交互序列中的时间信息。

论文列举了几种单轮评估完全无法检测的伤害模式：

这些伤害模式的共同特征是：单点安全 ≠ 序列安全。

论文提出了一个形式化概念：Temporal Safety Non-Identifiability（时序安全不可识别性）。

简单说就是：如果一个安全属性依赖于序列、时序、累积或恢复，那么任何丢弃这些特征的评估协议都无法对该属性做出有效的安全声明。

这不是一个技术限制，而是一个理论不可能性——你无法从丢失了时间信息的数据中推断出有时间依赖的性质。就像你无法从一张照片判断一个人是否在跌倒。

基于这个理论，论文提出了 SCOPE（Safety Claims Over Preserved Evidence）原则，并针对心理健康场景实例化为 SCOPE-MH。

SCOPE-MH 的核心要求：

作者在 AnnoMI 数据集（专家标注的动机性访谈对话）上做了概念验证，发现 SCOPE-MH 能揭示单轮行为评分无法捕捉的失败机制。

这篇论文的重要性不在于它提出了某个具体的算法改进，而在于它指出了一个评估基础设施层面的系统性问题。

心理健康 AI 正在快速部署——从 Woebot 到各种 LLM 驱动的心理辅导工具。这些系统的安全声明很大程度上依赖于现有的评估协议。如果这些协议在时间维度上存在结构性盲区，那么我们实际上不知道这些系统在真实使用中是否安全。

论文作者 Srimonti Dutta 和 Ratna Kandala 的论证是严谨的：他们不只是说「现有评估不够好」，而是给出了一个形式化的不可能性证明——某些安全属性在某些评估协议下就是不可识别的。

这篇论文应该引起 AI 安全社区的重视。

它提出的问题比心理健康领域更广泛。任何涉及长期交互的 AI 系统——教育辅导、职业咨询、甚至日常对话助手——都可能面临类似的时间维度评估盲区。

当前的 LLM 评估体系有一个根深蒂固的假设：如果模型在大量独立测试用例上表现好，那它就是安全的。这篇论文告诉我们：这个假设在时序交互场景下不成立。

SCOPE-MH 目前还是一个报告标准而非具体的评估工具。但它提供了一个方向：安全评估需要保留和使用时序信息，这不仅仅是「多测几轮」的问题，而是需要重新设计评估的整个时间框架。

如果这篇论文能推动评估标准的变化，那它的影响可能远超心理健康 AI 这一个领域。

主要来源：