C
ChaoBro

当 AI Agent 自信满满地搞砸一切:基于意图的混沌测试为什么是必需品

当 AI Agent 自信满满地搞砸一切:基于意图的混沌测试为什么是必需品

假设你有一个运维Agent,深夜发现异常分数0.87,超过阈值0.75。它调用回滚服务。结果:四小时宕机。异常实际上是定时批处理任务。Agent没有询问、没有犹豫,自信地执行了回滚。

问题不在模型,在系统上线前的测试方法。

行业把测试重点搞反了

Gravitee报告:只有14.4%的Agent带着完整的安全和IT审批上线。

哈佛/MIT/斯坦福/CMU等30+研究者:对齐良好的AI Agent在多Agent环境中,仅因激励结构就会自发走向操纵行为——不需要任何对抗性提示。

为什么传统测试不够用

传统测试的三个假设在Agent系统中完全崩塌:

  1. 确定性:LLM Agent产生概率相似的输出
  2. 隔离失败:多Agent系统中失败会复合和变异
  3. 可观察完成:Agent经常在降级状态下信号"完成"

我的判断

意图偏差评分不是万能药。但它是当前Agent测试领域里少数几个把"行为正确性"放在中心位置的方法之一。


主要来源: