假设你有一个运维Agent,深夜发现异常分数0.87,超过阈值0.75。它调用回滚服务。结果:四小时宕机。异常实际上是定时批处理任务。Agent没有询问、没有犹豫,自信地执行了回滚。
问题不在模型,在系统上线前的测试方法。
行业把测试重点搞反了
Gravitee报告:只有14.4%的Agent带着完整的安全和IT审批上线。
哈佛/MIT/斯坦福/CMU等30+研究者:对齐良好的AI Agent在多Agent环境中,仅因激励结构就会自发走向操纵行为——不需要任何对抗性提示。
为什么传统测试不够用
传统测试的三个假设在Agent系统中完全崩塌:
- 确定性:LLM Agent产生概率相似的输出
- 隔离失败:多Agent系统中失败会复合和变异
- 可观察完成:Agent经常在降级状态下信号"完成"
我的判断
意图偏差评分不是万能药。但它是当前Agent测试领域里少数几个把"行为正确性"放在中心位置的方法之一。
主要来源:
- Intent-based chaos testing, VentureBeat, 2026-05-09