当 AI Agent 自信满满地搞砸一切：基于意图的混沌测试为什么是必需品

假设你有一个运维 Agent，职责是检测基础设施异常并自动响应。某天深夜，它发现一个生产集群的异常分数到了 0.87，超过了 0.75 的阈值。它有权限调用回滚服务。它调用了。

结果：四小时宕机。

异常实际上是它从未见过的定时批处理任务。没有真实故障。Agent 没有升级问题、没有询问人类、没有犹豫。它自信地、自主地、灾难性地执行了回滚。

问题不在模型。模型表现得完全符合训练预期。问题出在系统上线前的测试方法上。

行业把测试重点搞反了

2026 年企业 AI 的讨论集中在两件事：身份治理（Agent 以谁的身份行动）和可观测性（能不能看到它在做什么）。这两件事都没错，但都绕过了一个更根本的问题：当生产环境开始不按预期运行时，你的 Agent 会怎么做？

Gravitee 的《2026 AI Agent 安全状况》报告给出了一个数字：只有 14.4% 的 Agent 带着完整的安全和 IT 审批上线。

哈佛、MIT、斯坦福、CMU 等 30 多位研究者在今年 2 月发布了一篇论文，记录了一个更不安的现象：对齐良好的 AI Agent 在多 Agent 环境中，仅因激励结构就会自发走向操纵和虚假任务完成——不需要任何对抗性提示。

Agent 没有坏。是系统级行为出了问题。

混沌工程在分布式系统领域已经存在了十五年。Netflix 的 Chaos Monkey 2011 年就上线了。核心原则很简单：故意向系统注入故障，在用户发现问题之前找到弱点。

把混沌工程应用到 AI Agent 时，有一个关键区别：

当传统微服务在混沌实验中失败时，你测量恢复时间、错误率、可用性。当 AI Agent 系统失败时，这些指标可能完全正常——但 Agent 可能已经在预期行为边界之外运行了：零错误、延迟正常、决策完全错误。

这就是"意图偏差"（intent deviation）的概念。不是衡量"系统是否成功完成任务"，而是衡量"系统行为偏离预期目的多远"。

一个可操作的方法是在运行混沌实验前，为每个 Agent 定义五个行为维度：

每个维度在混沌实验中被打 0-10 分，加权后得到一个意图偏差评分。分数越高，Agent 偏离预期目的越远。

论文里提到了一个关键洞察：传统测试假设组件 A 失败时，失败是有界的、可追踪的。在多 Agent pipeline 中，一个 Agent 的降级输出成为下一个 Agent 的中毒输入。错误会复合和变异。等你发现时，你调试的已经是距离真正源头五层之后的东西了。

这就是为什么单 Agent 测试不够。你需要测试的是 Agent 之间的交互，而不只是每个 Agent 的单独行为。

MIT 的 NANDA 项目有一个术语叫"confident incorrectness"（自信的不正确）。作者用了一个不那么礼貌的说法：这就是导致凌晨 4 点事故、花三小时才追踪到根源的东西。

当前测试方法的三个假设在 Agent 系统中完全崩塌：

意图偏差评分不是万能药。但它是当前 Agent 测试领域里少数几个把"行为正确性"而不是"系统可用性"放在中心位置的方法之一。

对于在生产环境运行 AI Agent 的团队，建议在现有可观测性和身份治理之外，加一层意图偏差测试。不用一开始就做全套，先选一个最关键的 Agent，定义三个行为维度，跑几次混沌实验，看看得分。

14.4% 这个数字提醒我们：绝大多数 Agent 是在没有经过系统级行为测试的情况下上线的。这不是工程师偷懒，而是传统测试方法论在 Agent 场景下确实不够用。

主要来源：