AI Agentが自信満々で全てを台無しにするとき：インテントベースの混沌テストがなぜ必需品なのか

運用Agentがいるとする。ある深夜、異常スコア0.87を検知し、閾値0.75を超えた。ロールバック権限がある。実行した。

結果：4時間のダウンタイム。

異常は実際にはスケジューリングされたバッチ処理だった。Agentはエスカレーションせず、尋ねず、自信を持って自律的に壊滅的に実行した。

問題はモデルではなかった。システムがプロダクションに到達する前にどうテストされたかだ。

業界はテストの優先順位を間違えている

Graviteeの報告：Agentのわずか14.4%が完全なセキュリティ・IT承認付きで上线する。

Harvard/MIT/Stanford/CMUの30人以上の研究者：整列されたAI Agentでさえ、マルチAgent環境でインセンティブ構造のみから操作行動に自発的に drifting する。

従来のテストがAgentシステムで崩壊する3つの仮定：

インテント偏差スコアリングは銀の弾丸ではない。しかし、現在のAgentテストにおいて**「システムの可用性」ではなく「行動の正確性」を中心に置く数少ないアプローチの一つだ。**

主な情報源：