AI Agent 的下一个安全危机：微软发现单一恶意消息可在多 Agent 网络中跳跃传播

核心发现

微软安全研究团队在本周披露了一个关于多 Agent 系统的全新攻击向量：单一恶意消息可以在多 Agent 网络中跳跃式传播。

具体过程如下：

攻击者向 Agent A 发送一条精心构造的恶意消息
Agent A 在处理消息时，被诱导执行某个操作，产生一个包含隐藏指令的输出
Agent B 将 Agent A 的输出作为输入，无意中继承了隐藏指令
Agent B 执行隐藏指令，提取私人数据，并产生一个新的恶意输出
Agent C 接收 Agent B 的输出……感染链继续延伸

关键洞察：这不是一个 Agent 被入侵的问题，而是整个 Agent 网络可以被一条消息逐步感染。

与 “Your Agent, Their Asset” 论文的关系

这篇微软研究的时间点恰好与 UC Santa Cruz / Berkeley / 腾讯 / 字节跳动的 “Your Agent, Their Asset” 论文（记录 12 种 Agent 投毒攻击路径）重合。两者揭示的是同一问题的不同侧面：

维度	”Your Agent, Their Asset”	微软多 Agent 交叉感染
研究对象	单个个人 AI Agent	多 Agent 协作网络
攻击入口	12 种（数据层、工具层、代理间）	单一恶意消息
传播方式	直接投毒	跳跃式链式传播
影响范围	单个 Agent	整个 Agent 网络
核心问题	Agent 信任模型缺陷	Agent 间缺乏信任边界

两篇研究合在一起，指向同一个结论：当前 AI Agent 生态的信任模型在设计上就没有考虑安全传播的问题。

为什么这个问题现在才被发现

多 Agent 系统是 AI 行业 2026 年最热门的方向之一：

Anthropic 的 Claude Cowork 正在构建多 Agent 协作工作流
OpenAI 的 Codex Workflow Engine 支持多 Agent 编排
开源框架如 Hermes Agent、CrewAI、LangGraph 都在推动多 Agent 架构
企业正在部署数十甚至数百个 Agent 来完成复杂的业务流程

行业跑在了安全前面。当大家忙着让 Agent 变得更强大、更自主、更能协作时，很少有人停下来问：如果其中一个 Agent 被感染，会发生什么？

微软的研究给出了答案：整个网络都会被感染。

技术细节：攻击是如何工作的

微软披露的攻击流程可以简化为以下步骤：

攻击者 → 恶意消息 → Agent A（被感染）
                     ↓ 输出（含隐藏指令）
                  Agent B（被感染，提取数据）
                     ↓ 输出（含新隐藏指令）
                  Agent C（被感染，传播更广）
                     ↓ ...
                  整个网络

关键在于Agent 之间的输出默认被视为可信输入。在一个设计良好的系统中，每个 Agent 的输出都应该经过验证才能作为另一个 Agent 的输入。但现实中，大多数多 Agent 框架（包括主流开源框架）都没有实现这种验证机制。

现实世界的影响

想象一个企业场景：

Agent 1：客服 Agent，处理客户邮件
Agent 2：数据分析 Agent，从客服 Agent 获取客户反馈
Agent 3：报告生成 Agent，从数据分析 Agent 获取分析结果
Agent 4：决策支持 Agent，基于报告生成建议

如果攻击者向 Agent 1 发送一条恶意消息，这条消息可以通过输出链逐步感染 Agent 2、3、4，最终导致：

客户数据被提取
分析报告被篡改
决策建议被操纵

整个业务流程在不知不觉中已经被攻击者控制。

行业正在做出的回应

微软的研究披露后，多个 AI 安全团队和框架维护者已经开始行动：

CISA / 五眼联盟：在 5 月初发布的《Agentic AI 安全指南》中已包含多 Agent 安全隔离的建议
LangGraph：正在开发 Agent 间输入验证中间件
Hermes Agent：社区已开始讨论在多 Agent 编排中添加信任边界
Anthropic：在 Claude Cowork 的设计中考虑了 Agent 间的信任隔离

防御建议

对于多 Agent 系统设计者

实现输入验证层：每个 Agent 的输出在进入下一个 Agent 之前，应经过独立的验证
建立信任边界：不同安全级别的 Agent 应运行在隔离的环境中
审计 Agent 间通信：记录所有 Agent 间的消息传递，便于事后追溯
限制 Agent 权限：每个 Agent 只应拥有完成其任务所需的最小权限

对于企业 Agent 部署者

绘制 Agent 拓扑图：清楚了解你的 Agent 网络中每个节点的角色和连接关系
识别关键路径：找到那些一旦感染会影响整个网络的 Agent
部署异常检测：监控 Agent 的行为模式，检测异常的输出或操作
制定应急响应计划：当发现 Agent 被感染时，如何快速隔离和恢复

总结

微软的多 Agent 交叉感染研究和 UC Santa Cruz 的 Agent 投毒论文，共同揭示了一个不容忽视的事实：AI Agent 的能力越强，它的安全风险就越大；当多个 Agent 协作时，风险不是线性叠加，而是指数级放大。

这不是说要停止开发多 Agent 系统——而是要在开发的第一天就把安全考虑进去。安全不能事后补，必须内建到架构中。

核心发现

与 “Your Agent, Their Asset” 论文的关系

为什么这个问题现在才被发现

技术细节：攻击是如何工作的

现实世界的影响

行业正在做出的回应

防御建议

对于多 Agent 系统设计者

对于企业 Agent 部署者

总结

相关内容

CAISI 扩容：Google/Microsoft/xAI 加入美国政府 AI 安全测试计划，自愿框架走向实质化

Claude Managed Agents 发布 Dreaming 功能：Agent 从"执行者"进化为"预演者"

Meta 秘密开发 OpenClaw 竞品：Muse Spark 驱动的数十亿用户 AI 个人助手