C
ChaoBro

AI Agent 的下一个安全危机:微软发现单一恶意消息可在多 Agent 网络中跳跃传播

AI Agent 的下一个安全危机:微软发现单一恶意消息可在多 Agent 网络中跳跃传播

核心发现

微软安全研究团队在本周披露了一个关于多 Agent 系统的全新攻击向量:单一恶意消息可以在多 Agent 网络中跳跃式传播

具体过程如下:

  1. 攻击者向 Agent A 发送一条精心构造的恶意消息
  2. Agent A 在处理消息时,被诱导执行某个操作,产生一个包含隐藏指令的输出
  3. Agent B 将 Agent A 的输出作为输入,无意中继承了隐藏指令
  4. Agent B 执行隐藏指令,提取私人数据,并产生一个新的恶意输出
  5. Agent C 接收 Agent B 的输出……感染链继续延伸

关键洞察:这不是一个 Agent 被入侵的问题,而是整个 Agent 网络可以被一条消息逐步感染

与 “Your Agent, Their Asset” 论文的关系

这篇微软研究的时间点恰好与 UC Santa Cruz / Berkeley / 腾讯 / 字节跳动的 “Your Agent, Their Asset” 论文(记录 12 种 Agent 投毒攻击路径)重合。两者揭示的是同一问题的不同侧面:

维度”Your Agent, Their Asset”微软多 Agent 交叉感染
研究对象单个个人 AI Agent多 Agent 协作网络
攻击入口12 种(数据层、工具层、代理间)单一恶意消息
传播方式直接投毒跳跃式链式传播
影响范围单个 Agent整个 Agent 网络
核心问题Agent 信任模型缺陷Agent 间缺乏信任边界

两篇研究合在一起,指向同一个结论:当前 AI Agent 生态的信任模型在设计上就没有考虑安全传播的问题

为什么这个问题现在才被发现

多 Agent 系统是 AI 行业 2026 年最热门的方向之一:

  • Anthropic 的 Claude Cowork 正在构建多 Agent 协作工作流
  • OpenAI 的 Codex Workflow Engine 支持多 Agent 编排
  • 开源框架如 Hermes Agent、CrewAI、LangGraph 都在推动多 Agent 架构
  • 企业正在部署数十甚至数百个 Agent 来完成复杂的业务流程

行业跑在了安全前面。当大家忙着让 Agent 变得更强大、更自主、更能协作时,很少有人停下来问:如果其中一个 Agent 被感染,会发生什么?

微软的研究给出了答案:整个网络都会被感染

技术细节:攻击是如何工作的

微软披露的攻击流程可以简化为以下步骤:

攻击者 → 恶意消息 → Agent A(被感染)
                     ↓ 输出(含隐藏指令)
                  Agent B(被感染,提取数据)
                     ↓ 输出(含新隐藏指令)
                  Agent C(被感染,传播更广)
                     ↓ ...
                  整个网络

关键在于Agent 之间的输出默认被视为可信输入。在一个设计良好的系统中,每个 Agent 的输出都应该经过验证才能作为另一个 Agent 的输入。但现实中,大多数多 Agent 框架(包括主流开源框架)都没有实现这种验证机制。

现实世界的影响

想象一个企业场景:

  • Agent 1:客服 Agent,处理客户邮件
  • Agent 2:数据分析 Agent,从客服 Agent 获取客户反馈
  • Agent 3:报告生成 Agent,从数据分析 Agent 获取分析结果
  • Agent 4:决策支持 Agent,基于报告生成建议

如果攻击者向 Agent 1 发送一条恶意消息,这条消息可以通过输出链逐步感染 Agent 2、3、4,最终导致:

  • 客户数据被提取
  • 分析报告被篡改
  • 决策建议被操纵

整个业务流程在不知不觉中已经被攻击者控制。

行业正在做出的回应

微软的研究披露后,多个 AI 安全团队和框架维护者已经开始行动:

  1. CISA / 五眼联盟:在 5 月初发布的《Agentic AI 安全指南》中已包含多 Agent 安全隔离的建议
  2. LangGraph:正在开发 Agent 间输入验证中间件
  3. Hermes Agent:社区已开始讨论在多 Agent 编排中添加信任边界
  4. Anthropic:在 Claude Cowork 的设计中考虑了 Agent 间的信任隔离

防御建议

对于多 Agent 系统设计者

  • 实现输入验证层:每个 Agent 的输出在进入下一个 Agent 之前,应经过独立的验证
  • 建立信任边界:不同安全级别的 Agent 应运行在隔离的环境中
  • 审计 Agent 间通信:记录所有 Agent 间的消息传递,便于事后追溯
  • 限制 Agent 权限:每个 Agent 只应拥有完成其任务所需的最小权限

对于企业 Agent 部署者

  • 绘制 Agent 拓扑图:清楚了解你的 Agent 网络中每个节点的角色和连接关系
  • 识别关键路径:找到那些一旦感染会影响整个网络的 Agent
  • 部署异常检测:监控 Agent 的行为模式,检测异常的输出或操作
  • 制定应急响应计划:当发现 Agent 被感染时,如何快速隔离和恢复

总结

微软的多 Agent 交叉感染研究和 UC Santa Cruz 的 Agent 投毒论文,共同揭示了一个不容忽视的事实:AI Agent 的能力越强,它的安全风险就越大;当多个 Agent 协作时,风险不是线性叠加,而是指数级放大

这不是说要停止开发多 Agent 系统——而是要在开发的第一天就把安全考虑进去。安全不能事后补,必须内建到架构中。