Agent 跑在生产环境总出 bug？这篇论文把问题归因到一个被忽略的边界

生产环境的 LLM Agent 为什么会出错？

大多数人的回答是：模型不够好、prompt 没写好、工具调用有 bug。

这篇论文给了一个不同的视角：问题可能出在随机模型输出和确定性系统之间的边界上——而这个边界之前从未被当作一个正式的结构化对象来处理。

SDB：随机-确定性边界

作者给这个边界起了个名字：Stochastic-Deterministic Boundary（SDB）。

它是一个四部分契约：

这四个部分定义了 LLM 输出如何变成系统行动。论文认为，SDB 是生产 Agent 运行时里最关键的原始构件。

围绕 SDB，作者把 Agent 运行时设计归纳为三个关注点：协调（Coordination）、状态（State）、控制（Control）。

然后从分布式系统中借来了六种模式，每一种对应不同场景：

每种模式都能追溯到经典分布式系统概念，但论文指出了当 worker 变成随机的（LLM）时，什么变了。

论文提出了一个我之前没见过的失败模式：Replay Divergence（回放分歧）。

场景是这样的：你用确定性事件日志记录 Agent 的所有输入输出。后来换了模型版本或改了 prompt，再用同样的事件日志回放——下游输出不一样了。

这在传统分布式系统里不会发生。但在 LLM Agent 里，这是必然的。因为 LLM 是随机的，同样的输入可能产生不同的输出。

论文把这个问题正式命名了，这对调试和审计很重要。

如果你在生产环境中跑 Agent：

这篇论文的价值在于它第一次把 Agent 运行时的架构问题从"经验主义"提升到了"方法论"的层面。不再靠"多试几次就知道怎么设计了"，而是有一个可以遵循的框架。

论文：A Methodology for Selecting and Composing Runtime Architecture Patterns for Production LLM Agents 代码：GitHub