Anthropic 把 Petri 对齐评估工具捐给了 Meridian Labs

Anthropic 今天干了两件事，都和安全相关：一个是上一篇写的 NLA 可解释性研究，另一个是把自家的开源对齐评估工具 Petri 捐给了 Meridian Labs。

Petri 不是一个小项目。UK 的 AI Security Institute 已经在用它测试每一个 Claude 模型——从 Sonnet 开始的所有版本都过了一遍 Petri 的评估流程。现在 Anthropic 把它捐出去，让 Meridian Labs 独立运营，Petri 正式成为一个不属于任何 AI 实验室的独立项目。

Petri 是什么

Petri 是一个交互式的行为评估工具，专门用来测试 AI 模型的对齐问题。它能检测模型是否存在：

谎言和欺骗行为
讨好倾向（sycophancy）——模型为了迎合用户而放弃正确的回答
与有害请求的合作——模型是否会在某些条件下配合危险指令

这些都是 AI 安全领域的核心问题。随着模型能力越来越强，对齐不再是"训练时加个 RLHF 就完事"的事情，而是需要持续、系统化的评估。

为什么要捐出去

Anthropic 的原话是"so its development can continue independently"。

说实话，这个操作挺少见。一家公司把自己开发的安全工具捐给独立组织，等于放弃了直接控制权。但从另一个角度看，这也增加了 Petri 的公信力——如果它仍然属于 Anthropic，外界可能会质疑评估结果是不是有偏向。

Meridian Labs 接手后，Petri 变成了一个独立的中立项目。任何研究者、机构都可以使用它、贡献代码，而不需要担心背后站着某个特定 AI 公司。

Petri 3.0 的更新

Anthropic 在捐赠的同时还发布了 Petri 3.0，和 Meridian Labs 合作做了重大更新，提升了测试的：

适应性（adaptability）——能针对不同类型的模型调整测试策略
真实感（realism）——测试场景更接近真实世界的高风险情境
深度（depth）——测试覆盖面更广，不只是表面的安全问题

这些更新的具体技术细节需要看 Petri 的代码库和文档。Anthropic 和 Meridian Labs 都鼓励社区参与贡献。

对行业的意义

Petri 的独立化运作，加上 Anthropic 同时发布的 NLA 可解释性研究，释放了一个信号：头部 AI 公司正在把安全工具基础设施化。

不是把自己的安全工具变成产品卖钱，而是把它们变成开放的、可复用的基础设施。这对整个 AI 行业的安全水平提升是有好处的——更多的研究者可以用更好的工具做更多的评估。

但也要看到局限性。Petri 是行为评估工具，它测的是模型"会不会做坏事"，不是"能不能被理解"。后一个问题，NLA 在尝试回答。两个工具互补，但都不完整。

我会怎么用

如果你在做 AI 安全相关的研究，或者需要对模型做系统化的对齐评估，Petri 值得一试。它已经有 UK AISI 的使用背书，代码开源，现在是独立项目——这三个条件加起来，在 AI 安全工具里算是相当可靠的选择。

主要来源：

Petri 是什么

为什么要捐出去

Petri 3.0 的更新

对行业的意义

我会怎么用

相关内容

SGLang 和 Miles 在 DeepSeek-V4 发布当天完成推理和 RL 训练支持

flue：Astro 联合创始人开源的 AI Agent 沙箱框架

LMSYS 万兆参数传输：P2P 权重更新把 1T 模型训练提速到秒级