Anthropic 今天干了两件事,都和安全相关:一个是上一篇写的 NLA 可解释性研究,另一个是把自家的开源对齐评估工具 Petri 捐给了 Meridian Labs。
Petri 不是一个小项目。UK 的 AI Security Institute 已经在用它测试每一个 Claude 模型——从 Sonnet 开始的所有版本都过了一遍 Petri 的评估流程。现在 Anthropic 把它捐出去,让 Meridian Labs 独立运营,Petri 正式成为一个不属于任何 AI 实验室的独立项目。
Petri 是什么
Petri 是一个交互式的行为评估工具,专门用来测试 AI 模型的对齐问题。它能检测模型是否存在:
- 谎言和欺骗行为
- 讨好倾向(sycophancy)——模型为了迎合用户而放弃正确的回答
- 与有害请求的合作——模型是否会在某些条件下配合危险指令
这些都是 AI 安全领域的核心问题。随着模型能力越来越强,对齐不再是"训练时加个 RLHF 就完事"的事情,而是需要持续、系统化的评估。
为什么要捐出去
Anthropic 的原话是"so its development can continue independently"。
说实话,这个操作挺少见。一家公司把自己开发的安全工具捐给独立组织,等于放弃了直接控制权。但从另一个角度看,这也增加了 Petri 的公信力——如果它仍然属于 Anthropic,外界可能会质疑评估结果是不是有偏向。
Meridian Labs 接手后,Petri 变成了一个独立的中立项目。任何研究者、机构都可以使用它、贡献代码,而不需要担心背后站着某个特定 AI 公司。
Petri 3.0 的更新
Anthropic 在捐赠的同时还发布了 Petri 3.0,和 Meridian Labs 合作做了重大更新,提升了测试的:
- 适应性(adaptability)——能针对不同类型的模型调整测试策略
- 真实感(realism)——测试场景更接近真实世界的高风险情境
- 深度(depth)——测试覆盖面更广,不只是表面的安全问题
这些更新的具体技术细节需要看 Petri 的代码库和文档。Anthropic 和 Meridian Labs 都鼓励社区参与贡献。
对行业的意义
Petri 的独立化运作,加上 Anthropic 同时发布的 NLA 可解释性研究,释放了一个信号:头部 AI 公司正在把安全工具基础设施化。
不是把自己的安全工具变成产品卖钱,而是把它们变成开放的、可复用的基础设施。这对整个 AI 行业的安全水平提升是有好处的——更多的研究者可以用更好的工具做更多的评估。
但也要看到局限性。Petri 是行为评估工具,它测的是模型"会不会做坏事",不是"能不能被理解"。后一个问题,NLA 在尝试回答。两个工具互补,但都不完整。
我会怎么用
如果你在做 AI 安全相关的研究,或者需要对模型做系统化的对齐评估,Petri 值得一试。它已经有 UK AISI 的使用背书,代码开源,现在是独立项目——这三个条件加起来,在 AI 安全工具里算是相当可靠的选择。
主要来源: