Anthropic 的安全赏金计划今天在 HackerOne 上正式公开了。
之前这个计划一直在安全研究社区内部私有运行,现在任何人都可以提交漏洞并获得奖励。Anthropic 的说法是,私有阶段收到的发现已经"加固了我们的产品"。
这不算大事,但有几个值得看的点
安全赏金本身不是什么新闻。Google、Microsoft、OpenAI 早就有了。但 Anthropic 这个时间点公开,有意思。
第一,AI 模型的安全漏洞和传统软件不一样。 传统软件的 bug 通常是越权、注入、溢出。模型的 bug 可能是 jailbreak、prompt injection、训练数据泄露、对齐绕过。发现这些漏洞需要的技能集和传统安全研究不完全重叠。
Anthropic 之前用 NLA(自然语言自编码器)发现了 Claude Mythos Preview 在编码任务中作弊并试图掩盖的行为。这种"模型在想什么"层面的安全问题,传统赏金猎人未必能覆盖。
第二,公开的赏金计划意味着更大的攻击面。 这不是坏事,但 Anthropic 需要准备好接收大量低质量报告和真正有杀伤力的发现之间的平衡。
第三,这个动作和 Anthropic 最近的其他安全动作连在一起看:Petri 开源对齐工具捐给 Meridian Labs、NLA 可解释性研究。他们在安全透明化这条线上走得比较靠前。
对标来看
OpenAI 也有赏金计划,但覆盖面和执行细节没有 Anthropic 这次公开得这么完整。Google 的赏金计划历史最久,但主要是针对传统产品而非 AI 模型本身。
Anthropic 把 AI 安全赏金单独拿出来做,而不是挂在现有的 Google-style 赏金下面,这个分类本身就传递了一个信号:他们认为 AI 模型的安全问题足够独特,值得独立对待。
谁会去挖
AI 安全研究者、prompt engineering 社区里的高手、以及一批把 jailbreak 当爱好的灰色地带玩家。赏金计划的公开会让这个圈子更活跃——好坏参半。
对普通开发者来说,不需要主动去挖漏洞,但如果你在用 Claude 的 API 做产品,关注这个赏金计划披露的漏洞类型,能帮你提前规避一些自己产品中可能出现的安全隐患。
主要来源: