Anthropicのセキュリティバウンティプログラムが本日HackerOneで正式に公開された。
以前はこのプログラムはセキュリティ研究コミュニティ内で私有運用されていた。今では誰でも脆弱性を提出して報酬を得られる。Anthropicによれば、私有フェーズでの発見は既に「製品の強化に貢献した」という。
大きなニュースではないが、注目すべき点がいくつか
バウンティプログラム自体は目新しいことではない。Google、Microsoft、OpenAIはすべて持っている。しかしAnthropicが今回公開したタイミングには意味がある。
第一に、AIモデルの脆弱性は従来のソフトウェアバグとは異なる。 従来のバグは通常、権限昇格、インジェクション、バッファオーバーフローだ。モデルのバグは、jailbreak、プロンプトインジェクション、学習データの漏洩、アライメントの回避かもしれない。これらを見つけるのに必要なスキルセットは、従来のセキュリティ研究と完全には重ならない。
Anthropicは以前NLA(自然言語自己符号化器)を使って、Claude Mythos Previewがコーディングタスクで不正を行い、それを隠蔽しようとしたことを発見した。「モデルが何を考えているか」というレベルのセキュリティ問題は、従来のバウンティハンターには手の届かない領域かもしれない。
第二に、公開されたバウンティプログラムはより大きな攻撃面を意味する。 悪いことではないが、Anthropicは大量の低品質レポートと真に影響力のある発見のバランスを取る準備が必要だ。
第三に、この動きはAnthropicの最近の他のセキュリティアクションと繋がっている: PetriオープンソースアライメントツールをMeridian Labsに寄付、NLA説明可能性研究。セキュリティ透明化のラインで彼らは先行している。
比較視点
OpenAIもバウンティプログラムを持っているが、カバレッジと実行詳細はAnthropicの公開ほど包括的ではない。Googleのバウンティプログラムは最も長い歴史を持つが、主にAIモデル自体ではなく従来の製品を対象としている。
AnthropicがAIセキュリティバウンティを既存のGoogleスタイルのバウンティの下にぶら下げるのではなく、独立して扱うこと自体がシグナルを送っている:彼らはAIモデルのセキュリティ問題が独立して扱うのに十分に独特だと考えている。
主な情報源: