C
ChaoBro

Anthropic 最新研究:約 250 份の投毒ドキュメントで LLM にバックドアを仕込める、モデルサイズは関係ない

Anthropic 最新研究:約 250 份の投毒ドキュメントで LLM にバックドアを仕込める、モデルサイズは関係ない

コミュニティに流れている直感:モデルが大きいほど、投毒に必要なデータ量も多い。

Anthropic の最新研究は違うと示している:そうではない。

核心的な発見

250 件の悪意あるドキュメントで LLM にバックドア行動を仕込める。しかもこの数字は 600M から 13B パラメータの範囲でほぼ一定。

伝統的な ML セキュリティの考え方では、モデル容量が大きいほど小規模な投毒の影響を受けにくいはず。だが LLM の訓練動態はどうもそうではないようだ。

注意点

現在の実験結果は中規模モデルで検証されたもの。フロントティアモデルやより複雑な行動(コード能力、安全バイパス)で同様の効果を得られるかは未解決の問題。

主要情報源:

  • Anthropic Research(公式研究ページおよびコミュニティ議論から確認)
  • arXiv 関連論文スレッド