コミュニティに流れている直感:モデルが大きいほど、投毒に必要なデータ量も多い。
Anthropic の最新研究は違うと示している:そうではない。
核心的な発見
約 250 件の悪意あるドキュメントで LLM にバックドア行動を仕込める。しかもこの数字は 600M から 13B パラメータの範囲でほぼ一定。
伝統的な ML セキュリティの考え方では、モデル容量が大きいほど小規模な投毒の影響を受けにくいはず。だが LLM の訓練動態はどうもそうではないようだ。
注意点
現在の実験結果は中規模モデルで検証されたもの。フロントティアモデルやより複雑な行動(コード能力、安全バイパス)で同様の効果を得られるかは未解決の問題。
主要情報源:
- Anthropic Research(公式研究ページおよびコミュニティ議論から確認)
- arXiv 関連論文スレッド