Anthropic 最新研究：約 250 份の投毒ドキュメントで LLM にバックドアを仕込める、モデルサイズは関係ない

2026年5月10日 by ChaoBro

#Anthropic #データセキュリティ #モデルセキュリティ #バックドア攻撃 #投毒研究

Anthropic 最新研究：約 250 份の投毒ドキュメントで LLM にバックドアを仕込める、モデルサイズは関係ない

コミュニティに流れている直感：モデルが大きいほど、投毒に必要なデータ量も多い。

Anthropic の最新研究は違うと示している：そうではない。

核心的な発見

約 250 件の悪意あるドキュメントで LLM にバックドア行動を仕込める。しかもこの数字は 600M から 13B パラメータの範囲でほぼ一定。

伝統的な ML セキュリティの考え方では、モデル容量が大きいほど小規模な投毒の影響を受けにくいはず。だが LLM の訓練動態はどうもそうではないようだ。

注意点

現在の実験結果は中規模モデルで検証されたもの。フロントティアモデルやより複雑な行動（コード能力、安全バイパス）で同様の効果を得られるかは未解決の問題。

主要情報源：

Anthropic Research（公式研究ページおよびコミュニティ議論から確認）
arXiv 関連論文スレッド