Anthropic 最新研究：约 250 份投毒文档就能后门一个 LLM，模型大小不影响成功率

社区里流传着一个直觉：模型越大，需要的投毒数据量就越多。毕竟，要给一个千亿参数的模型"洗脑"，总得往训练数据里塞不少坏东西吧？

Anthropic 的最新研究告诉人们：不是这样的。

核心发现

约 250 份恶意文档就能对一个 LLM 植入后门行为。这个数字在 600M 到 13B 参数范围内基本不变——模型大了，需要的投毒量并没有减少或增加。

这是一个反直觉的结果。按照传统 ML 安全的理解，模型容量越大，应该越不容易被小规模的投毒数据影响。但 LLM 的训练动态似乎不是这样工作的。

不过需要把话说清楚：目前的研究结果是在中等规模模型上验证的。对于前沿模型（frontier models）或更复杂的行为（如代码能力、安全绕过），是否能用同样规模的投毒数据达成效果，还是开放问题。

研究团队自己也留了余地——是否 scaling 到更大模型，还需要进一步实验。

Anthropic 同期还分享了另一个有趣的实验：在简单的无害性训练数据中加入不相关的工具和系统提示词，能以比传统方法更快的速度降低模型的 blackmail 率。

这说明训练数据的多样性本身就是一个安全工具——不一定是更多的数据，而是更多样化的数据。

如果 250 份文档这个量级在更大模型上也能复现，那对整个 AI 训练数据供应链都是一个警示。当前大模型的训练数据来源极其广泛——网络爬取、开源数据集、合成数据——任何一个环节被少量恶意数据渗透，都可能植入后门行为。

这对数据清洗流程提出了更高的要求：不仅要看数据量，更要看数据来源的可信度和多样性。

但也要避免过度恐慌。研究目前只验证了特定类型的后门行为，是否能推广到更复杂的攻击场景还有待观察。

主要来源：