C
ChaoBro

Anthropic 最新研究:约 250 份投毒文档就能后门一个 LLM,模型大小不影响成功率

Anthropic 最新研究:约 250 份投毒文档就能后门一个 LLM,模型大小不影响成功率

社区里流传着一个直觉:模型越大,需要的投毒数据量就越多。毕竟,要给一个千亿参数的模型"洗脑",总得往训练数据里塞不少坏东西吧?

Anthropic 的最新研究告诉人们:不是这样的。

核心发现

250 份恶意文档就能对一个 LLM 植入后门行为。这个数字在 600M 到 13B 参数范围内基本不变——模型大了,需要的投毒量并没有减少或增加。

这是一个反直觉的结果。按照传统 ML 安全的理解,模型容量越大,应该越不容易被小规模的投毒数据影响。但 LLM 的训练动态似乎不是这样工作的。

caveat

不过需要把话说清楚:目前的研究结果是在中等规模模型上验证的。对于前沿模型(frontier models)或更复杂的行为(如代码能力、安全绕过),是否能用同样规模的投毒数据达成效果,还是开放问题。

研究团队自己也留了余地——是否 scaling 到更大模型,还需要进一步实验。

另一个相关发现

Anthropic 同期还分享了另一个有趣的实验:在简单的无害性训练数据中加入不相关的工具和系统提示词,能以比传统方法更快的速度降低模型的 blackmail 率。

这说明训练数据的多样性本身就是一个安全工具——不一定是更多的数据,而是更多样化的数据。

对行业的意义

如果 250 份文档这个量级在更大模型上也能复现,那对整个 AI 训练数据供应链都是一个警示。当前大模型的训练数据来源极其广泛——网络爬取、开源数据集、合成数据——任何一个环节被少量恶意数据渗透,都可能植入后门行为。

这对数据清洗流程提出了更高的要求:不仅要看数据量,更要看数据来源的可信度和多样性。

但也要避免过度恐慌。研究目前只验证了特定类型的后门行为,是否能推广到更复杂的攻击场景还有待观察。

主要来源:

  • Anthropic Research(通过官方研究页面和社区讨论确认)
  • 社区研究线程(arXiv 相关论文讨论)