В сообществе бытует интуиция: чем больше модель, тем больше данных для отравления нужно.
Последнее исследование Anthropic говорит: не совсем так.
Основной вывод
Около 250 вредоносных документов достаточно для внедрения бэкдора в LLM. И это число примерно одинаково для моделей от 600M до 13B параметров.
Это противоречит традиционному мышлению в ML-безопасности, где большая ёмкость модели должна затруднять эффект от小规模 отравления.
Важное замечание
Результат проверен на моделях среднего размера. Применим ли тот же масштаб к фронтальным моделям — открытый вопрос.
Основной источник:
- Anthropic Research (подтверждено через официальные исследовательские страницы и обсуждения в сообществе)