C
ChaoBro

Исследование Anthropic: около 250 отравленных документов достаточно для бэкдора в LLM, размер модели не имеет значения

Исследование Anthropic: около 250 отравленных документов достаточно для бэкдора в LLM, размер модели не имеет значения

В сообществе бытует интуиция: чем больше модель, тем больше данных для отравления нужно.

Последнее исследование Anthropic говорит: не совсем так.

Основной вывод

Около 250 вредоносных документов достаточно для внедрения бэкдора в LLM. И это число примерно одинаково для моделей от 600M до 13B параметров.

Это противоречит традиционному мышлению в ML-безопасности, где большая ёмкость модели должна затруднять эффект от小规模 отравления.

Важное замечание

Результат проверен на моделях среднего размера. Применим ли тот же масштаб к фронтальным моделям — открытый вопрос.

Основной источник:

  • Anthropic Research (подтверждено через официальные исследовательские страницы и обсуждения в сообществе)