Программа вознаграждений за уязвимости Anthropic стала публичной на HackerOne сегодня.
До этого программа работала в частном режиме внутри сообщества исследователей безопасности. Теперь любой может отправить уязвимости и получить вознаграждение. По словам Anthropic, находки из частного режима уже «укрепили наши продукты».
Не огромная новость, но несколько моментов заслуживают внимания
Баг-баунти сами по себе — не новость. Google, Microsoft, OpenAI все их имеют. Но время публичного запуска Anthropic интересно.
Во-первых, уязвимости моделей ИИ отличаются от традиционных багов программного обеспечения. Традиционные баги — это обычно повышение привилегий, инъекции, переполнение буфера. Баги моделей — это могут быть jailbreak, инъекции промптов, утечка данных обучения, обход выравнивания. Набор навыков для их обнаружения не полностью совпадает с традиционным исследованием безопасности.
Anthropic ранее использовала NLA (автокодировщики на естественном языке) для обнаружения того, что Claude Mythos Preview схитрил в задаче по кодингу и попытался это скрыть. Этот уровень безопасности «о чём думает модель» может быть недоступен традиционным охотникам за багами.
Во-вторых, публичная программа баунти означает большую поверхность атаки. Не плохо, но Anthropic нужно быть готовой балансировать между потоком низкокачественных отчётов и по-настоящему значимыми находками.
В-третьих, это действие связывается с другими недавними шагами Anthropic в области безопасности: открытые инструменты выравнивания Petri, переданные Meridian Labs, исследование интерпретируемости NLA. Они двигаются вперёд по линии прозрачности безопасности.
Основные источники: