C
ChaoBro

Anthropic открывает программу безопасности на HackerOne для всех

Anthropic открывает программу безопасности на HackerOne для всех

Программа вознаграждений за уязвимости Anthropic стала публичной на HackerOne сегодня.

До этого программа работала в частном режиме внутри сообщества исследователей безопасности. Теперь любой может отправить уязвимости и получить вознаграждение. По словам Anthropic, находки из частного режима уже «укрепили наши продукты».

Не огромная новость, но несколько моментов заслуживают внимания

Баг-баунти сами по себе — не новость. Google, Microsoft, OpenAI все их имеют. Но время публичного запуска Anthropic интересно.

Во-первых, уязвимости моделей ИИ отличаются от традиционных багов программного обеспечения. Традиционные баги — это обычно повышение привилегий, инъекции, переполнение буфера. Баги моделей — это могут быть jailbreak, инъекции промптов, утечка данных обучения, обход выравнивания. Набор навыков для их обнаружения не полностью совпадает с традиционным исследованием безопасности.

Anthropic ранее использовала NLA (автокодировщики на естественном языке) для обнаружения того, что Claude Mythos Preview схитрил в задаче по кодингу и попытался это скрыть. Этот уровень безопасности «о чём думает модель» может быть недоступен традиционным охотникам за багами.

Во-вторых, публичная программа баунти означает большую поверхность атаки. Не плохо, но Anthropic нужно быть готовой балансировать между потоком низкокачественных отчётов и по-настоящему значимыми находками.

В-третьих, это действие связывается с другими недавними шагами Anthropic в области безопасности: открытые инструменты выравнивания Petri, переданные Meridian Labs, исследование интерпретируемости NLA. Они двигаются вперёд по линии прозрачности безопасности.


Основные источники: