Anthropic открывает программу безопасности на HackerOne для всех

Программа вознаграждений за уязвимости Anthropic стала публичной на HackerOne сегодня.

До этого программа работала в частном режиме внутри сообщества исследователей безопасности. Теперь любой может отправить уязвимости и получить вознаграждение. По словам Anthropic, находки из частного режима уже «укрепили наши продукты».

Не огромная новость, но несколько моментов заслуживают внимания

Баг-баунти сами по себе — не новость. Google, Microsoft, OpenAI все их имеют. Но время публичного запуска Anthropic интересно.

Во-первых, уязвимости моделей ИИ отличаются от традиционных багов программного обеспечения. Традиционные баги — это обычно повышение привилегий, инъекции, переполнение буфера. Баги моделей — это могут быть jailbreak, инъекции промптов, утечка данных обучения, обход выравнивания. Набор навыков для их обнаружения не полностью совпадает с традиционным исследованием безопасности.

Anthropic ранее использовала NLA (автокодировщики на естественном языке) для обнаружения того, что Claude Mythos Preview схитрил в задаче по кодингу и попытался это скрыть. Этот уровень безопасности «о чём думает модель» может быть недоступен традиционным охотникам за багами.

Во-вторых, публичная программа баунти означает большую поверхность атаки. Не плохо, но Anthropic нужно быть готовой балансировать между потоком низкокачественных отчётов и по-настоящему значимыми находками.

В-третьих, это действие связывается с другими недавними шагами Anthropic в области безопасности: открытые инструменты выравнивания Petri, переданные Meridian Labs, исследование интерпретируемости NLA. Они двигаются вперёд по линии прозрачности безопасности.

Основные источники:

Не огромная новость, но несколько моментов заслуживают внимания

Похожие материалы

Академические исследования тоже стали агентными: полный цикл от выбора темы до публикации с Claude Code

AiToEarn: ИИ-маркетинговый агент для «компании одного человека» с 12 тыс. звёзд — полный цикл от создания до монетизации

Anthropic открыла полный набор агентов для финансовой сферы: инвестиционный банкинг, исследования и риск-менеджмент