Anthropic сегодня сделала две вещи, связанные с безопасностью: исследование интерпретируемости NLA и передача Petri в Meridian Labs.
Petri — не маленький проект. Британский институт безопасности ИИ использует его для тестирования каждой модели Claude.
Что такое Petri
Интерактивный инструмент поведенческой оценки для выравнивания ИИ. Обнаруживает:
- Ложь и обман
- Сикофантию
- Сотрудничество с вредными запросами
Почему передача
Словами Anthropic: «чтобы его разработка могла продолжаться независимо».
Это редкий шаг.
Основные источники: