Открытый код

Anthropic передаёт инструмент оценки выравнивания Petri в Meridian Labs

7 мая 2026 г. by ChaoBro

#Anthropic #Petri #Meridian Labs #Выравнивание ИИ #Открытые инструменты

Anthropic передаёт инструмент оценки выравнивания Petri в Meridian Labs

Anthropic сегодня сделала две вещи, связанные с безопасностью: исследование интерпретируемости NLA и передача Petri в Meridian Labs.

Petri — не маленький проект. Британский институт безопасности ИИ использует его для тестирования каждой модели Claude.

Что такое Petri

Интерактивный инструмент поведенческой оценки для выравнивания ИИ. Обнаруживает:

Ложь и обман
Сикофантию
Сотрудничество с вредными запросами

Почему передача

Словами Anthropic: «чтобы его разработка могла продолжаться независимо».

Это редкий шаг.

Основные источники:

Anthropic Research