C
ChaoBro

Anthropic передаёт инструмент оценки выравнивания Petri в Meridian Labs

Anthropic передаёт инструмент оценки выравнивания Petri в Meridian Labs

Anthropic сегодня сделала две вещи, связанные с безопасностью: исследование интерпретируемости NLA и передача Petri в Meridian Labs.

Petri — не маленький проект. Британский институт безопасности ИИ использует его для тестирования каждой модели Claude.

Что такое Petri

Интерактивный инструмент поведенческой оценки для выравнивания ИИ. Обнаруживает:

  • Ложь и обман
  • Сикофантию
  • Сотрудничество с вредными запросами

Почему передача

Словами Anthropic: «чтобы его разработка могла продолжаться независимо».

Это редкий шаг.


Основные источники: