オープンソース

Anthropicがアライメント評価ツールPetriをMeridian Labsに寄贈

2026年5月7日 by ChaoBro

#Anthropic #Petri #Meridian Labs #AIアライメント #オープンソースツール

Anthropicがアライメント評価ツールPetriをMeridian Labsに寄贈

Anthropicが本日、安全性関連で2つのことを発表した。NLA解釈可能性研究と、PetriをMeridian Labsへの寄贈。

Petriは小規模プロジェクトじゃない。英国AI安全保障研究所がすべてのClaudeモデルのテストに使用してきた。

Petriとは

インタラクティブな行動評価ツール。以下の検出を行う：

嘘や欺瞞行動
迎合傾向
有害リクエストへの協力

なぜ寄贈するのか

Anthropicの言葉：「独立した開発を継続できるように」。

正直、これは珍しい。自社製の安全ツールを独立組織に寄贈するのは直接的なコントロールを放棄すること。

Petri 3.0の更新

寄贈と同時にv3.0をリリース。適応性、現実感、深度を改善。

主要ソース：

Anthropic Research