C
ChaoBro

Anthropicがアライメント評価ツールPetriをMeridian Labsに寄贈

Anthropicがアライメント評価ツールPetriをMeridian Labsに寄贈

Anthropicが本日、安全性関連で2つのことを発表した。NLA解釈可能性研究と、PetriをMeridian Labsへの寄贈。

Petriは小規模プロジェクトじゃない。英国AI安全保障研究所がすべてのClaudeモデルのテストに使用してきた。

Petriとは

インタラクティブな行動評価ツール。以下の検出を行う:

  • 嘘や欺瞞行動
  • 迎合傾向
  • 有害リクエストへの協力

なぜ寄贈するのか

Anthropicの言葉:「独立した開発を継続できるように」。

正直、これは珍しい。自社製の安全ツールを独立組織に寄贈するのは直接的なコントロールを放棄すること。

Petri 3.0の更新

寄贈と同時にv3.0をリリース。適応性、現実感、深度を改善。


主要ソース: