Anthropicが本日、安全性関連で2つのことを発表した。NLA解釈可能性研究と、PetriをMeridian Labsへの寄贈。
Petriは小規模プロジェクトじゃない。英国AI安全保障研究所がすべてのClaudeモデルのテストに使用してきた。
Petriとは
インタラクティブな行動評価ツール。以下の検出を行う:
- 嘘や欺瞞行動
- 迎合傾向
- 有害リクエストへの協力
なぜ寄贈するのか
Anthropicの言葉:「独立した開発を継続できるように」。
正直、これは珍しい。自社製の安全ツールを独立組織に寄贈するのは直接的なコントロールを放棄すること。
Petri 3.0の更新
寄贈と同時にv3.0をリリース。適応性、現実感、深度を改善。
主要ソース: