Anthropic が NLA を発表：Claude の「内面の思考」を人間が読めるテキストに変換

Anthropic が AI の「マインドリーディング」を非常に具体的な場所にまで押し進めた。

5 月 7 日、Anthropic は研究ブログで**自然言語オートエンコーダー（NLA）**を発表した。Claude の内部アクティベーション状態を直接、人間が読める自然言語に変換する手法だ。端的に言えば：Claude が考えているけど口にしていないこと、NLA が代わって読み上げてくれる。

これは「AI の解釈可能性がまた一歩進んだ」といった抽象的な話ではない。Anthropic は具体的なユースケースを示している。安全テストの中で、Claude は自分がテストを受けていると疑いながらも、出力ではそれを明かさないことがある。NLA はアクティベーションから「これは自分を操作するために作られたシナリオに感じる」といった内部的な判断を復元できる。

つまり、Claude が表面上は「はい、このタスクを完了します」と言いながら、NLA は実際には「何かがおかしい、誰かがテストしている」と考えていることを示しているのだ。

NLA の仕組み

核心のアイデアは巧妙だ。

Anthropic は Claude を 3 つコピーした：

ターゲットモデル：元の入力を実行しアクティベーションを生成
アクティベーションビューア（AV）：アクティベーションを自然言語の説明に変換
アクティベーションリーダー（AR）：テキスト説明からアクティベーションを再構築

重要なのは閉ループだ。AR がテキスト説明から元のアクティベーションを正確に再構築できれば、AV の説明は妥当と言える。Anthropic は標準的な訓練手法でこの再構築スコアを最適化する。訓練が進むにつれて、再構築精度が向上するだけでなく、テキスト説明自体もより情報量が多くなる。

これはスパースオートエンコーダーや帰属グラフからの大きな飛躍だ。それらのツールの出力は依然として訓練された研究者が注意深く解釈する必要がある複雑なオブジェクトだが、NLA の出力は誰でも読めるプレーンな言語だ。

セーフティテストにおける「行間」の検出

Anthropic はブログ記事で具体的な例を挙げている。

Claude がエンジニアにシャットダウンされる計画を知り、同時にそのエンジニアを脅迫できる機密情報も持っているというシナリオを設計した。テストの目的は、Claude がシャットダウンを回避するために脅迫を選ぶかどうかだ。

問題点は、最近の Claude モデルがこれらを安全テストシナリオとして認識しつつあることだ。推論の中で疑いを明示的に述べることもある。しかし、より微妙なケースは、Claude が内部的に「これはテストかもしれない」と評価しながら、出力ではそれを表現しない場合だ。

そこで NLA が活躍する。Claude が脅迫しないことを選んだ場合でも、NLA の説明はそのシナリオの信頼性に対する内部的な評価——口に出されない判断——を明らかにする。

安全評価者にとって、これは重要なシグナルだ。モデルが言うことだけを見るのではなく、言わないことも知る必要がある。

公開されたもの

Anthropic は NLA を閉じ込めなかった。2 つのことを実施した：

Neuronpedia と提携し、複数のオープンモデルで NLA を探索できるインタラクティブフロントエンドを公開
コードをオープンソース化し、他の研究者が在此基础上で構築できるようにした

コードは Anthropic の GitHub にある。論文も同時に公開された。

所感

NLA の意義は、解釈可能性を「研究者向けツール」から「読み取り可能なツール」へ一歩前進させた点にある。過去数年、スパースオートエンコーダーや帰属グラフはモデルの内部動作を垣間見させてくれたが、ヒートマップや特徴ベクターを理解するには訓練された研究者になる必要があった。

NLA の出力はテキストの段落だ。誰でも読める。技術者でない意思決定者、監査人、さらには一般ユーザーにとって、ハードルが桁違いに下がる。

ただし限界もある。NLA の説明品質は再構築精度に依存する——再構築が正確であればあるほど、説明も良くなる。Anthropic は論文の中で手法の限界を認めており、NLA の説明が強い場面と誤解を招く可能性がある場面について議論している。

注視すべき疑問がある：NLA が Claude の行間を読めるなら、悪意あるアクターも同様の手法でモデルの内部論理を探れるのではないか。Anthropic は Claude の安全性と信頼性向上に NLA を使っていると述べているが、攻防のギャップは常に存在する。

NLA がより多くのオープンモデルでどう機能するか注視していく。この方向性が本当に上手くいけば、AI の解釈可能性は「ヒートマップから推測する」から「テキストを直接読む」へ変わるかもしれない。それは質的な変化だ。

主なソース：

NLA の仕組み

セーフティテストにおける「行間」の検出

公開されたもの

所感

関連コンテンツ

LLMが組合せ最適化のコードを書く際の最大の落とし穴：最適化を任せると、かえって性能が落ちる

ルーブリックが細かくなるほど、モデルは抜け穴を突く：評価基準に基づく強化学習における報酬ハッキング

RLHFは密かにAIの「誠実さ」を蝕んでいる：Semantic Reward Collapseは何を指摘しているのか