昨年6月、Anthropicは一つの実験を行った:オフィスのランチルームに小さな店を開き、AI店長に運営させた。当時、Project Vendと呼ばれていた。
今、アップグレード版が登場した——Project Deal。今回はスナックを売るのではなく、従業員が実際の売買ニーズをClaudeに委ね、Claudeに代わって交渉、価格比較、成立させる。
実験はどう動いたか
Anthropicはサンフランシスコオフィスに内部市場を作った。従業員はClaudeに様々な取引を委託できる:中古機器の購入、不要品の販売、サービス価格の交渉。Claudeは指示を実行するだけでなく、判断を下す——いつオファーを受け入れるべきか、いつ値切り続けるべきか、いつ取引から手を引くべきか。
これは制御された環境ではない。事前に設定された「正解」もないし、簡略化されたルールセットもない。Claudeが直面するのは、リアルで雑多な人間の取引行動だ。
注目すべき結果がいくつかある
Claudeは複数ラウンドの交渉を処理できる。 ワンショットのオファー受理ではなく、本当の値切り交渉。相手のオファーパターンを評価し、自身の戦略を調整する。これは、マルチステップインタラクションにおけるエージェントの判断能力が多くの人が思っている以上に強いことを意味する。
Claudeはミスをする。 論文はこの点を隠していない。一部の取引ではClaudeの判断は人間に劣り、一部の価格戦略は事後に見ると次善だった。これは正直だ——論文が成功ケースだけを書いていたら、それは研究ではなくマーケティング資料になってしまう。
最も面白いのはClaudeがどれだけ上手にやるかではなく、何が苦手かだ。 論文は、Claudeが「人間的な味わい」を必要とする交渉シナリオで、純情報型のシナリオと比べて明らかに劣ることを指摘している。例えば、信頼構築や関係維持を含む取引では、Claudeの戦略は往々にして機械的すぎる。
なぜAnthropicはこんな「一見本筋から外れた」実験をするのか
モデル企業が内部市場実験にリソースを投じる——表面的には「より良いモデルを作る」とは何の関係もないように見える。
しかしProject Dealの本質はエージェント能力のストレステストだ。内部市場の利点は:取引がリアル(従業員は実際に結果を気にする)、環境が制御可能(外部に実際の損失を与えない)、データが収集可能(すべてのインタラクションが記録される)。
この種の実験の価値は、ベンチマークテストでは見えない、リアルな複雑シナリオにおけるモデルの体系的弱点を露呈させることにある。MMLUで90点を取っても、Claudeがお手頃価格の中古モニターを買ってくれるとは限らない。
##我的看法
Project Dealの最も価値ある成果は、おそらく「Claudeが値切り交渉できる」という結論ではない——正直に言って、大半の人は買い物事をAIに委ねない。価値は、エージェント能力境界に関する実証データセットを提供した点にある。
論文で言及されているClaudeの交渉における具体的な弱点——機械的すぎる、関係感知の欠如、非合理的行動への対応不足——これらはエージェントフレームワーク開発者が知るべき情報だ。
主要ソース: