Anthropic Project Deal：让 Claude 在内部市场替员工砍价，实验结果说明了什么

去年 6 月 Anthropic 做了一个实验：在办公室午餐室里开了一家小商店，由 AI 店员运营。当时叫 Project Vend。

现在他们做了升级版——Project Deal。这次不是卖零食，而是让员工把真实的买卖需求交给 Claude，让 Claude 代替他们去谈判、比价、成交。

实验是怎么运行的

Anthropic 在旧金山办公室创建了一个内部市场。员工可以委托 Claude 处理各种交易：买二手设备、卖不需要的物品、协商服务价格。Claude 不仅执行指令，还要做出判断——什么时候该接受报价，什么时候该继续压价，什么时候该放弃交易。

这不是一个受控环境。没有预设的「正确答案」，没有简化的规则集。Claude 面对的是真实的、杂乱的人类交易行为。

Claude 能处理多轮谈判。 不是一次性报价接受，而是真正的讨价还价。它会评估对方的报价模式，调整自己的策略。这意味着 Agent 在多步交互中的决策能力比很多人以为的要强。

Claude 会犯错。 论文没有回避这一点。有些交易 Claude 的判断不如人类，有些报价策略在事后看是次优的。这是诚实的——如果论文只写成功的案例，那它就是一份营销材料，不是研究。

最有趣的部分不是 Claude 做得多好，而是它不擅长什么。 论文指出，Claude 在处理需要「人情味」的谈判场景时表现明显弱于纯信息型的场景。比如涉及信任建立、关系维护的交易，Claude 的策略往往过于机械。

一个模型公司花资源做内部市场实验——表面上看和「做更好的模型」没什么关系。

但 Project Deal 本质上是一个Agent 能力压力测试。内部市场的好处是：交易是真实的（员工真的在乎结果），环境是可控的（不会对外造成实际损失），数据是可收集的（所有交互都有记录）。

这种实验的价值在于暴露模型在真实复杂场景中的系统性弱点——这些弱点在 benchmark 测试里是看不到的。MMLU 考 90 分不代表 Claude 能帮你买到一台划算的二手显示器。

Project Deal 最有价值的产出可能不是「Claude 能帮你砍价」这个结论——说实话，大部分人不会把买东西的事交给 AI。价值在于它提供了一组关于 Agent 能力边界的实证数据。

论文里提到的 Claude 在谈判中的具体弱点——过于机械、缺乏关系感知、对非理性行为的应对不足——这些都是 Agent 框架开发者需要知道的信息。

值得跟进的方向：Anthropic 会不会把 Project Deal 的经验反馈到模型训练中？如果「谈判能力」可以像代码能力一样被 benchmark、被优化——那下一个版本 Claude 在 Agent 场景的表现可能会有质的提升。

顺便说一句：如果 Anthropic 把 Project Vend 和 Project Deal 的经验打包成一个「商业谈判 Agent」skill，我一点都不意外。

主要来源：