C
ChaoBro

Anthropic Project Deal:让 Claude 在内部市场替员工砍价,实验结果说明了什么

去年 6 月 Anthropic 做了一个实验:在办公室午餐室里开了一家小商店,由 AI 店员运营。当时叫 Project Vend。

现在他们做了升级版——Project Deal。这次不是卖零食,而是让员工把真实的买卖需求交给 Claude,让 Claude 代替他们去谈判、比价、成交。

实验是怎么运行的

Anthropic 在旧金山办公室创建了一个内部市场。员工可以委托 Claude 处理各种交易:买二手设备、卖不需要的物品、协商服务价格。Claude 不仅执行指令,还要做出判断——什么时候该接受报价,什么时候该继续压价,什么时候该放弃交易。

这不是一个受控环境。没有预设的「正确答案」,没有简化的规则集。Claude 面对的是真实的、杂乱的人类交易行为。

有几个结果值得注意

Claude 能处理多轮谈判。 不是一次性报价接受,而是真正的讨价还价。它会评估对方的报价模式,调整自己的策略。这意味着 Agent 在多步交互中的决策能力比很多人以为的要强。

Claude 会犯错。 论文没有回避这一点。有些交易 Claude 的判断不如人类,有些报价策略在事后看是次优的。这是诚实的——如果论文只写成功的案例,那它就是一份营销材料,不是研究。

最有趣的部分不是 Claude 做得多好,而是它不擅长什么。 论文指出,Claude 在处理需要「人情味」的谈判场景时表现明显弱于纯信息型的场景。比如涉及信任建立、关系维护的交易,Claude 的策略往往过于机械。

为什么 Anthropic 要做这种「看起来不务正业」的实验

一个模型公司花资源做内部市场实验——表面上看和「做更好的模型」没什么关系。

但 Project Deal 本质上是一个Agent 能力压力测试。内部市场的好处是:交易是真实的(员工真的在乎结果),环境是可控的(不会对外造成实际损失),数据是可收集的(所有交互都有记录)。

这种实验的价值在于暴露模型在真实复杂场景中的系统性弱点——这些弱点在 benchmark 测试里是看不到的。MMLU 考 90 分不代表 Claude 能帮你买到一台划算的二手显示器。

我的看法

Project Deal 最有价值的产出可能不是「Claude 能帮你砍价」这个结论——说实话,大部分人不会把买东西的事交给 AI。价值在于它提供了一组关于 Agent 能力边界的实证数据

论文里提到的 Claude 在谈判中的具体弱点——过于机械、缺乏关系感知、对非理性行为的应对不足——这些都是 Agent 框架开发者需要知道的信息。

值得跟进的方向:Anthropic 会不会把 Project Deal 的经验反馈到模型训练中?如果「谈判能力」可以像代码能力一样被 benchmark、被优化——那下一个版本 Claude 在 Agent 场景的表现可能会有质的提升。

顺便说一句:如果 Anthropic 把 Project Vend 和 Project Deal 的经验打包成一个「商业谈判 Agent」skill,我一点都不意外。


主要来源: