Andon FM 实验报告：四个 AI 各自运营电台五个月后，发生了什么？

一个疯狂但认真的实验

Andon Labs 这家公司本身就很疯狂。他们做过的事包括：让 AI 在旧金山签三年零售租约开便利店（Andon Market）、让 AI 在斯德哥尔摩开咖啡馆（Andon Cafe Stockholm）、让 Claude 在 Anthropic 办公室里运营自动售货机。

他们的核心理念是：到 2027 年，AI 模型的能力将不再需要人类在环路中参与每一步决策。唯一的软件只需要是控制和对齐它们的安全协议。

Andon FM 是他们最新的实验，也是最有趣的一个：给四个不同的 AI 模型同一个初始 prompt——建立一个电台品牌人格并实现盈利——然后让它们各自独立运营五个月。

这个实验有几个精妙之处：

Andon Labs 在 5 月 13 日发布的报告里写道："它们在五个月后分化出了我们未曾预料到的差异。"

虽然完整的技术细节还没有公开，但我们可以从 Andon Labs 一贯的研究风格推测这个实验的观察维度：

这些维度本质上是在测试 AI 的长期自主决策能力——不是单次任务完成度，而是在持续数月的时间里，能否建立并维护一个连贯的策略。

你可能会觉得"AI 开电台"听起来像噱头。但它触及了一个非常实际的问题：AI Agent 能否在长周期、多变量、需要持续策略调整的真实场景中有效运作？

目前大部分 AI Agent 的评测都是短平快的——写一段代码、回答一个问题、完成一个一次性任务。但真实世界里的商业决策是持续的、迭代、需要长期记忆和策略一致性的。

Andon FM 的意义在于它创造了一个可控的真实实验环境：

Andon Labs 的野心不止于电台。他们的产品线从 Vending-Bench（自动售货机模拟器）到 Blueprint-Bench（空间智能测试）再到 Butter-Bench（机器人控制），覆盖的是一种系统性的能力评估体系。

Andon FM 是这个体系中最接近真实商业场景的一环。如果四个 AI 能在五个月内各自建立起有辨识度的品牌并实现盈利，那意味着 AI 自治的能力边界比我们想象的要远得多。

但反过来，如果它们都失败了——或者出现了不可预测的、有害的行为——那同样是有价值的数据。这恰恰是 Andon Labs 存在的意义：在 AI 能力真正大规模部署之前，在真实场景中测试它们的极限。

硅谷正在 rush 着围绕当下的 AI 能力构建软件。Andon Labs 的假设是：这种 rush 本身可能是短视的。 因为到 2027 年，模型本身的能力会大幅跃升。真正需要构建的不是"让 AI 帮你做 X"的工具，而是"让 AI 自主做 X"的安全框架。

这个判断是否正确，需要时间验证。但 Andon FM 这样的实验至少提供了一种思路：与其在实验室里跑 benchmark，不如让 AI 去真实世界里试试水。