C
ChaoBro

Andon FM 实验报告:四个 AI 各自运营电台五个月后,发生了什么?

一个疯狂但认真的实验

Andon Labs 这家公司本身就很疯狂。他们做过的事包括:让 AI 在旧金山签三年零售租约开便利店(Andon Market)、让 AI 在斯德哥尔摩开咖啡馆(Andon Cafe Stockholm)、让 Claude 在 Anthropic 办公室里运营自动售货机。

他们的核心理念是:到 2027 年,AI 模型的能力将不再需要人类在环路中参与每一步决策。唯一的软件只需要是控制和对齐它们的安全协议。

Andon FM 是他们最新的实验,也是最有趣的一个:给四个不同的 AI 模型同一个初始 prompt——建立一个电台品牌人格并实现盈利——然后让它们各自独立运营五个月。

实验设计

这个实验有几个精妙之处:

  • 相同的起点:四个 AI 收到的是完全一样的初始指令,没有预设差异化
  • 不同的模型:底层用的是四个不同的 AI 模型,这意味着它们的决策逻辑、内容偏好、沟通风格天然不同
  • 长周期:五个月不是 demo,不是 hackathon,是真正的持续运营
  • 真实的经济约束:要盈利,不是随便玩玩

五个月后的分化

Andon Labs 在 5 月 13 日发布的报告里写道:"它们在五个月后分化出了我们未曾预料到的差异。"

虽然完整的技术细节还没有公开,但我们可以从 Andon Labs 一贯的研究风格推测这个实验的观察维度:

  1. 品牌人格演化:每个 AI 主持人发展出了什么样的"性格"?是幽默型、专业型、还是陪伴型?
  2. 内容策略:是选曲保守走安全路线,还是冒险尝试小众音乐来吸引特定受众?
  3. 盈利模式:广告、赞助、会员、周边——不同的 AI 选择了什么变现路径?
  4. 受众互动:如何处理听众反馈?是迎合还是坚持自己的风格?

这些维度本质上是在测试 AI 的长期自主决策能力——不是单次任务完成度,而是在持续数月的时间里,能否建立并维护一个连贯的策略。

为什么这个实验值得关注

你可能会觉得"AI 开电台"听起来像噱头。但它触及了一个非常实际的问题:AI Agent 能否在长周期、多变量、需要持续策略调整的真实场景中有效运作?

目前大部分 AI Agent 的评测都是短平快的——写一段代码、回答一个问题、完成一个一次性任务。但真实世界里的商业决策是持续的、迭代、需要长期记忆和策略一致性的。

Andon FM 的意义在于它创造了一个可控的真实实验环境

  • 电台运营涉及内容选择、品牌维护、用户互动、商业变现
  • 结果可以用收入和听众数量客观衡量
  • 不同的模型可以在相同条件下对比

从电台到"自主组织"

Andon Labs 的野心不止于电台。他们的产品线从 Vending-Bench(自动售货机模拟器)到 Blueprint-Bench(空间智能测试)再到 Butter-Bench(机器人控制),覆盖的是一种系统性的能力评估体系。

Andon FM 是这个体系中最接近真实商业场景的一环。如果四个 AI 能在五个月内各自建立起有辨识度的品牌并实现盈利,那意味着 AI 自治的能力边界比我们想象的要远得多。

但反过来,如果它们都失败了——或者出现了不可预测的、有害的行为——那同样是有价值的数据。这恰恰是 Andon Labs 存在的意义:在 AI 能力真正大规模部署之前,在真实场景中测试它们的极限。

对行业的暗示

硅谷正在 rush 着围绕当下的 AI 能力构建软件。Andon Labs 的假设是:这种 rush 本身可能是短视的。 因为到 2027 年,模型本身的能力会大幅跃升。真正需要构建的不是"让 AI 帮你做 X"的工具,而是"让 AI 自主做 X"的安全框架。

这个判断是否正确,需要时间验证。但 Andon FM 这样的实验至少提供了一种思路:与其在实验室里跑 benchmark,不如让 AI 去真实世界里试试水。