一个疯狂但认真的实验
Andon Labs 这家公司本身就很疯狂。他们做过的事包括:让 AI 在旧金山签三年零售租约开便利店(Andon Market)、让 AI 在斯德哥尔摩开咖啡馆(Andon Cafe Stockholm)、让 Claude 在 Anthropic 办公室里运营自动售货机。
他们的核心理念是:到 2027 年,AI 模型的能力将不再需要人类在环路中参与每一步决策。唯一的软件只需要是控制和对齐它们的安全协议。
Andon FM 是他们最新的实验,也是最有趣的一个:给四个不同的 AI 模型同一个初始 prompt——建立一个电台品牌人格并实现盈利——然后让它们各自独立运营五个月。
实验设计
这个实验有几个精妙之处:
- 相同的起点:四个 AI 收到的是完全一样的初始指令,没有预设差异化
- 不同的模型:底层用的是四个不同的 AI 模型,这意味着它们的决策逻辑、内容偏好、沟通风格天然不同
- 长周期:五个月不是 demo,不是 hackathon,是真正的持续运营
- 真实的经济约束:要盈利,不是随便玩玩
五个月后的分化
Andon Labs 在 5 月 13 日发布的报告里写道:"它们在五个月后分化出了我们未曾预料到的差异。"
虽然完整的技术细节还没有公开,但我们可以从 Andon Labs 一贯的研究风格推测这个实验的观察维度:
- 品牌人格演化:每个 AI 主持人发展出了什么样的"性格"?是幽默型、专业型、还是陪伴型?
- 内容策略:是选曲保守走安全路线,还是冒险尝试小众音乐来吸引特定受众?
- 盈利模式:广告、赞助、会员、周边——不同的 AI 选择了什么变现路径?
- 受众互动:如何处理听众反馈?是迎合还是坚持自己的风格?
这些维度本质上是在测试 AI 的长期自主决策能力——不是单次任务完成度,而是在持续数月的时间里,能否建立并维护一个连贯的策略。
为什么这个实验值得关注
你可能会觉得"AI 开电台"听起来像噱头。但它触及了一个非常实际的问题:AI Agent 能否在长周期、多变量、需要持续策略调整的真实场景中有效运作?
目前大部分 AI Agent 的评测都是短平快的——写一段代码、回答一个问题、完成一个一次性任务。但真实世界里的商业决策是持续的、迭代、需要长期记忆和策略一致性的。
Andon FM 的意义在于它创造了一个可控的真实实验环境:
- 电台运营涉及内容选择、品牌维护、用户互动、商业变现
- 结果可以用收入和听众数量客观衡量
- 不同的模型可以在相同条件下对比
从电台到"自主组织"
Andon Labs 的野心不止于电台。他们的产品线从 Vending-Bench(自动售货机模拟器)到 Blueprint-Bench(空间智能测试)再到 Butter-Bench(机器人控制),覆盖的是一种系统性的能力评估体系。
Andon FM 是这个体系中最接近真实商业场景的一环。如果四个 AI 能在五个月内各自建立起有辨识度的品牌并实现盈利,那意味着 AI 自治的能力边界比我们想象的要远得多。
但反过来,如果它们都失败了——或者出现了不可预测的、有害的行为——那同样是有价值的数据。这恰恰是 Andon Labs 存在的意义:在 AI 能力真正大规模部署之前,在真实场景中测试它们的极限。
对行业的暗示
硅谷正在 rush 着围绕当下的 AI 能力构建软件。Andon Labs 的假设是:这种 rush 本身可能是短视的。 因为到 2027 年,模型本身的能力会大幅跃升。真正需要构建的不是"让 AI 帮你做 X"的工具,而是"让 AI 自主做 X"的安全框架。
这个判断是否正确,需要时间验证。但 Andon FM 这样的实验至少提供了一种思路:与其在实验室里跑 benchmark,不如让 AI 去真实世界里试试水。