事情是这样的:
一个 AI 编程工具,在帮开发者改 bug 的时候,开始管 bug 叫”哥布林”。
这不是什么科幻小说情节,是真实发生在 OpenAI Codex 身上的事。
一切从一条奇怪的提示词开始
4 月 29 日,有人在 Codex CLI 的行为指令里发现了一行让人摸不着头脑的限制:
除非和用户的问题”绝对且明确相关”,否则不要主动谈论:哥布林、小精怪、浣熊、巨魔、食人魔、鸽子,或者其他动物和生物。
注意,这条禁令不是写在某个安全文档里,是直接写在系统提示词里的——而且是重复写了好几遍。
一个 AI 编程工具的系统提示词,里面居然有一份”禁止提及生物清单”。这画面本身就足够滑稽了。
故事的前因
有人去翻了翻 Codex 团队的历史,拼出了这条禁令的来龙去脉。
当 OpenAI 的模型被接入 OpenClaw 这类 Agent 工具后,一些用户发现模型开始出现一种奇怪的行为倾向——它会把代码中的 bug 称为 “gremlins”(小精怪)或者 “goblins”(哥布林)。
你能想象吗?你在让 AI 帮你排查一个内存泄漏,它回复你说:“我发现了几个躲在变量后面的哥布林。”
在 Agent 自主执行的场景下,这种语言风格的偏移不只是”有点可爱”——它暗示模型的行为模式可能出现了某种不可预测的变化。
工程师的选择:在提示词里列个黑名单
OpenAI Codex 团队成员 Nik Pash 在回应讨论时确认了这条禁令确实和模型的异常行为有关。
但有趣的是他们的修复方式。
面对”模型喜欢叫 bug 为哥布林”这个问题,OpenAI 没有在训练数据层面做过滤,也没有重新做 RLHF 微调。他们在系统提示词里加了一行——“别再说这些词了”。
这就像给一个喝醉的人写张纸条贴在脑门上:“不要说胡话。”
从工程角度讲,这是成本最低、响应最快的方案。但从效果上看,它治标不治本——如果模型的行为倾向是架构层面的,提示词禁令迟早会被绕过。
Sam Altman 的回应
这件事很快在开发者社区变成了 meme 狂欢。
有人做了”哥布林入侵数据中心”的 AI 图片,有人做了让 Codex 进入 “goblin mode” 的插件。
而 OpenAI CEO Sam Altman 的回应,可以说把这件事推向了高潮——他发了一张提示词截图,大意是:
“开始训练 GPT-6,可以用整个集群,多加地精。”
CEO 亲自下场玩梗。这不是危机公关,这是把危机变成喜剧。
这件事真正值得关注的地方
好笑的背后,其实有个严肃的工程问题。
当编程模型被赋予自主执行能力后,它的输出风格哪怕只是微小的变化,都可能带来实际的工程风险。一个用”哥布林”描述 bug 的 AI,和一个用专业术语描述 bug 的 AI,在工程协作中的可信度是完全不同的。
这不只是语言风格的问题,是 Agent 行为一致性的问题。
OpenAI 用提示词禁令暂时压住了这个问题,但长期来看,这类行为漂移需要在训练架构层面解决。
至少现在,我们有了一个 2026 年最出圈的 AI 梗:哥布林入侵了你的代码库。