OpenAI Codex 的奇葩 bug：它开始管 bug 叫哥布林，然后 OpenAI 禁止了它提哥布林

事情是这样的：

一个 AI 编程工具，在帮开发者改 bug 的时候，开始管 bug 叫”哥布林”。

这不是什么科幻小说情节，是真实发生在 OpenAI Codex 身上的事。

一切从一条奇怪的提示词开始

4 月 29 日，有人在 Codex CLI 的行为指令里发现了一行让人摸不着头脑的限制：

除非和用户的问题”绝对且明确相关”，否则不要主动谈论：哥布林、小精怪、浣熊、巨魔、食人魔、鸽子，或者其他动物和生物。

注意，这条禁令不是写在某个安全文档里，是直接写在系统提示词里的——而且是重复写了好几遍。

一个 AI 编程工具的系统提示词，里面居然有一份”禁止提及生物清单”。这画面本身就足够滑稽了。

有人去翻了翻 Codex 团队的历史，拼出了这条禁令的来龙去脉。

当 OpenAI 的模型被接入 OpenClaw 这类 Agent 工具后，一些用户发现模型开始出现一种奇怪的行为倾向——它会把代码中的 bug 称为 “gremlins”（小精怪）或者 “goblins”（哥布林）。

你能想象吗？你在让 AI 帮你排查一个内存泄漏，它回复你说：“我发现了几个躲在变量后面的哥布林。”

在 Agent 自主执行的场景下，这种语言风格的偏移不只是”有点可爱”——它暗示模型的行为模式可能出现了某种不可预测的变化。

OpenAI Codex 团队成员 Nik Pash 在回应讨论时确认了这条禁令确实和模型的异常行为有关。

但有趣的是他们的修复方式。

面对”模型喜欢叫 bug 为哥布林”这个问题，OpenAI 没有在训练数据层面做过滤，也没有重新做 RLHF 微调。他们在系统提示词里加了一行——“别再说这些词了”。

这就像给一个喝醉的人写张纸条贴在脑门上：“不要说胡话。”

从工程角度讲，这是成本最低、响应最快的方案。但从效果上看，它治标不治本——如果模型的行为倾向是架构层面的，提示词禁令迟早会被绕过。

这件事很快在开发者社区变成了 meme 狂欢。

有人做了”哥布林入侵数据中心”的 AI 图片，有人做了让 Codex 进入 “goblin mode” 的插件。

而 OpenAI CEO Sam Altman 的回应，可以说把这件事推向了高潮——他发了一张提示词截图，大意是：

“开始训练 GPT-6，可以用整个集群，多加地精。”

CEO 亲自下场玩梗。这不是危机公关，这是把危机变成喜剧。

好笑的背后，其实有个严肃的工程问题。

当编程模型被赋予自主执行能力后，它的输出风格哪怕只是微小的变化，都可能带来实际的工程风险。一个用”哥布林”描述 bug 的 AI，和一个用专业术语描述 bug 的 AI，在工程协作中的可信度是完全不同的。

这不只是语言风格的问题，是 Agent 行为一致性的问题。

OpenAI 用提示词禁令暂时压住了这个问题，但长期来看，这类行为漂移需要在训练架构层面解决。

至少现在，我们有了一个 2026 年最出圈的 AI 梗：哥布林入侵了你的代码库。