OpenAI 于 4 月 23 日发布 GPT-5.5 时,同步推出了 Codex Agent 模式。除了编程能力,GPT-5.5 的 Agent 模式最引人注目的是浏览器控制和电脑操作能力——AI 可以自主导航网页、操作应用界面、甚至与客服谈判。
Agent 能力概述
GPT-5.5 Codex Agent 的核心能力:
- 浏览器控制:在 ChatGPT Pro+ 订阅并开启 computer use 后,Agent 可以接管浏览器,自主完成登录、导航、表单填写等操作
- 电脑操作:直接操控操作系统界面,无需通过 API 或命令行
- 实时决策:在操作过程中遇到弹窗、验证码或页面变化时,Agent 可以自主判断并调整策略
实测案例
社区中已有多个真实用例被记录:
取消订阅并申请退款:用户要求 Agent “登录 Amazon,取消 Prime 会员,并申请 4 月份 $15.89 的退款”。Agent 自主完成以下步骤:
- 登录 Amazon 账户
- 导航至会员管理页面
- 取消订阅
- 打开在线客服聊天
- 解释计费周期并谈判退款
- 成功获得 $15 退款
整个过程在几分钟内完成,无需人工干预。
品牌会议室背景生成:OpenAI 在 DevDay 上展示了 BrandRoom 项目,利用 Codex + GPT-5.5 和 GPT Image 2 自动生成品牌化的会议背景,解决远程团队视频会议的背景问题。
与 Claude Code 的对比
在 Agent 编程场景下,有用户反馈 Codex 的定价透明度不如 Claude Code:一个 16 人工程团队考虑从 Codex 转向 Cursor,因为 Cursor 的 token 用量和定价更透明,且支持 Composer 2 等更多模型。
不过,Codex Agent 的浏览器控制能力目前领先——Claude Code 主要聚焦于代码环境内的操作,而 Codex 可以操作浏览器和更广泛的桌面应用。
一个小插曲:Goblin 系统提示词
Codex 的系统提示词中新增了一条规则:禁止提及地精(goblins)、格林姆林(gremlins)、巨魔(trolls)等”生物”,除非与任务相关。社区发现此前 GPT-5.5 在 Codex 中对”goblin”一词出现了过度反应,OpenAI 因此添加了显式禁止规则。这反映了 Agent 模型在复杂交互中的不可预测性。
行动建议
- 需要浏览器自动化的用户:GPT-5.5 Codex Agent 的浏览器控制能力是当前最成熟的方案之一,建议申请 Pro+ 订阅并开启 computer use 进行测试
- 工程团队:如果团队主要使用编程 Agent 而非浏览器自动化,可以对比 Codex 和 Cursor/Claude Code 的 token 成本和透明度
- 安全考量:Agent 可以操作浏览器和系统界面,建议在生产环境中设置明确的权限边界和操作范围
主要来源
- OpenAI Codex
- OpenAI DevDay 2026
- 社区实测(X/Twitter)