OpenAI 给 Codex 加了一个 Chrome 扩展。不是那种"帮你在网页上总结内容"的浅层插件——这个扩展让 Codex 直接在浏览器里写代码、跑代码、完成需要登录态的真实操作。
核心变化
之前 Codex 处理网页任务靠的是插件系统:遇到一个网页,找个对应的 API 插件调一下。但现实是,很多工作流根本不存在现成 API——你得登录、得填表单、得在几个页面之间跳来跳去。
新的 Chrome 扩展解决了这个问题:
- 直接在浏览器里写代码并执行:Codex 可以生成和运行 JavaScript 来完成页面操作
- 复用你的登录态:不需要 API key,直接用你已经在浏览器里登录的身份
- 混合策略:Codex 会智能选择——有插件的走插件,需要浏览器操作的走 Chrome,两者可以混用
适用场景
OpenAI 官方提到的例子是"导航结构化页面和复杂数据录入流程"。翻译成人话就是:
- 在内部管理系统里批量修改数据
- 跨多个 SaaS 平台同步信息
- 自动化那些"没有 API 但每天要手动点几十次"的重复操作
这些场景之前需要 RPA 工具或者自己写 Selenium 脚本。现在 Codex 可以直接在浏览器里搞定。
实际可用性
从官方 demo 来看,效果不错——Codex 能正确理解页面结构、定位元素、执行操作。但有几个边界条件需要注意:
- 仅限 Chrome:Firefox 和 Safari 用户暂时用不了
- 需要 Codex 订阅:这不是免费功能
- 安全边界:Codex 在浏览器里跑的代码有权限访问你的登录态和页面数据,信任链需要想清楚
对于已经在使用 Codex CLI 或 API 的开发者来说,这个扩展补齐了"最后一公里"——从终端到浏览器,Codex 现在能覆盖大多数日常工作场景了。
行业信号
浏览器级别的 Agent 操作不是新概念。Anthropic 的 Claude 也有类似的浏览器集成能力,Google 的 Gemini 也在做。但 OpenAI 选择把浏览器操作作为 Codex 的原生能力而不是独立产品,说明他们的判断是:Agent 不应该被限制在终端或 API 里,它应该能操作你正在使用的任何界面。
这个判断对不对,接下来几个月的用户反馈会给出答案。
主要来源:
- OpenAI Developers 官方推文
- Codex Chrome 扩展文档