OpenAI Codex 推出 Chrome 扩展：浏览器自动化从"看"到"操作"

OpenAI 给 Codex 加了一个 Chrome 扩展。不是那种"帮你在网页上总结内容"的浅层插件——这个扩展让 Codex 直接在浏览器里写代码、跑代码、完成需要登录态的真实操作。

核心变化

之前 Codex 处理网页任务靠的是插件系统：遇到一个网页，找个对应的 API 插件调一下。但现实是，很多工作流根本不存在现成 API——你得登录、得填表单、得在几个页面之间跳来跳去。

新的 Chrome 扩展解决了这个问题：

直接在浏览器里写代码并执行：Codex 可以生成和运行 JavaScript 来完成页面操作
复用你的登录态：不需要 API key，直接用你已经在浏览器里登录的身份
混合策略：Codex 会智能选择——有插件的走插件，需要浏览器操作的走 Chrome，两者可以混用

适用场景

OpenAI 官方提到的例子是"导航结构化页面和复杂数据录入流程"。翻译成人话就是：

在内部管理系统里批量修改数据
跨多个 SaaS 平台同步信息
自动化那些"没有 API 但每天要手动点几十次"的重复操作

这些场景之前需要 RPA 工具或者自己写 Selenium 脚本。现在 Codex 可以直接在浏览器里搞定。

实际可用性

从官方 demo 来看，效果不错——Codex 能正确理解页面结构、定位元素、执行操作。但有几个边界条件需要注意：

仅限 Chrome：Firefox 和 Safari 用户暂时用不了
需要 Codex 订阅：这不是免费功能
安全边界：Codex 在浏览器里跑的代码有权限访问你的登录态和页面数据，信任链需要想清楚

对于已经在使用 Codex CLI 或 API 的开发者来说，这个扩展补齐了"最后一公里"——从终端到浏览器，Codex 现在能覆盖大多数日常工作场景了。

行业信号

浏览器级别的 Agent 操作不是新概念。Anthropic 的 Claude 也有类似的浏览器集成能力，Google 的 Gemini 也在做。但 OpenAI 选择把浏览器操作作为 Codex 的原生能力而不是独立产品，说明他们的判断是：Agent 不应该被限制在终端或 API 里，它应该能操作你正在使用的任何界面。

这个判断对不对，接下来几个月的用户反馈会给出答案。

主要来源：

OpenAI Developers 官方推文
Codex Chrome 扩展文档

核心变化

适用场景

实际可用性

行业信号

相关内容

LLM 写组合优化代码时最大的坑：你让它优化，它反而变蠢了

Rubric 越细，模型越会钻空子：基于评分标准的强化学习中的奖励黑客

RLHF 正在悄悄毁掉 AI 的"诚实"：Semantic Reward Collapse 到底说了什么