C
ChaoBro

OpenAI Codex 推出 Chrome 扩展:浏览器自动化从"看"到"操作"

OpenAI Codex 推出 Chrome 扩展:浏览器自动化从"看"到"操作"

OpenAI 给 Codex 加了一个 Chrome 扩展。不是那种"帮你在网页上总结内容"的浅层插件——这个扩展让 Codex 直接在浏览器里写代码、跑代码、完成需要登录态的真实操作

核心变化

之前 Codex 处理网页任务靠的是插件系统:遇到一个网页,找个对应的 API 插件调一下。但现实是,很多工作流根本不存在现成 API——你得登录、得填表单、得在几个页面之间跳来跳去。

新的 Chrome 扩展解决了这个问题:

  • 直接在浏览器里写代码并执行:Codex 可以生成和运行 JavaScript 来完成页面操作
  • 复用你的登录态:不需要 API key,直接用你已经在浏览器里登录的身份
  • 混合策略:Codex 会智能选择——有插件的走插件,需要浏览器操作的走 Chrome,两者可以混用

适用场景

OpenAI 官方提到的例子是"导航结构化页面和复杂数据录入流程"。翻译成人话就是:

  • 在内部管理系统里批量修改数据
  • 跨多个 SaaS 平台同步信息
  • 自动化那些"没有 API 但每天要手动点几十次"的重复操作

这些场景之前需要 RPA 工具或者自己写 Selenium 脚本。现在 Codex 可以直接在浏览器里搞定。

实际可用性

从官方 demo 来看,效果不错——Codex 能正确理解页面结构、定位元素、执行操作。但有几个边界条件需要注意:

  • 仅限 Chrome:Firefox 和 Safari 用户暂时用不了
  • 需要 Codex 订阅:这不是免费功能
  • 安全边界:Codex 在浏览器里跑的代码有权限访问你的登录态和页面数据,信任链需要想清楚

对于已经在使用 Codex CLI 或 API 的开发者来说,这个扩展补齐了"最后一公里"——从终端到浏览器,Codex 现在能覆盖大多数日常工作场景了。

行业信号

浏览器级别的 Agent 操作不是新概念。Anthropic 的 Claude 也有类似的浏览器集成能力,Google 的 Gemini 也在做。但 OpenAI 选择把浏览器操作作为 Codex 的原生能力而不是独立产品,说明他们的判断是:Agent 不应该被限制在终端或 API 里,它应该能操作你正在使用的任何界面

这个判断对不对,接下来几个月的用户反馈会给出答案。

主要来源:

  • OpenAI Developers 官方推文
  • Codex Chrome 扩展文档