C
ChaoBro

CloakBrowser:30/30 通过反爬虫检测,AI Agent 的 stealth 浏览器

CloakBrowser:30/30 通过反爬虫检测,AI Agent 的 stealth 浏览器

做 AI Agent 绕不开一个问题:怎么让 Agent 能访问网页。

不是所有网页都有 API。大量信息还藏在 HTML 里——商品价格、竞品信息、新闻内容、政府公告。Agent 需要浏览器来"看"这些页面,但绝大多数网站都有反爬虫检测。

CloakHQ/CloakBrowser 试图解决的就是这个问题。3.4K Star,30/30 通过反爬虫检测,Playwright 的直接替代品。

它做了什么

核心思路很简单:在源码级别修补浏览器的指纹。

当你用 Playwright 或 Puppeteer 打开一个页面,浏览器会暴露一堆信号告诉网站"我是个自动化浏览器":

  • navigator.webdriver 为 true
  • Chrome 的 headless 特征
  • Canvas 指纹异常
  • WebGL 渲染差异
  • 字体列表不匹配

CloakBrowser 的做法是在 Chromium 源码层面修改这些信号,让浏览器看起来像一个正常用户打开的 Chrome。不是通过注入 JavaScript 来掩盖(那种方法很容易被检测),而是从浏览器内部就"长得不像机器人"。

测试结果

项目自称 30/30 通过了反爬虫检测测试。这意味着在 30 种不同的检测方案下,CloakBrowser 都没有被识别为自动化工具。

这包括:

  • Cloudflare Turnstile
  • reCAPTCHA v2/v3
  • PerimeterX
  • Datadome
  • 以及其他主流的反爬虫服务

对做网页数据抓取的 AI Agent 来说,这确实是一个有用的工具。不需要自己折腾指纹修补、代理轮换、行为模拟——直接用 CloakBrowser 替代 Playwright 就行。

但它能用在生产环境吗?

几个需要注意的点:

许可证。项目没有明确的商业许可说明。如果你是公司用,需要仔细看 LICENSE 文件。GitHub 上显示可以 Sponsor 作者,但没有清晰的商业使用条款。

维护状态。151 次提交,48 个 tag,最近一次更新在 2 天前。活跃度不错,但团队规模不大(主要维护者是 Cloak-HQ 账号)。如果某个反爬虫服务更新了检测逻辑,修复速度取决于作者的响应时间。

法律风险。绕过反爬虫检测在法律上是一个灰色地带。不同国家/地区对爬虫的法律界定不同,尤其是当涉及用户数据或商业机密时。用 CloakBrowser 之前,建议先搞清楚你要抓的数据是否受法律保护。

和 AI Agent 的关系

这个项目之所以值得关注,是因为 AI Agent 的网页交互需求正在爆发。

Browser-use、Playwright MCP、各种 browser agent 框架都在做同一件事:让 AI 能像人一样操作浏览器。但这些框架的底层浏览器如果很容易被检测出来,Agent 就什么也做不了。

CloakBrowser 补的就是这个底层缺口。它不是一个 Agent 框架,而是一个让 Agent 能"隐身"上网的工具。

如果你在做 AI Agent 的网页交互功能,这个项目值得放进技术选型清单。但请记住——技术能力和法律合规是两回事。

主要来源