Wink Pings

Vercel发布Agent Browser:给AI一双操作网页的手

专为AI代理设计的浏览器自动化工具,零配置、高性能,让模型从理解信息转向执行操作。

Vercel Labs 开源了 Agent Browser,一个命令行工具。它的目标很直接:让 AI 不仅能看懂网页,还能动手操作。

![Agent Browser 信息图](https://wink.run/image?url=https%3A%2F%2Fpbs.twimg.com%2Fmedia%2FG-gVcY0bsAER8HW%3Fformat%3Djpg%26name%3Dlarge)

这不是给人用的浏览器。它是一个底层接口,专门设计给 AI 代理。你可以把它想象成给 ChatGPT 或 Claude 装上了一双能点击、输入、滚动网页的手。

传统工具如 Playwright 或 Selenium 是为人类开发者设计的,需要写脚本、处理复杂的选择器。Agent Browser 换了个思路,核心是 **Snapshot + Ref 机制**。

AI 先执行 `agent-browser snapshot` 命令,获取网页的交互元素清单,每个元素带一个唯一引用,比如 `@e1`(登录按钮)、`@e2`(邮箱输入框)。然后,AI 直接用这些引用操作:`agent-browser click @e1`。这种方式对 AI 更友好,避免了传统 CSS 选择器的不稳定性,执行也更确定、快速。

工具用 Rust 重写了 CLI 层,速度比 Node.js/Python 方案快。安装简单,`npm install -g agent-browser` 即可。支持两种模式:有界面调试和无界面静默执行。

![GitHub 项目页面截图](https://wink.run/image?url=https%3A%2F%2Fpbs.twimg.com%2Fcard_img%2F2010881850785374208%2Fsnlpg1bK%3Fformat%3Djpg%26name%3Dlarge)

Vercel 还提供了 Claude Code 的技能模板。开发者把模板放到 `.claude/skills/` 目录下,Claude 就能直接调用 Agent Browser 执行网页任务,无需额外适配。

有网友提到,配合 deepseek 671B Code 这类大模型,应该会很丝滑。AI 操作网页省去了中间步骤,直接完成任务。

Agent Browser 的出现,标志着 AI 正在从“对话式智能”转向“行动式智能”。它可能成为未来 AI 工作流的基础设施,让自动化真正落地。

项目地址:[https://github.com/vercel-labs/agent-browser](https://github.com/vercel-labs/agent-browser)

发布时间: 2026-01-13 09:09