Browser-Use笔记1：web agent全景调研

摘要：2024 至 2025 年间，AI 领域经历了一场深刻的范式转移——从生成式文本处理（chat）转向自主智能体（Autonomous Agency）。本文深度解析开源 Web 智能体（Web Agents）的生态系统、核心架构之争（视觉 vs 代码）、以及 Browser-Use、Skyvern 等头部项目的技术护城河。

Web 自动化的“智能体”

长期以来，Web 自动化行业一直在“脆弱性”与“能力”之间权衡。传统的 Selenium 脚本依赖于刚性的选择器（如 XPath），一旦前端代码微调，脚本便会失效。

2024-2025 年的“智能体”宣告了这一确定性模型的终结。通过将大语言模型（LLM）和视觉语言模型（VLM）直接集成到自动化循环中，开源社区创造了能够推理而非仅仅执行的系统。

在本文中，我们将“Web 智能体”定义为具备以下能力的系统：

感知：通过 DOM 或像素（视觉）理解环境。
推理：使用基础模型规划行动。
行动：通过浏览器驱动执行点击、输入等操作。
反馈循环：观察结果并实时修正策略。

Web 智能体通常使用 ReAct 循环，但在工程实现上，Web 智能体比纯粹的 ReAct 要复杂得多：

维度	ReAct 智能体 (通用概念)	Web 智能体 (具体实现)
观察对象 (Observe)	任意文本返回结果（如计算器输出、API 返回）。	高度异构的数据：HTML DOM 树、屏幕截图、Accessibility Tree、网络抓包。
行动空间 (Act)	调用任意定义的工具（搜索、计算）。	浏览器原生操作：`click()`, `type()`, `scroll()`, `hover()`，需要处理页面加载和动态渲染。
错误处理	这里的错误通常是逻辑错误。	环境极其脆弱：处理 404 错误、弹窗遮挡、验证码 (CAPTCHA)、无限加载等“脏”活。
记忆管理	简单的上下文堆叠。	复杂状态管理：需要记住跨页面的操作（如在 A 页面复制，去 B 页面粘贴），通常涉及 Cookie 和 Session 管理。

核心架构辩论：代码（DOM）还是像素（Vision）？

当前架构的核心分歧在于“输入模态”问题：智能体究竟应该阅读代码，还是像人类一样看屏幕？

1. DOM 优先

代表项目：Browser-Use, Agent-E
机制：提取 HTML 代码，清洗后喂给 LLM。
优势：计算成本低，数据提取精度高，能获取隐藏属性。
劣势：面对现代前端框架（如 React 的 div 嵌套地狱，单页面应用）往往束手无策，且无法处理 Canvas 或视觉遮挡。

2. 视觉优先

代表项目：Skyvern, OmniParser
机制：像人类一样分析屏幕截图，使用 VLM 识别交互元素。
优势：极强的抗干扰性。只要“登录”按钮长得像按钮，无论底层代码如何重构，它都能找到。
劣势：成本高，延迟高，且存在坐标“幻觉”风险。

开源框架深度解析

以下是当前最具影响力的几个框架：

1. Browser-Use：编排领域的领导者

定位：易用性与 LangChain 生态集成的标杆。
核心亮点：
- 隐身模式（Stealth）：内置对抗 Cloudflare 等反爬虫机制的策略，模拟人类鼠标轨迹和指纹。
- 生产级设施：提供云端浏览器实例管理。
性能：在 WebVoyager 基准测试中达到了 89.1% 的成功率，是目前最强的开源框架之一。

2. Skyvern：视觉工作流引擎

定位：拒绝 XPath，拥抱纯视觉。
核心亮点：
- Swarm 架构：将复杂任务拆解为子任务（导航代理、提取代理、行动代理），提高容错率。
- 自愈能力：不依赖代码选择器，前端重构不会导致流程中断。

3. LaVague：大型动作模型框架

定位：专注于动作模型的模块化开发。
核心亮点：明确分离了 World Model（世界模型/大脑） 和 Action Engine（行动引擎/手）。开发者可以随意更换大脑（如从 GPT-4 换到 Claude），而不影响底层的执行驱动。

4. Open Interpreter：操作系统级操作者

定位：本地代码执行与计算机控制。
核心亮点：
- 本地运行：直接在用户机器上编写并执行 Python 脚本。
- OS Mode：不仅操作浏览器，还能控制鼠标键盘操作整个操作系统，类似于 Anthropic 的 "Computer Use"。

5. Agent-E：DOM 蒸馏专家

核心亮点：解决上下文窗口限制问题。通过 DOM 蒸馏 技术，剪除页面中无用的脚本和样式，仅保留语义骨架，大幅降低 Token 消耗。

6.OmniParser：中间件革命

微软推出的 OmniParser 并非智能体，而是一个通用的屏幕解析适配器。它将原始截图转换为结构化数据（UI 元素及其坐标）。

RPA 的未来

AI 智能体并非完全取代 RPA，而是与其融合：

自愈机器人：当传统脚本失败时，AI 介入通过视觉寻找元素。
AI 写脚本：用户演示一次，智能体生成健壮的 Playwright 脚本。这种“AI-in-the-Loop”模式平衡了智能与成本。