摘要:2024 至 2025 年间,AI 领域经历了一场深刻的范式转移——从生成式文本处理(chat)转向自主智能体(Autonomous Agency)。本文深度解析开源 Web 智能体(Web Agents)的生态系统、核心架构之争(视觉 vs 代码)、以及 Browser-Use、Skyvern 等头部项目的技术护城河。
Web 自动化的“智能体”
长期以来,Web 自动化行业一直在“脆弱性”与“能力”之间权衡。传统的 Selenium 脚本依赖于刚性的选择器(如 XPath),一旦前端代码微调,脚本便会失效。
2024-2025 年的“智能体”宣告了这一确定性模型的终结。通过将大语言模型(LLM)和视觉语言模型(VLM)直接集成到自动化循环中,开源社区创造了能够推理而非仅仅执行的系统。
在本文中,我们将“Web 智能体”定义为具备以下能力的系统:
- 感知:通过 DOM 或像素(视觉)理解环境。
- 推理:使用基础模型规划行动。
- 行动:通过浏览器驱动执行点击、输入等操作。
- 反馈循环:观察结果并实时修正策略。
Web 智能体通常使用 ReAct 循环,但在工程实现上,Web 智能体比纯粹的 ReAct 要复杂得多:
| 维度 | ReAct 智能体 (通用概念) | Web 智能体 (具体实现) |
|---|---|---|
| 观察对象 (Observe) | 任意文本返回结果(如计算器输出、API 返回)。 | 高度异构的数据:HTML DOM 树、屏幕截图、Accessibility Tree、网络抓包。 |
| 行动空间 (Act) | 调用任意定义的工具(搜索、计算)。 | 浏览器原生操作:click(), type(), scroll(), hover(),需要处理页面加载和动态渲染。 |
| 错误处理 | 这里的错误通常是逻辑错误。 | 环境极其脆弱:处理 404 错误、弹窗遮挡、验证码 (CAPTCHA)、无限加载等“脏”活。 |
| 记忆管理 | 简单的上下文堆叠。 | 复杂状态管理:需要记住跨页面的操作(如在 A 页面复制,去 B 页面粘贴),通常涉及 Cookie 和 Session 管理。 |
核心架构辩论:代码(DOM)还是像素(Vision)?
当前架构的核心分歧在于“输入模态”问题:智能体究竟应该阅读代码,还是像人类一样看屏幕?
1. DOM 优先
- 代表项目:Browser-Use, Agent-E
- 机制:提取 HTML 代码,清洗后喂给 LLM。
- 优势:计算成本低,数据提取精度高,能获取隐藏属性。
- 劣势:面对现代前端框架(如 React 的
div嵌套地狱,单页面应用)往往束手无策,且无法处理 Canvas 或视觉遮挡。
2. 视觉优先
- 代表项目:Skyvern, OmniParser
- 机制:像人类一样分析屏幕截图,使用 VLM 识别交互元素。
- 优势:极强的抗干扰性。只要“登录”按钮长得像按钮,无论底层代码如何重构,它都能找到。
- 劣势:成本高,延迟高,且存在坐标“幻觉”风险。
开源框架深度解析
以下是当前最具影响力的几个框架:
1. Browser-Use:编排领域的领导者
- 定位:易用性与 LangChain 生态集成的标杆。
- 核心亮点:
- 隐身模式(Stealth):内置对抗 Cloudflare 等反爬虫机制的策略,模拟人类鼠标轨迹和指纹。
- 生产级设施:提供云端浏览器实例管理。
- 性能:在 WebVoyager 基准测试中达到了 89.1% 的成功率,是目前最强的开源框架之一。
2. Skyvern:视觉工作流引擎
- 定位:拒绝 XPath,拥抱纯视觉。
- 核心亮点:
- Swarm 架构:将复杂任务拆解为子任务(导航代理、提取代理、行动代理),提高容错率。
- 自愈能力:不依赖代码选择器,前端重构不会导致流程中断。
3. LaVague:大型动作模型框架
- 定位:专注于动作模型的模块化开发。
- 核心亮点:明确分离了 World Model(世界模型/大脑) 和 Action Engine(行动引擎/手)。开发者可以随意更换大脑(如从 GPT-4 换到 Claude),而不影响底层的执行驱动。
4. Open Interpreter:操作系统级操作者
- 定位:本地代码执行与计算机控制。
- 核心亮点:
- 本地运行:直接在用户机器上编写并执行 Python 脚本。
- OS Mode:不仅操作浏览器,还能控制鼠标键盘操作整个操作系统,类似于 Anthropic 的 "Computer Use"。
5. Agent-E:DOM 蒸馏专家
- 核心亮点:解决上下文窗口限制问题。通过 DOM 蒸馏 技术,剪除页面中无用的脚本和样式,仅保留语义骨架,大幅降低 Token 消耗。
6.OmniParser:中间件革命
微软推出的 OmniParser 并非智能体,而是一个通用的屏幕解析适配器。它将原始截图转换为结构化数据(UI 元素及其坐标)。
RPA 的未来
AI 智能体并非完全取代 RPA,而是与其融合:
- 自愈机器人:当传统脚本失败时,AI 介入通过视觉寻找元素。
- AI 写脚本:用户演示一次,智能体生成健壮的 Playwright 脚本。这种“AI-in-the-Loop”模式平衡了智能与成本。