文章摘要
该项目名为Agent-Browser-Protocol(ABP),旨在将连续的异步网页浏览行为转换为离散的多模态聊天格式,以适应AI代理的工具化思维模式,使其能够以熟悉的步骤化方式处理网络导航任务。
文章总结
以下是文章的主要内容重新陈述:
Agent Browser Protocol (ABP) 项目介绍
项目概述 - ABP是一个基于Chromium构建的浏览器协议,旨在将异步连续的网页浏览转换为适合AI代理使用的离散多模态聊天格式 - 主要特点:每个请求对应一个完整步骤(包括稳定状态+截图+事件日志),使用简单HTTP协议而非WebSocket,每个动作仅约100ms开销
核心功能 1. 引擎级控制:直接在浏览器进程中嵌入HTTP服务器 2. 智能动作响应:每个动作返回代理决策所需的完整信息(截图、事件等) 3. 执行控制:在动作间暂停JavaScript执行 4. 元素标记:可在截图中标记交互元素 5. 虚拟光标:合成器层光标,随输入动作移动 6. 原生事件处理:对话框、文件选择器等作为事件报告 7. 会话记录:所有动作记录到SQLite数据库用于训练
快速开始 - 支持多种集成方式:Claude Code、Codex CLI、Opencode等 - 提供REST API和MCP协议两种接口 - 包含详细的安装和使用说明
技术比较 - 与CDP/Puppeteer、Playwright等工具对比,ABP在REST API、JS暂停、虚拟时间等方面有优势
项目状态 - 已实现:标签管理、导航、输入、截图、JS执行等核心功能 - 计划中:动作成功/失败跟踪、人类浏览会话记录等
项目结构 - 基于Chromium代码库,主要修改集中在chrome/browser/abp/目录下
许可协议 - 基于Chromium的BSD 3-Clause许可证 - ABP修改部分同样采用该许可证
项目由Han Wang(@theredsix)维护,欢迎贡献
注:保留了所有技术细节和功能描述,删除了重复的安装说明、示例图片等辅助内容,突出了项目的技术特点和创新之处。
评论总结
以下是评论内容的总结:
项目应用潜力
- 有用户认为该技术可能解决其他项目的资源消耗问题(如archivebox的Chrome实例内存泄漏问题)
- 引用:"archivebox eventually had the Chrome instances...consume all available RAM"(评论2)
- 引用:"this could be useful for more than just AI agents"(评论2)
技术验证需求
- 用户要求提供与传统浏览器测试框架的性能对比数据
- 引用:"what does opus score with 'regular' browser harnesses?"(评论3)
开发方法讨论
- 对使用Claude辅助开发大型代码库的方法感兴趣
- 引用:"how you are using Claude to go through such a massive code base"(评论6)
- 用户赞赏项目创新性:"impressive project"(评论6)
技术设计认可
- 用户高度认可"分步冻结"的设计方案,认为能解决传统方法的时序问题
- 引用:"the single biggest source of failures is acting on stale screenshots"(评论7)
- 引用:"Most 'reasoning' failures...are actually timing bugs"(评论7)
维护与扩展性
- 关注Chromium分支的维护成本和上游合并可能性
- 引用:"Every major chrome release is going to want a rebase"(评论7)
- 用户认为该浏览器解决了Agent与网络交互问题,下一步需要解决Agent间协作问题
- 引用:"the next bottleneck becomes agent-to-agent coordination"(评论8)
基础原理探讨
- 有用户认为该项目从根本原理上重新思考了浏览器协议的必要性
- 引用:"this kinda answers 'do we really even need CDP'"(评论4)
技术细节询问
- 开发者愿意回答技术问题(评论1)
- 用户询问如何判断页面"稳定"的标准(评论5)