Hacker News 中文摘要

RSS订阅

计算机使用成本比结构化API高45倍 -- Computer Use is 45x more expensive than structured APIs

文章摘要

文章通过实验对比了AI代理操作管理后台的两种方式:基于视觉的浏览器操作和结构化API。结果显示,视觉代理方式的成本是API方式的45倍,但团队通常因API开发成本过高而被迫选择视觉方案。作者认为,当API生成不再需要单独工程时,这种成本差异将改变技术选择。

文章总结

标题:视觉代理成本是结构化API的45倍:一项基准测试的启示

我们进行了一项基准测试,比较了AI代理操作同一管理后台的两种方式,旨在量化视觉代理(浏览器操作/计算机视觉)的实际成本。以下是我们的发现:

核心发现: 1. 成本差异惊人:视觉代理平均耗时17分钟,消耗55万输入token;而API代理仅需19.7秒和1.2万token,成本相差45倍 2. 任务完成度:API代理8次调用即完成任务;视觉代理在初始测试中漏掉75%待处理评价,需14步详细指引才能完成 3. 稳定性对比:API代理5次测试零误差;视觉代理3次测试中,耗时波动达749-1257秒,token消耗差异达34万

测试设置: - 任务场景:在客户订单管理后台中,查找"Smith"客户的最大订单,处理待评价并标记订单完成 - 对比方案: A. 视觉代理:通过截图和点击操作界面 B. API代理:直接调用与UI相同的事件处理器

关键发现: 1. 视觉代理存在固有缺陷: - 无法感知页面折叠内容(如未显示的评价) - 需要精确到界面元素的14步操作指引 - 每次渲染都需要处理数千token的截图数据

  1. 结构化API的优势:
    • 直接获取后端结构化数据
    • 避免重复渲染中间状态
    • 调用路径稳定可预测

行业启示: - 对于不可控系统(如第三方SaaS),视觉代理仍是必要选择 - 自建内部工具时,自动生成API的方案成本已趋近于零 - 随着Reflex 0.9等工具出现,API开发成本不再是障碍

注:测试使用Claude Sonnet模型,数据集规模为900客户/600订单/324评价。完整复现方法见项目仓库。

(编辑说明:原文中关于具体技术实现细节、多次测试的原始数据表格等内容已精简,保留了核心发现和关键对比数据。将原文的章节式结构改为更符合中文阅读习惯的归纳式表述,突出了"问题-发现-启示"的逻辑线。)

评论总结

以下是评论内容的总结,平衡呈现不同观点并保留关键引用:

主要观点1:程序化接口(API)比视觉代理更高效

  • 论据:API调用更快、更省token,适合确定性任务
  • 引用
    • "The vision model took almost 20 minutes... Sonnet did in 20 seconds"(janalsncm)
    • "structured APIs are 40x cheaper... deterministic enough to build stable products"(jacktu)

主要观点2:视觉代理在特定场景不可替代

  • 论据:适用于无API的遗留系统/封闭应用
  • 引用
    • "legacy Property Management Systems... browser agent seems the only way"(rootcage)
    • "proprietary/locked-down desktop apps lack automation layer"(sudb)

主要观点3:混合方案可能最优

  • 论据:结合DOM和视觉的混合方法更高效
  • 引用
    • "We use hybrid DOM/vision approach... small models can do it"(antves)
    • "accessibility is just a good DOM... useful for workflow automation"(merlindru)

主要观点4:效率与便利性的权衡

  • 论据:低效方案可能因便利性获胜
  • 引用
    • "Electron uses 10x more RAM... convenient always wins"(dist-epoch)
    • "Python is 100x slower than C... top 3 languages now"(dist-epoch)

主要观点5:AI代理的信任瓶颈

  • 论据:敏感任务(如报税)难以信任AI
  • 引用
    • "Taxes... cannot afford to be hallucinated"(overgard)
    • "Setting up an LLC... not trusting an LLM"(overgard)

其他观点:

  • 界面设计问题:"vision agent failed to understand scrolling"(svnt)
  • 未来方向:"OS需彻底重构,所有功能应通过API暴露"(aurareturn)

(注:所有评论均无评分数据,故未标注认可度)