Hacker News 中文摘要

RSS订阅

Cloudflare to introduce pay-per-crawl for AI bots

文章摘要

随着AI技术的普及,内容创作者面临两难选择:要么完全开放内容供AI抓取,要么建立封闭花园。Cloudflare提出第三种方案:让创作者能够控制谁可以访问他们的内容,并允许他们向AI爬虫收费。这一方案旨在帮助内容所有者在互联网规模上实现内容变现,通过重新启用HTTP响应代码402,提供按次付费的访问模式,赋予创作者更多自主权和收益机会。

文章总结

文章主要介绍了Cloudflare推出的一项名为“按爬取付费”(Pay per crawl)的新功能,旨在为内容创作者和出版商提供第三种选择,以控制AI爬虫对其内容的访问并从中获得收益。以下是文章的关键点和重要信息:

  1. 背景与问题

    • 目前,内容创作者和出版商面临一个二元选择:要么完全开放内容供AI爬虫使用,要么建立封闭的“围墙花园”。
    • 许多出版商希望允许AI爬虫访问其内容,但希望获得相应的补偿。然而,目前这需要与特定爬虫达成个别协议,这对没有规模优势的出版商来说是一个难以克服的挑战。
  2. 解决方案:按爬取付费

    • Cloudflare提出了一种新的选择:内容所有者可以按爬取次数收费,而不是完全封锁或免费开放内容。
    • 该功能利用HTTP状态码(如402 Payment Required)和现有的认证机制,创建了一个付费内容访问的框架。
  3. 功能细节

    • 出版商控制与定价:出版商可以定义整个网站的统一定价,并选择允许、收费或完全阻止爬虫访问。
    • 支付头与访问:爬虫需要通过Web Bot Auth提案进行认证,并在请求中包含支付意图的头部信息。
    • 访问流程:爬虫可以通过两种方式访问付费内容:反应式(先发现后支付)和主动式(先声明支付意图)。
    • 财务结算:Cloudflare作为记录商户,负责聚合账单事件,向爬虫收费并将收益分配给出版商。
  4. 未来展望

    • 该功能有望进一步发展,支持不同类型的交互和市场。
    • 未来可能会引入动态定价和细粒度许可,以适应不同的需求和内容类型。
    • 在智能代理的世界中,按爬取付费的潜力可能更大,智能代理可以程序化地协商访问数字资源。
  5. 技术基础

    • 该功能基于HTTP响应代码402,为未来的智能代理程序化访问数字资源奠定了基础。

总结来说,Cloudflare的“按爬取付费”功能为内容创作者和出版商提供了一种新的方式来控制AI爬虫对其内容的访问,并从中获得收益,同时为未来的智能代理程序化访问数字资源提供了技术基础。

评论总结

  1. 支持观点:评论者认为Cloudflare的举措有助于解决AI爬虫滥用数据的问题,并为内容创作者提供补偿。

    • 引用
      • "Nice to see someone addressing this annoying problem, I'm seeing first hand bot traffic go up as they are just gobbling up data."(suyash)
      • "I really like the idea that crawlers who are profiting should have to pay content owners/creators per crawl."(1dom)
  2. 质疑观点:部分评论者认为该方案无法有效阻止数据盗窃,且可能导致AI公司通过伪装用户代理绕过收费机制。

    • 引用
      • "All this is going to do is drive AI companies to mask their user agent to appear as a standard browser, resulting in a worse end state than we’re in now."(crgwbr)
      • "While this is a neat idea, how does it negate all the data theft being done by the bots so far?"(yantramanav)
  3. 技术改进建议:一些评论者建议采用开源协议或共享基础设施来更公平地处理爬虫权限和费用问题。

    • 引用
      • "However instead of relying on Cloudflare, it would be better to have a open source protocol that handles permission and payment for crawlers/scraper."(suyash)
      • "There should be a single crawler they all contribute to. They set up their filters and everybody whose filters match a URL contributes proportionately."(JimDabell)
  4. 对互联网中立性的担忧:评论者担心该方案可能导致互联网中立性受损,甚至演变为按浏览付费的模式。

    • 引用
      • "In theory, why not, in practice welcome to the world where neutrality of internet explode..."(greatgib)
      • "How long before we get pay per browse and the internet is 6ft under?"(skenderbeu)
  5. 对Google的担忧:部分评论者指出该方案无法阻止Google等大公司的爬虫,可能进一步巩固其垄断地位。

    • 引用
      • "This ends up being pretty bad for competition because it does not block the largest AI scraper of them all: Googlebot."(saddlerustle)
      • "This is where Google wins AI again - most people want the google-bot to crawl their site so they get traffic."(mattlondon)

总结:Cloudflare的收费爬虫方案在解决AI爬虫滥用问题方面获得了一定支持,但也引发了关于技术可行性、互联网中立性以及对大公司垄断的担忧。评论者建议采用更公平、开放的技术方案来平衡各方利益。