Hacker News 中文摘要

RSS订阅

Cloudflare爬取端点 -- Cloudflare crawl endpoint

文章摘要

Cloudflare推出新功能,可通过Browser Rendering的单一API调用爬取整个网站内容,简化了网页抓取流程。该功能于2026年3月10日发布,旨在提高开发者的数据采集效率。

文章总结

Cloudflare推出浏览器渲染新功能:单次API调用实现整站爬取

Cloudflare开发者博客于2026年3月10日宣布,其浏览器渲染(Browser Rendering)服务新增了/crawl端点功能,目前处于公开测试阶段。这项创新功能允许开发者通过单次API调用实现对整个网站的爬取。

核心功能亮点: 1. 多格式输出:支持返回HTML、Markdown和结构化JSON(基于Workers AI技术) 2. 智能爬取控制: - 可配置爬取深度和页面数量限制 - 支持URL路径通配符设置 - 自动通过sitemap或页面链接发现URL 3. 效率优化: - 增量爬取功能(modifiedSince和maxAge参数) - 静态模式(render: false)可加速静态站点抓取 4. 合规性:严格遵守robots.txt协议,包括crawl-delay指令

技术实现: - 采用异步任务机制,开发者提交起始URL后获取任务ID,后续通过查询获取结果 - 同时支持免费版和付费版Workers计划

使用示例: ```shell

发起爬取任务

curl -X POST 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl' \ -H 'Authorization: Bearer ' \ -d '{"url": "https://blog.cloudflare.com/"}'

查询结果

curl -X GET 'https://api.cloudflare.com/client/v4/accounts/{accountid}/browser-rendering/crawl/{jobid}' \ -H 'Authorization: Bearer ' ```

应用场景: - 模型训练 - RAG管道构建 - 网站内容研究与监控

开发者可参考官方文档获取/crawl端点的详细使用说明,网站管理员可查阅robots.txt和sitemap的最佳实践指南以优化站点可爬取性。

(注:原文中的导航菜单、页脚链接等非核心内容已作精简处理)

评论总结

以下是评论内容的总结:

支持观点

  1. 功能创新与便利性

    • 认为Cloudflare的爬虫服务简化了爬取流程,尤其适合网站存档等用途
    • 引用:"抽象了浏览器上下文生命周期管理的痛点"(评论16);"对从公开页面提取结构化数据是重大简化"(评论16)
  2. 技术演进与行业趋势

    • 认为这是对robots.txt和站点地图的自然进化,可能减少爬虫资源浪费
    • 引用:"如果更多站点提供明确的机器可读入口,索引会变得更高效"(评论23);"Cloudflare正滑向冰球将到达的位置"(评论8)

质疑与批评

  1. 利益冲突与垄断担忧

    • 批评Cloudflare既卖反爬方案又卖爬虫服务,可能形成"围墙花园"
    • 引用:"先妖魔化第三方爬虫,再推出自己的收费爬虫API"(评论12);"卖解药(DDoS防护)又制造毒药(授权AI爬取)"(评论9)
  2. 实际限制问题

    • 指出爬虫速度慢(1页/秒)、付费门槛($5/月起)及登录内容爬取困难
    • 引用:"3600页/小时的速度对严肃AI公司无用"(评论22);"论坛存档需处理分页和登录内容"(评论15)

中立/技术探讨

  1. 实现细节

    • 讨论爬虫是否绕过Cloudflare自身反AI措施,以及如何区分正常流量
    • 引用:"渲染请求来自Cloudflare ASN且bot分数低"(评论14);"可通过CF-Worker头识别并拦截"(评论14)
  2. 替代方案

    • 建议本地化爬取方案或网站主动提供结构化数据
    • 引用:"可用Playwright等工具本地多核爬取"(评论17);"希望站点能提供预爬取版本"(评论19)

其他

  • 有用户抱怨Cloudflare路由问题(评论25),但属非相关讨论
  • 部分评论提及竞品Firecrawl可能受影响(评论21)

总结呈现了技术便利性、商业伦理争议和实现细节的三方平衡,核心矛盾在于平台既当"裁判"又当"运动员"的定位冲突。