文章摘要

Cloudflare推出新功能，可通过Browser Rendering的单一API调用爬取整个网站内容，简化了网页抓取流程。该功能于2026年3月10日发布，旨在提高开发者的数据采集效率。

文章总结

Cloudflare推出浏览器渲染新功能：单次API调用实现整站爬取

Cloudflare开发者博客于2026年3月10日宣布，其浏览器渲染（Browser Rendering）服务新增了/crawl端点功能，目前处于公开测试阶段。这项创新功能允许开发者通过单次API调用实现对整个网站的爬取。

核心功能亮点： 1. 多格式输出：支持返回HTML、Markdown和结构化JSON（基于Workers AI技术） 2. 智能爬取控制： - 可配置爬取深度和页面数量限制 - 支持URL路径通配符设置 - 自动通过sitemap或页面链接发现URL 3. 效率优化： - 增量爬取功能（modifiedSince和maxAge参数） - 静态模式（render: false）可加速静态站点抓取 4. 合规性：严格遵守robots.txt协议，包括crawl-delay指令

技术实现： - 采用异步任务机制，开发者提交起始URL后获取任务ID，后续通过查询获取结果 - 同时支持免费版和付费版Workers计划

使用示例： ```shell

发起爬取任务

curl -X POST 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl' \ -H 'Authorization: Bearer ' \ -d '{"url": "https://blog.cloudflare.com/"}'

查询结果

curl -X GET 'https://api.cloudflare.com/client/v4/accounts/{accountid}/browser-rendering/crawl/{jobid}' \ -H 'Authorization: Bearer ' ```

应用场景： - 模型训练 - RAG管道构建 - 网站内容研究与监控

开发者可参考官方文档获取/crawl端点的详细使用说明，网站管理员可查阅robots.txt和sitemap的最佳实践指南以优化站点可爬取性。

（注：原文中的导航菜单、页脚链接等非核心内容已作精简处理）

评论总结

以下是评论内容的总结：

支持观点

功能创新与便利性
- 认为Cloudflare的爬虫服务简化了爬取流程，尤其适合网站存档等用途
- 引用："抽象了浏览器上下文生命周期管理的痛点"（评论16）；"对从公开页面提取结构化数据是重大简化"（评论16）
技术演进与行业趋势
- 认为这是对robots.txt和站点地图的自然进化，可能减少爬虫资源浪费
- 引用："如果更多站点提供明确的机器可读入口，索引会变得更高效"（评论23）；"Cloudflare正滑向冰球将到达的位置"（评论8）

质疑与批评

利益冲突与垄断担忧
- 批评Cloudflare既卖反爬方案又卖爬虫服务，可能形成"围墙花园"
- 引用："先妖魔化第三方爬虫，再推出自己的收费爬虫API"（评论12）；"卖解药（DDoS防护）又制造毒药（授权AI爬取）"（评论9）
实际限制问题
- 指出爬虫速度慢（1页/秒）、付费门槛（$5/月起）及登录内容爬取困难
- 引用："3600页/小时的速度对严肃AI公司无用"（评论22）；"论坛存档需处理分页和登录内容"（评论15）

中立/技术探讨

实现细节
- 讨论爬虫是否绕过Cloudflare自身反AI措施，以及如何区分正常流量
- 引用："渲染请求来自Cloudflare ASN且bot分数低"（评论14）；"可通过CF-Worker头识别并拦截"（评论14）
替代方案
- 建议本地化爬取方案或网站主动提供结构化数据
- 引用："可用Playwright等工具本地多核爬取"（评论17）；"希望站点能提供预爬取版本"（评论19）

其他

有用户抱怨Cloudflare路由问题（评论25），但属非相关讨论
部分评论提及竞品Firecrawl可能受影响（评论21）

总结呈现了技术便利性、商业伦理争议和实现细节的三方平衡，核心矛盾在于平台既当"裁判"又当"运动员"的定位冲突。

Hacker News 中文摘要

Cloudflare爬取端点 -- Cloudflare crawl endpoint