Hacker News 中文摘要

RSS订阅

互联网上的机器人状况比你想象的还要糟糕 -- The bot situation on the internet is worse than you could imagine

文章摘要

互联网上恶意机器人问题比想象的更严重。Glade Art网站通过"蜜罐"技术收集的数据显示,55天内拦截了680万次恶意请求,这些机器人无视robots.txt规则,肆意抓取内容。网站采取严格反机器人措施保护用户作品,但仍面临严峻挑战,反映出当前网络环境中恶意爬虫的普遍性和破坏性。

文章总结

标题:互联网上的机器人问题比你想象的更严重,原因如下

主要内容:

  1. 反机器人措施的重要性
  • Glade Art网站采取严格的反机器人措施,包括设置"蜜罐"和"数字焦油坑"陷阱
  • 过去55天内记录了680万次机器人请求
  1. 机器人行为特征
  • 恶意机器人无视robots.txt协议
  • 最活跃的两个陷阱页面分别收到680万次和8.4万次请求
  • 机器人主要收集数字丰富的数据和虚假个人信息
  1. 机器人来源分析
  • 大多数IP来自住宅和移动网络,而非数据中心
  • 主要来自亚洲和印度尼西亚地区
  • 这些机器人不执行JavaScript代码
  1. 互联网机器人流量现状
  • 2024年报告显示51%的网络流量来自机器人
  • 实际比例可能高达70%,因为许多机器人使用住宅IP难以识别
  1. 反制措施实验
  • 采用工作量证明(PoW)挑战后,机器人请求从每天数十万降至11次
  • 证实即使最简单的PoW挑战也能有效阻止机器人
  1. 机器人背后势力
  • 很可能是为AI训练收集数据的公司
  • 普通恶意行为者难以负担数百万个独立IP的成本
  1. 防护建议
  • 推荐使用Cloudflare或Anubis等防护工具
  • 添加JavaScript要求或hCaptcha验证
  • 正确配置的Anubis可消除几乎全部机器人流量
  1. 服务器资源使用情况
  • 处理机器人请求的资源消耗极低
  • CPU和内存使用量无明显增加
  1. 有趣数据
  • 数据导出陷阱平均每个请求生成9000个字符
  • 累计已发送相当于12万本小说长度的文本
  1. 日志文件提供
  • 提供1.1GB的详细日志文件供研究使用

结语: 互联网机器人问题比想象中严重,但设置陷阱对抗机器人也很有趣。建议网站所有者都设置自己的"蜜罐",同时注意保护合法爬虫。

(注:删减了具体URL、图片链接、文件下载链接等次要信息,保留了核心数据和结论)

评论总结

以下是评论内容的总结:

1. 对Anubis/PoW验证效果的支持观点

  • 认为简单的工作量证明(PoW)能有效阻止恶意机器人活动
  • 实验数据显示使用后请求量从数十万骤降到11次
  • 关键引用: "I love experimental data like this. So much better than gut reaction" (NooneAtAll3) "I'm surprised at the effectiveness of simple PoW to stop practically all activity" (salomonk_mur)

2. 对验证系统用户体验的批评

  • 多数用户抱怨验证过程耗时过长(1-3分钟),CPU占用高
  • 部分用户怀疑是加密货币挖矿程序
  • 关键引用: "Three minutes, one pixel of progress bar, 2 CPUs at 100%" (ColinWright) "I cannot get past the bot check (190kH/s), is it mining crypto on my laptop?" (ricardobeat)

3. 关于机器人问题的现状讨论

  • 认为当前网络环境变化极快,数据容易过时
  • 大公司机器人(如Meta/Amazon)行为异常且拒绝解释
  • 关键引用: "Taking a 2024 report...is like taking a 1950s Car & Driver article" (rekabis) "Got DoSed by Amazonbot...They refuse to tell me what happened" (oasisbob)

4. 替代解决方案建议

  • 建议使用数字ID验证或JA4指纹识别等技术
  • 有人分享自建反机器人系统的经验(ASN阻断+风险数据库)
  • 关键引用: "JA4 fingerprinting works decently for the residential proxies" (VladVladikoff) "We are experimenting with blocking based on risk databases" (cullenking)

5. 关于人机验证的技术分析

  • 指出AI在跨图块验证任务中表现远差于人类
  • 认为验证系统应针对人机认知差异设计
  • 关键引用: "On cross-tile challenges: Claude scored 0%. Gemini: 2%. GPT-5: 1%" (timshell) "The difficulty curves are inverted...because the two systems solve the problem with fundamentally different architectures" (timshell)

6. 对反机器人措施副作用的担忧

  • 指出过度防御会阻碍正常AI助手功能
  • 担心影响网站流量和搜索引擎收录
  • 关键引用: "we are hurting ourselves in the process, too" (jwr) "What a great way to not get any traffic at all" (abujazar)

总结显示评论主要分为支持技术效果、批评用户体验、讨论现状问题、建议替代方案和担忧副作用等五个维度,其中验证系统的高资源消耗和疑似挖矿行为是最集中的批评点。