文章摘要
互联网上恶意机器人问题比想象的更严重。Glade Art网站通过"蜜罐"技术收集的数据显示,55天内拦截了680万次恶意请求,这些机器人无视robots.txt规则,肆意抓取内容。网站采取严格反机器人措施保护用户作品,但仍面临严峻挑战,反映出当前网络环境中恶意爬虫的普遍性和破坏性。
文章总结
标题:互联网上的机器人问题比你想象的更严重,原因如下
主要内容:
- 反机器人措施的重要性
- Glade Art网站采取严格的反机器人措施,包括设置"蜜罐"和"数字焦油坑"陷阱
- 过去55天内记录了680万次机器人请求
- 机器人行为特征
- 恶意机器人无视robots.txt协议
- 最活跃的两个陷阱页面分别收到680万次和8.4万次请求
- 机器人主要收集数字丰富的数据和虚假个人信息
- 机器人来源分析
- 大多数IP来自住宅和移动网络,而非数据中心
- 主要来自亚洲和印度尼西亚地区
- 这些机器人不执行JavaScript代码
- 互联网机器人流量现状
- 2024年报告显示51%的网络流量来自机器人
- 实际比例可能高达70%,因为许多机器人使用住宅IP难以识别
- 反制措施实验
- 采用工作量证明(PoW)挑战后,机器人请求从每天数十万降至11次
- 证实即使最简单的PoW挑战也能有效阻止机器人
- 机器人背后势力
- 很可能是为AI训练收集数据的公司
- 普通恶意行为者难以负担数百万个独立IP的成本
- 防护建议
- 推荐使用Cloudflare或Anubis等防护工具
- 添加JavaScript要求或hCaptcha验证
- 正确配置的Anubis可消除几乎全部机器人流量
- 服务器资源使用情况
- 处理机器人请求的资源消耗极低
- CPU和内存使用量无明显增加
- 有趣数据
- 数据导出陷阱平均每个请求生成9000个字符
- 累计已发送相当于12万本小说长度的文本
- 日志文件提供
- 提供1.1GB的详细日志文件供研究使用
结语: 互联网机器人问题比想象中严重,但设置陷阱对抗机器人也很有趣。建议网站所有者都设置自己的"蜜罐",同时注意保护合法爬虫。
(注:删减了具体URL、图片链接、文件下载链接等次要信息,保留了核心数据和结论)
评论总结
以下是评论内容的总结:
1. 对Anubis/PoW验证效果的支持观点
- 认为简单的工作量证明(PoW)能有效阻止恶意机器人活动
- 实验数据显示使用后请求量从数十万骤降到11次
- 关键引用: "I love experimental data like this. So much better than gut reaction" (NooneAtAll3) "I'm surprised at the effectiveness of simple PoW to stop practically all activity" (salomonk_mur)
2. 对验证系统用户体验的批评
- 多数用户抱怨验证过程耗时过长(1-3分钟),CPU占用高
- 部分用户怀疑是加密货币挖矿程序
- 关键引用: "Three minutes, one pixel of progress bar, 2 CPUs at 100%" (ColinWright) "I cannot get past the bot check (190kH/s), is it mining crypto on my laptop?" (ricardobeat)
3. 关于机器人问题的现状讨论
- 认为当前网络环境变化极快,数据容易过时
- 大公司机器人(如Meta/Amazon)行为异常且拒绝解释
- 关键引用: "Taking a 2024 report...is like taking a 1950s Car & Driver article" (rekabis) "Got DoSed by Amazonbot...They refuse to tell me what happened" (oasisbob)
4. 替代解决方案建议
- 建议使用数字ID验证或JA4指纹识别等技术
- 有人分享自建反机器人系统的经验(ASN阻断+风险数据库)
- 关键引用: "JA4 fingerprinting works decently for the residential proxies" (VladVladikoff) "We are experimenting with blocking based on risk databases" (cullenking)
5. 关于人机验证的技术分析
- 指出AI在跨图块验证任务中表现远差于人类
- 认为验证系统应针对人机认知差异设计
- 关键引用: "On cross-tile challenges: Claude scored 0%. Gemini: 2%. GPT-5: 1%" (timshell) "The difficulty curves are inverted...because the two systems solve the problem with fundamentally different architectures" (timshell)
6. 对反机器人措施副作用的担忧
- 指出过度防御会阻碍正常AI助手功能
- 担心影响网站流量和搜索引擎收录
- 关键引用: "we are hurting ourselves in the process, too" (jwr) "What a great way to not get any traffic at all" (abujazar)
总结显示评论主要分为支持技术效果、批评用户体验、讨论现状问题、建议替代方案和担忧副作用等五个维度,其中验证系统的高资源消耗和疑似挖矿行为是最集中的批评点。