Hacker News 中文摘要

文章摘要

互联网上恶意机器人问题比想象的更严重。Glade Art网站通过"蜜罐"技术收集的数据显示，55天内拦截了680万次恶意请求，这些机器人无视robots.txt规则，肆意抓取内容。网站采取严格反机器人措施保护用户作品，但仍面临严峻挑战，反映出当前网络环境中恶意爬虫的普遍性和破坏性。

文章总结

标题：互联网上的机器人问题比你想象的更严重，原因如下

主要内容：

反机器人措施的重要性

Glade Art网站采取严格的反机器人措施，包括设置"蜜罐"和"数字焦油坑"陷阱
过去55天内记录了680万次机器人请求

机器人行为特征

恶意机器人无视robots.txt协议
最活跃的两个陷阱页面分别收到680万次和8.4万次请求
机器人主要收集数字丰富的数据和虚假个人信息

机器人来源分析

大多数IP来自住宅和移动网络，而非数据中心
主要来自亚洲和印度尼西亚地区
这些机器人不执行JavaScript代码

互联网机器人流量现状

2024年报告显示51%的网络流量来自机器人
实际比例可能高达70%，因为许多机器人使用住宅IP难以识别

反制措施实验

采用工作量证明(PoW)挑战后，机器人请求从每天数十万降至11次
证实即使最简单的PoW挑战也能有效阻止机器人

机器人背后势力

很可能是为AI训练收集数据的公司
普通恶意行为者难以负担数百万个独立IP的成本

防护建议

推荐使用Cloudflare或Anubis等防护工具
添加JavaScript要求或hCaptcha验证
正确配置的Anubis可消除几乎全部机器人流量

服务器资源使用情况

处理机器人请求的资源消耗极低
CPU和内存使用量无明显增加

有趣数据

数据导出陷阱平均每个请求生成9000个字符
累计已发送相当于12万本小说长度的文本

日志文件提供

提供1.1GB的详细日志文件供研究使用

结语：互联网机器人问题比想象中严重，但设置陷阱对抗机器人也很有趣。建议网站所有者都设置自己的"蜜罐"，同时注意保护合法爬虫。

（注：删减了具体URL、图片链接、文件下载链接等次要信息，保留了核心数据和结论）

评论总结

以下是评论内容的总结：

1. 对Anubis/PoW验证效果的支持观点

认为简单的工作量证明(PoW)能有效阻止恶意机器人活动
实验数据显示使用后请求量从数十万骤降到11次
关键引用： "I love experimental data like this. So much better than gut reaction" (NooneAtAll3) "I'm surprised at the effectiveness of simple PoW to stop practically all activity" (salomonk_mur)

2. 对验证系统用户体验的批评

多数用户抱怨验证过程耗时过长（1-3分钟），CPU占用高
部分用户怀疑是加密货币挖矿程序
关键引用： "Three minutes, one pixel of progress bar, 2 CPUs at 100%" (ColinWright) "I cannot get past the bot check (190kH/s), is it mining crypto on my laptop?" (ricardobeat)

3. 关于机器人问题的现状讨论

认为当前网络环境变化极快，数据容易过时
大公司机器人（如Meta/Amazon）行为异常且拒绝解释
关键引用： "Taking a 2024 report...is like taking a 1950s Car & Driver article" (rekabis) "Got DoSed by Amazonbot...They refuse to tell me what happened" (oasisbob)

4. 替代解决方案建议

建议使用数字ID验证或JA4指纹识别等技术
有人分享自建反机器人系统的经验（ASN阻断+风险数据库）
关键引用： "JA4 fingerprinting works decently for the residential proxies" (VladVladikoff) "We are experimenting with blocking based on risk databases" (cullenking)

5. 关于人机验证的技术分析

指出AI在跨图块验证任务中表现远差于人类
认为验证系统应针对人机认知差异设计
关键引用： "On cross-tile challenges: Claude scored 0%. Gemini: 2%. GPT-5: 1%" (timshell) "The difficulty curves are inverted...because the two systems solve the problem with fundamentally different architectures" (timshell)

6. 对反机器人措施副作用的担忧

指出过度防御会阻碍正常AI助手功能
担心影响网站流量和搜索引擎收录
关键引用： "we are hurting ourselves in the process, too" (jwr) "What a great way to not get any traffic at all" (abujazar)

总结显示评论主要分为支持技术效果、批评用户体验、讨论现状问题、建议替代方案和担忧副作用等五个维度，其中验证系统的高资源消耗和疑似挖矿行为是最集中的批评点。

互联网上的机器人状况比你想象的还要糟糕 -- The bot situation on the internet is worse than you could imagine