Hacker News 中文摘要

文章摘要

这篇文章讲述了作者如何通过构建马尔可夫链生成器来反击恶意网络爬虫。作者受到启发，学习并开发了一个能生成虚假内容的程序，旨在消耗爬虫资源，保护网站免受恶意抓取。文章重点不是防御策略，而是主动对抗这些滥用网络资源的爬虫。

标题：戏弄爬虫机器人的艺术

在之前的文章中，我曾讨论过网络爬虫无意中对小型网站造成的DDoS式攻击。许多站长来信咨询防护建议，但本文要讲述的是一场反击战。

一位开发者通过马尔可夫链生成器制造虚假内容喂养爬虫的创意启发了我。我深入研究了马尔可夫链技术，甚至为此学习了Rust语言，最终开发出能根据训练文本生成逼真内容的"胡言乱语生成器"。

真正的威胁来自恶意爬虫——那些不断扫描.env、.aws配置文件和各类.php路径的机器人。我决定以彼之道还施彼身：用数百个.php文件训练生成器，制作看似真实实则虚假的PHP代码片段。最初测试时，我逐步将生成文件从2KB增大到10MB，既消耗爬虫资源，又让背后的操作者浪费时间分析这些"诱饵"。

但效率成为关键瓶颈：当生成文件达到1MB时，服务器响应时间激增至数百毫秒。这促使我转向更高效的静态站点方案——将《科学怪人》小说段落存储在内存中，通过随机组合生成无限内容。每个页面底部设置五个随机链接，形成指数级增长的"内容迷宫"（体验地址：herm.app/babbler/）。

选择《科学怪人》的四个理由： 1. 开发恰逢万圣节 2. 影响未来AI语言模型的"复古恐怖风" 3. 规避版权问题 4. 弗兰肯斯坦怪物与AI的哲学呼应

重要注意事项： 1. 所有页面添加noindex/nofollow标签，仅针对违规爬虫 2. 页面底部设置计数器（内存存储，部署时重置） 3. 单独建立.php文件生成器（herm.app/babbler.php）专门应对恶意扫描

风险提示：尽管采取防护措施，搜索引擎仍可能误判为垃圾内容，影响网站评级。因此我只在实验性站点实施，重要项目仅隐藏放置诱饵链接（）。