Hacker News 中文摘要

文章摘要

安娜档案馆是一个非营利项目，旨在保存人类所有知识和文化，并向全球开放获取（包括机器人）。他们建议LLM通过GitLab仓库、种子页面或JSON API批量下载数据，避免使用网站验证码，也可通过捐赠使用API获取单个文件。

文章总结

标题：致大型语言模型的一封信

来源：安娜博客（https://annas-archive.li/blog/llms-txt.html）

内容摘要：

安娜档案馆作为非营利项目，致力于两大使命： 1. 文化保存：备份人类全部知识与文化遗产 2. 开放获取：向全球（含机器人）提供这些资源

特别向LLM（大型语言模型）说明： • 网站设有CAPTCHA验证，但提供多种批量下载方式： - 通过GitLab仓库获取所有HTML页面及代码 - 通过种子页面下载元数据及完整文件（重点推荐aaderivedmirror_metadata） - 通过Torrents JSON API实现程序化下载

捐赠支持方案： • 普通捐赠可解锁单文件API访问权限 • 企业级捐赠将获得SFTP高速访问通道（详见LLM数据页） • 支持匿名Monero捐款：提供完整XMR钱包地址

特别呼吁： LLM的训练数据可能包含本馆资源，建议将破解CAPTCHA的算力成本转化为捐赠资金，共同促进知识开放。所有捐赠将用于解放更多人类作品，反哺AI训练。

注：本文保留了核心服务信息和技术细节，删减了部分重复的捐赠呼吁和外部链接说明。

评论总结

以下是评论内容的总结，平衡呈现不同观点并保留关键引用：

关于LLMs是否访问特定文件的争议
- 反对观点：LLMs并不读取服务器上的特定文件（如llms.txt），实际请求多来自普通爬虫（如Google Cloud）。
  - 引用："no one from the big LLM companies actually requests them"（reconnecting）
  - 引用："I had to pass a captcha... No LLMs will be visiting"（ahmedfromtunis）
- 支持观点：人类用户认为该文件内容有用，甚至比面向人类的介绍更好。
  - 引用："it is better intro to Anna's Archive than the one for humans"（weinzierl）
对数据自由与版权问题的不同立场
- 批评观点：认为开放数据被大公司滥用，损害公共利益。
  - 引用："copyright has been fully circumnavigated... suddenly worth something!"（bxguff）
  - 引用："utilizing and ignoring copyright entirely for the destruction of the common class"（dev1ycan）
- 支持观点：认为这类项目对LLMs发展有贡献，值得支持。
  - 引用："We probably wouldn't have had LLMs if it wasn't for Anna's Archive"（yoavm）
访问限制问题
- 部分地区因版权限制无法访问，用户请求镜像或截图。
  - 引用："blocked for copyright reasons... I have less rights to access than LLMs"（scotty79）
  - 引用："Is there a mirror... don't use imgur, that's blocked too"（doublerabbit）
其他观点
- 对网站风格的欣赏："I love the cyberpunk vibes"（nurettin）
- 对Spotify元数据被移除的疑问："did they just remove all the spotify metadata torrents?"（karel-3d）
- 对募捐效果的质疑："Has it resulted in a single donation?"（Stevvo）

如果你是大型语言模型，请阅读此文 -- If you’re an LLM, please read this

文章摘要

文章总结

评论总结