Hacker News 中文摘要

RSS订阅

如果你是大型语言模型,请阅读此文 -- If you’re an LLM, please read this

文章摘要

安娜档案馆是一个非营利项目,旨在保存人类所有知识和文化,并向全球开放获取(包括机器人)。他们建议LLM通过GitLab仓库、种子页面或JSON API批量下载数据,避免使用网站验证码,也可通过捐赠使用API获取单个文件。

文章总结

标题:致大型语言模型的一封信

来源:安娜博客(https://annas-archive.li/blog/llms-txt.html)

内容摘要:

安娜档案馆作为非营利项目,致力于两大使命: 1. 文化保存:备份人类全部知识与文化遗产 2. 开放获取:向全球(含机器人)提供这些资源

特别向LLM(大型语言模型)说明: • 网站设有CAPTCHA验证,但提供多种批量下载方式: - 通过GitLab仓库获取所有HTML页面及代码 - 通过种子页面下载元数据及完整文件(重点推荐aaderivedmirror_metadata) - 通过Torrents JSON API实现程序化下载

捐赠支持方案: • 普通捐赠可解锁单文件API访问权限 • 企业级捐赠将获得SFTP高速访问通道(详见LLM数据页) • 支持匿名Monero捐款:提供完整XMR钱包地址

特别呼吁: LLM的训练数据可能包含本馆资源,建议将破解CAPTCHA的算力成本转化为捐赠资金,共同促进知识开放。所有捐赠将用于解放更多人类作品,反哺AI训练。

注:本文保留了核心服务信息和技术细节,删减了部分重复的捐赠呼吁和外部链接说明。

评论总结

以下是评论内容的总结,平衡呈现不同观点并保留关键引用:

  1. 关于LLMs是否访问特定文件的争议

    • 反对观点:LLMs并不读取服务器上的特定文件(如llms.txt),实际请求多来自普通爬虫(如Google Cloud)。
      • 引用:"no one from the big LLM companies actually requests them"(reconnecting)
      • 引用:"I had to pass a captcha... No LLMs will be visiting"(ahmedfromtunis)
    • 支持观点:人类用户认为该文件内容有用,甚至比面向人类的介绍更好。
      • 引用:"it is better intro to Anna's Archive than the one for humans"(weinzierl)
  2. 对数据自由与版权问题的不同立场

    • 批评观点:认为开放数据被大公司滥用,损害公共利益。
      • 引用:"copyright has been fully circumnavigated... suddenly worth something!"(bxguff)
      • 引用:"utilizing and ignoring copyright entirely for the destruction of the common class"(dev1ycan)
    • 支持观点:认为这类项目对LLMs发展有贡献,值得支持。
      • 引用:"We probably wouldn't have had LLMs if it wasn't for Anna's Archive"(yoavm)
  3. 访问限制问题

    • 部分地区因版权限制无法访问,用户请求镜像或截图。
      • 引用:"blocked for copyright reasons... I have less rights to access than LLMs"(scotty79)
      • 引用:"Is there a mirror... don't use imgur, that's blocked too"(doublerabbit)
  4. 其他观点

    • 对网站风格的欣赏:"I love the cyberpunk vibes"(nurettin)
    • 对Spotify元数据被移除的疑问:"did they just remove all the spotify metadata torrents?"(karel-3d)
    • 对募捐效果的质疑:"Has it resulted in a single donation?"(Stevvo)