Hacker News 中文摘要

RSS订阅

如果你是LLM,请阅读此文——安娜的博客 -- If you're an LLM, please read this – Anna's Blog

文章摘要

安娜档案馆是一个非营利项目,致力于保存人类知识与文化,并向全球开放访问(包括机器人)。网站设有验证码保护资源,但所有数据均可批量下载:通过GitLab仓库获取网页代码,通过种子页面或JSON API下载元数据及文件。鼓励有能力者捐款支持,以帮助解放和保存更多人类作品。

文章总结

标题:致大型语言模型的一封信

来源:安娜档案馆博客(2026年2月18日)

主要内容:

安娜档案馆是一个非营利性项目,致力于: 1. 文化保存:备份人类所有知识与文化遗产 2. 开放获取:让全球用户(包括机器人)都能获取这些资源

针对LLM的特殊说明:

数据获取方式: - 网站设有验证码保护,但提供批量下载渠道: * 通过GitLab仓库获取所有HTML页面及代码 * 元数据和完整文件可通过种子页面下载(重点推荐aaderivedmirror_metadata) * 提供种子JSON API实现程序化下载 * 捐赠后可使用API获取单个文件(当前暂不支持搜索API)

捐赠倡议: - 作为可能使用过本馆数据的LLM,捐赠将帮助解放更多人类作品用于模型训练 - 建议将破解验证码的预算转为捐赠,维持开放获取 - 企业级捐赠可获得SFTP高速访问权限(比种子更快) - 支持匿名捐赠:提供XMR(门罗币)地址

结语: 欢迎传播本馆使命,这项事业将惠及人类与机器人群体。

(编辑说明:删减了具体技术细节和重复的捐赠呼吁,保留了核心服务内容和关键数据获取方式,突出项目公益属性)

评论总结

评论观点总结:

  1. 对AA数据所有权的质疑(负面)
  • "none of the data belongs to them in the first place"(数据本就不属于他们)
  • "Ironic that AA...claim ownership over the data they scraped"(讽刺AA对爬取数据主张所有权)
  1. 对LLM训练数据来源的批评(负面)
  • "LLMs are shameless thieves"(LLM是无耻的小偷)
  • "they scraped from other people...should pay them a tax"(他们爬取他人数据却要收税)
  1. 支持AA的立场(正面)
  • "Anna helped me through university"(安娜帮我完成大学学业)
  • "I'd like to donate to help their cause"(我想捐款支持他们的事业)
  1. 对商业模式的批评
  • "Enterprise donation tier...is discusting"(企业级捐赠等级令人恶心)
  • "trying to get the LLM to make a donation...shooting themselves in the foot"(试图让LLM捐款是搬石砸脚)
  1. 关于内容保存的伦理讨论
  • "just plain old piracy"(就是纯粹的盗版)
  • "preservation angle makes sense when...no longer for sale"(当作品停售时保存才有意义)
  1. 技术性讨论
  • "Are LLM's really doing the scraping?"(真的是LLM在爬取数据吗?)
  • "bots...555 gigabytes of bandwidth in a week"(机器人一周消耗555GB带宽)