文章摘要
安娜档案馆备份了Spotify的音乐元数据和文件,创建了首个完全开放的"音乐保存档案"。该档案包含2.56亿首曲目和1.86亿个独特ISRC码的元数据库,以及8600万音乐文件,覆盖约99.6%的收听量,以约300TB的种子文件形式按流行度分组发布。虽然安娜档案馆主要保存书籍和论文等文本资料,但这次抓住机会扩展到了音乐领域,以履行保存人类知识和文化的使命。
文章总结
备份Spotify音乐库:全球首个开放式音乐保存计划
安娜档案馆团队近日宣布完成了对Spotify音乐库的大规模备份工作,创建了全球首个完全开放的音乐保存档案库。该项目包含约300TB的数据,通过种子文件分发,按音乐流行度分组。
项目亮点:
数据规模:
- 收录2.56亿首曲目的元数据(覆盖99.9%的曲目)
- 保存8600万首音乐文件(约99.6%的播放量)
- 包含1.86亿个唯一ISRC编码(远超MusicBrainz的500万)
技术细节:
- 流行度>0的曲目:保留原始160kbit/s OGG Vorbis格式
- 流行度=0的曲目:转码为75kbit/s OGG Opus格式
- 数据截止至2025年7月
开放特性:
- 任何拥有足够存储空间的人都可以轻松镜像
- 采用安娜档案馆容器格式(AAC)分发
现有音乐保存的三大问题:
- 过度聚焦热门艺术家
- 过度追求最高音质(如FLAC格式)
- 缺乏权威的全音乐目录
数据发布计划:
- [X] 元数据(2025年12月)
- [ ] 音乐文件(按流行度顺序发布)
- [ ] 附加文件元数据
- [ ] 专辑封面
- [ ] 原始文件重建补丁
数据探索发现:
- 70%的曲目几乎无人收听(播放量<1000次)
- 前1万首热门歌曲的流行度在70-100之间
- 曲目时长呈现明显的整分钟峰值(2:00、3:00、4:00等)
- 近年新增音乐中可能包含大量AI生成内容
如何参与:
- 向安娜档案馆捐款
- 帮助做种(即使只做种少量文件也有帮助)
团队表示,这个项目旨在保护人类音乐遗产免受自然灾害、战争、预算削减等威胁。虽然安娜档案馆通常专注于文本保存,但这次音乐保存项目被视为保护人类文化的延伸。
(注:本文保留了技术细节和关键数据,删减了部分SQL查询示例和重复性统计图表描述)
评论总结
以下是评论内容的总结:
1. 版权合法性争议
- 质疑行为的合法性:"How legal is this with regards to copyright laws?" (lelouch9099)
- 批评盗版行为:"Stealing from tens of thousands of artists... is scummy" (basisword)
2. 技术成就与规模
- 赞赏技术突破:"this is technically very impressive" (syntaxing)
- 惊叹数据规模:"Anna's rip includes roughly 186 million unique records" (Etheryte)
3. 对AI研究的价值
- 看好开源模型发展:"a godsend for researchers working on music classification" (crazygringo)
- 预测AI发展影响:"kickstarts open source music generative AI from China" (syntaxing)
4. 实际使用问题
- 质疑实用性:"trying to locate individual tracks... sounds horrible" (crazygringo)
- 存储与下载困难:"how the fuck do I download that?" (krick)
5. 文化保存意义
- 支持媒体保存:"intentionally destroying creative works is evil" (bob1029)
- 质疑音源质量:"scraping Spotify... end up with low quality files" (ikamm)
6. 对Spotify的批评
- 不满推荐算法:"absolutely terrible for recommendations" (vlaaad)
- 公司数据安全:"largest proprietary datasets ever publicized" (827a)
7. 法律风险担忧
- 担心运营者下场:"how deep the hole they're gonna put whoever runs this" (throwaway613745)
- 自我审查必要性:"can't publicly admit what dataset you used" (crazygringo)
关键引用保留: 1. "Stealing from artists and calling it preservation is scummy" (basisword) "盗取数万艺术家的作品还美其名曰'保存'很卑鄙" 2. "This will be a godsend for music AI researchers" (crazygringo) "对音乐AI研究者来说简直是天赐之物"