文章摘要
文章介绍了团队在旧金山建立存储集群以存放9000万小时视频数据,用于模型预训练。相比文本数据,视频存储需求高出500倍。通过自建存储而非使用AWS,年成本从1200万美元降至35.4万美元。由于训练数据可容忍部分损坏,团队无需云服务的高可靠性保障,从而大幅降低成本。
文章总结
标题:构建30PB硬盘存储集群:为预训练模型打造数据堆栈
核心内容概述:
我们团队在旧金山市区建立了一个存储集群,用于存放9000万小时的视频数据,以支持计算机应用预训练模型的开发。相比LLaMa-405B等文本大模型仅需约60TB训练数据,视频数据需要500倍的存储空间(30PB)。通过选择本地数据中心而非AWS云服务,我们将年存储成本从1200万美元大幅降至35.4万美元(含折旧),节省近40倍成本。
关键决策背景:
- 数据特性优势:训练数据具有可替代性,允许5%的数据丢失而不影响模型效果,因此无需云服务的高可靠性保障(如AWS的13个9可靠性标准)。
- 成本结构分析:云存储定价普遍高于实际成本,而我们的数据规模使自建方案更具经济性。参考互联网档案馆的经验,自建方案成本效益高出10倍。
成本对比(月均):
| 方案 | 成本 | 单位成本 | |---------------|------------|------------| | AWS | 113万美元 | 38美元/TB | | Cloudflare R2 | 27万美元 | 10美元/TB | | 自建数据中心 | 2.95万美元 | 1美元/TB |
实施细节:
- 硬件配置:2400块12TB企业级硬盘(75% SATA/25% SAS)、100个NetApp DS4246机箱、10台二手Intel服务器,总一次性投入42.65万美元。
- 网络架构:100Gbps专线(Zayo提供),月费7500美元;电力与机柜空间月耗1万美元。
- 极简软件方案:200行Rust代码实现数据写入逻辑,nginx+SQLite构建读取和元数据系统,放弃Ceph/MinIO等复杂方案。
经验总结:
- 成功要素:本地选址(距办公室仅两个街区)便于调试;电缆管理规范节省后期排障时间;硬件采购通过供应商批量议价。
- 改进空间:应选用顶部装载机架减少硬盘安装工作量;避免菊花链连接以提升读写速度;网络设备需严格品牌兼容性。
- 密度优化建议:采用90盘位SuperMicro服务器可减少5倍机架数量,同时提升CPU算力密度。
可复现方案:
- 存储基础:每3PB存储需1个42U机柜,配备24盘位机箱和2.4万转硬盘(推荐SAS接口)。
- 网络核心:二手Arista 100G交换机(1-2千美元),每计算节点配置3块Broadcom HBA卡实现直连。
- 调试工具:必备带显示器的调试车,建议部署IPMI远程管理系统。
该项目使我们在视频数据赛道上能以极低成本对标资本雄厚的顶级实验室。若读者基于此方案构建类似系统,欢迎通过contact@si.inc与我们交流优化建议。
(注:原文中关于团队招聘、技术细节讨论等非核心内容已精简,保留核心成本分析、架构决策和可复现方法论)
评论总结
以下是评论内容的总结:
正面评价
赞赏技术细节和过程分享
- "great write up, really appreciate the explanations / showing the process" (ClaireBookworm)
- "Nice writeup. All of the technical detail is great!" (jonas21)
肯定成本效益和创业精神
- "Shows how crazy cheap on prem can be. tips hat" (mschuster91)
- "This is true hacking and startup cost awareness." (RagnarD)
认可实践意义
- "thanks for building this muscle!" (jimmytucson)
- "damn this is cool as hell." (huxley_marvit)
质疑与担忧
数据冗余与可靠性问题
- "Is it correct that you have zero data redundancy?" (OutOfHere)
- "Used Disks, No DR, not exactly a real shoot out." (miniman1337)
硬件故障率与维护成本
- "$125/disk, 12k/mo depreciation cost... ~100 disks/mo or 1200/yr" (zparky)
- "No mention of disk failure rates?" (g413n)
网络与训练瓶颈
- "Aren’t you going to end up totally bottlenecked during pretraining?" (boulos)
- "So how do they get this data to the GPUs now...?" (nharada)
隐藏成本(如人力)
- "The biggest part... is the employee salaries." (ttfvjktesd)
- "estimate on the maintenance cost in person-hours/month?" (huxley_marvit)
其他讨论
数据来源与规模
- "But where do you get 90 million hours worth of video data?" (not--felix)
- "And how much did the training data cost?" (miltonlost)
硬件选择与优化建议
- "I wonder if they’ll go with 'toploaders'... later." (pronoiac)
- "IPMI is great and all, but I still prefer serial ports..." (synack)
幽默与个人体验
- "how long do you think it’ll be before you fill all of it..." (leejaeho)
- "Had the pleasure of helping rack drives!" (archmaster)
总结:评论普遍认可项目的成本效益和技术透明度,但对其可靠性、维护成本和网络瓶颈提出质疑,同时围绕数据规模、硬件选择等展开讨论。