Hacker News 中文摘要

RSS订阅

别租云服务,直接拥有 -- Don't rent the cloud, own instead

文章摘要

文章介绍了comma公司自建数据中心的原因和优势。他们选择不依赖云服务,而是自行运营数据中心以掌握自主权,避免高昂的云成本和锁定风险。自建数据中心不仅能控制命运,还能培养解决实际工程问题的能力,而非仅学习特定公司的API和计费系统。

文章总结

标题:打造价值500万美元的数据中心

来源:https://blog.comma.ai/datacenter/
发布时间:2026年2月3日

如今,拥有自己的数据中心似乎需要巨额资金或政治资源。但在comma.ai,我们多年来一直自主运营数据中心,承载所有模型训练、指标分析和数据存储。本文将分享我们的实践经验,希望能激发你建设自己的数据中心。

数据中心侧视图

为何不选择云服务?
依赖云计算意味着将命运交予服务商。云服务商往往设置高昂的退出成本,容易陷入成本困境。自主运营数据中心不仅能掌控命运,还能带来以下优势: - 培养解决实际工程问题的能力 - 激励工程师优化代码而非依赖算力堆砌 - 长期成本优势:我们投入约500万美元,相比云方案节省了2000万美元以上

核心建设要素
我们的数据中心由少量工程师维护,主要包含以下系统:

  1. 电力系统
  • 峰值功耗450kW
  • 2025年电费支出54万美元(圣地亚哥电价为全球均价3倍)
  • 计划未来实现自主发电

电力使用情况

  1. 冷却系统
  • 采用室外空气冷却(仅需数十kW)
  • 双48英寸进/排风扇系统
  • 智能温湿度控制:通过PID算法调节风扇转速

空气冷却系统

  1. 硬件配置
  • 计算单元:75台自研TinyBox Pro(共600块GPU)
  • 存储系统:4PB全SSD存储阵列(Dell R630/R730)
  • 网络:3台100Gbps交换机+Infiniband训练专用网络

断路器面板

  1. 软件架构
  • 分布式存储:自研minikeyvalue系统(支持1TB/s读取)
  • 任务调度:Slurm+自研miniray系统
  • 训练框架:基于PyTorch的分布式训练
  • 代码管理:NFS共享的monorepo仓库

存储节点

系统协同案例
自动驾驶模型的在策略训练需要协调所有子系统。以下命令即可触发包含数据生成、模型训练的全流程:

./training/train.sh N=4 partition=tbox2 trainer=mlsimdriving...

训练架构图

加入我们
如果这些技术让你兴奋,欢迎加入comma.ai或建设自己的数据中心!

Harald Schäfer
comma.ai首席技术官

评论总结

以下是评论内容的总结,平衡呈现不同观点并保留关键引用:

  1. 自建数据中心的优缺点

    • 优点:长期成本更低,适合大规模企业;是宝贵的学习经验
      • "At scale (like comma.ai), it's probably cheaper." (jillesvangurp)
      • "It was a great learning experience for me." (cgsmith)
    • 缺点:前期投入高,风险大,需额外人力维护
      • "really high upfront capital expenditure and risk" (jillesvangurp)
      • "You need to service it, monitor it, replace it when it fails" (jillesvangurp)
  2. 云服务的优势

    • 降低风险,减少运维负担
      • "The reason companies don’t go with on premises... is because of the risk" (simianwords)
      • "Cloud relieves me from the stuff of nightmares" (kaon_2)
    • 适合中小型企业
      • "For smaller companies... hosting cost usually is a rounding error on the staffing cost" (jillesvangurp)
  3. 混合解决方案

    • 裸机租赁和托管数据中心是折中方案
      • "Renting bare metal... can be quite nice" (jillesvangurp)
      • "Another thing between is colocation" (speedgoose)
    • 研究机构的高性能计算资源也可考虑
      • "research HPCs may be worth considering" (speedgoose)
  4. 风险担忧

    • 灾难恢复和数据安全是主要顾虑
      • "contingency plan for any kind of disaster" (sys42590)
      • "What happens if your administrator credentials get leaked?" (kaon_2)
    • 湿度等环境因素影响硬件
      • "Low humidity causes static electricity" (hbogert)
  5. 其他观点

    • 对comma.ai的肯定
      • "This was one of the coolest job ads" (kavalg)
      • "I like Hotz’s style: simply and straightforwardly attempting the difficult" (intalentive)
    • 成本比较
      • "it was always three-years to break-even" (comrade1234)