Hacker News 中文摘要

RSS订阅

谷歌的液冷技术 -- Google's Liquid Cooling

文章摘要

谷歌在2025年Hot Chips大会上展示了其数据中心级液冷技术,特别针对其机器学习加速器TPU。随着芯片功耗和发热量的增加,液冷技术在数据中心中扮演越来越重要的角色。谷歌指出,水的导热性是空气的约4000倍,成为应对当前AI热潮中冷却需求的有力解决方案。自2018年起,谷歌不断改进其液冷设计,持续推动技术进步。

文章总结

谷歌在Hot Chips 2025展示液冷技术

液冷技术对PC爱好者来说并不陌生,在企业计算领域也有悠久的历史。近年来,随着最新芯片的功耗和发热量不断增加,液冷技术在数据中心的应用日益广泛,尤其是在机器学习领域,对电力和冷却的需求尤为迫切。谷歌指出,水的导热性约为空气的4000倍,因此成为应对当前AI热潮中冷却需求的理想解决方案。在Hot Chips 2025大会上,谷歌的演讲重点介绍了其TPU(机器学习加速器)的数据中心级冷却技术。

谷歌自2018年开始探索液冷TPU,经过多次实验和迭代,逐步完善了冷却设计。目前,谷歌的液冷解决方案已扩展到数据中心规模,冷却回路跨越整个机架,而不仅限于单个服务器。每个机架配备六个冷却液分配单元(CDU),其功能类似于PC水冷系统中的散热器+水泵组合。CDU使用柔性软管和快速断开接头,便于维护并降低公差要求。一个CDU机架在五个CDU工作时即可提供足够的冷却能力,允许在不中断运行的情况下对其中一个单元进行维护。

CDU在冷却液和设施级供水之间进行热交换,两种液体不混合,CDU仅在两池液体之间传递热量。冷却液通过分配器流向TPU服务器,TPU芯片在回路中串联连接,这意味着部分芯片会接收到已经经过其他芯片的较热液体。冷却能力根据每个回路中最后一个芯片的需求进行预算。

谷歌采用分流式冷板设计,发现其性能优于传统的直通式配置。为了进一步优化冷却,谷歌借鉴了PC爱好者的经验,TPUv4采用了裸片设计,相比TPUv3的带盖设计,裸片冷却提供了更高的热传递效率。TPUv4的功耗比TPUv3高出1.6倍,因此需要这种设计。

除了散热,液冷技术还有助于降低冷却相关的电力消耗。谷歌发现,液冷泵的功耗不到风冷解决方案风扇功耗的5%。由于谷歌使用水对水热传递来散热,大部分冷却功率来自泵。PC爱好者通常使用液冷将热量从芯片转移到更适合风冷的位置,如散热器,因此无法完全发挥这一优势。

维护也是一个重要问题。PC爱好者熟悉水冷系统中的微生物生长和泄漏风险,数据中心规模的液冷系统同样面临这些挑战。两者都采用了一些缓解措施,如快速断开接头,但数据中心必须在不大幅降低计算能力的情况下解决这些问题。谷歌通过额外的CDU实现了零停机维护,并采取了泄漏测试、报警系统、定期维护和过滤等预防措施,确保大规模系统的可靠性。

总的来说,数据中心液冷技术的兴起与高端PC液冷技术有着有趣的交叉点。两者都因液冷的高效散热能力而采用这一技术,并面临类似的问题。但数据中心的解决方案在规模和可靠性要求上有所不同。在Hot Chips 2025的第一天,许多液冷硬件已经亮相,如Nvidia展示的GB300服务器,以及韩国公司Rebellions AI的液冷演示。随着数据中心冷却需求的持续增加,液冷技术将长期存在,尤其是在AI热潮的推动下。

评论总结

  1. 液体冷却技术的应用历史

    • 评论1和评论3指出,液体冷却技术并非新事物,OVH已使用多年,且大型机和超级计算机早在50年前就开始使用。
    • 引用:
      • "OVH has been using liquid cooling for many years." (OVH多年来一直使用液体冷却。)
      • "mainframes have been extensively water-cooled for over 50 years." (大型机广泛使用水冷已有50多年。)
  2. 液体冷却的物理原理

    • 评论2解释了液体冷却的物理原理,指出芯片串联时,出口水温必然高于入口水温,这与水的比热容有关。
    • 引用:
      • "water at the outlet must be 14°C hotter than water at the inlet." (出口水温必须比入口水温高14°C。)
      • "That’s true whether the water flows through the chips in series, or in parallel." (无论水是串联还是并联流过芯片,都是如此。)
  3. 液体冷却的经济性

    • 评论5探讨了液体冷却的经济性,提出可能是芯片成本上升、数据中心空间成本增加或布线距离影响效率的原因。
    • 引用:
      • "Is it because chips are getting more expensive?" (是因为芯片变得更贵了吗?)
      • "Or is data center footprint more expensive?" (还是因为数据中心空间成本更高?)
  4. 液体冷却的环境影响

    • 评论4提到AI可能浪费水资源,质疑液体冷却是否使用蒸发冷却方式消耗设施供水。
    • 引用:
      • "Is this one such setup, perhaps with the CDU using the facility’s water supply for evaporative cooling?" (这种设置是否使用设施供水进行蒸发冷却?)

总结:评论主要围绕液体冷却技术的应用历史、物理原理、经济性和环境影响展开,既有对其长期应用的肯定,也有对其成本和资源消耗的质疑。