Hacker News 中文摘要

RSS订阅

Mac Studio配备1.5TB显存——基于雷电5的RDMA技术 -- 1.5 TB of VRAM on Mac Studio – RDMA over Thunderbolt 5

文章摘要

苹果为作者提供了Mac Studio集群,用于测试Thunderbolt 5上的RDMA技术,该技术能让多台Mac共享内存,形成1.5TB的统一内存池,大幅提升AI模型等高性能计算任务的速度。这套价值近4万美元的设备由苹果出借,配合开源工具Exo 1.0进行测试。这是自2000年代Xserve服务器后,苹果再次涉足高性能计算领域。

文章总结

苹果Mac Studio集群测试:Thunderbolt 5上的RDMA技术

核心内容概述
作者Jeff Geerling获得苹果提供的四台Mac Studio(总内存1.5TB,成本近4万美元),用于测试macOS 26.2新增的Thunderbolt 5 RDMA(远程直接内存访问)功能。通过开源工具Exo 1.0,这些Mac可共享内存池,显著提升大模型AI运算效率。


关键细节

  1. 硬件配置

    • 底层两台:512GB统一内存+32核CPU,单价11,699美元
    • 顶层两台:256GB内存,单价8,099美元
    • 对比竞品:NVIDIA DGX Spark和AMD AI Max+ 395系统内存仅128GB
  2. 性能表现

    • RDMA优势:内存访问延迟从300μs降至<50μs
    • 基准测试
      • Geekbench 6单核/多核领先
      • FP64浮点性能突破1 Tflop(竞品一半功耗下实现双倍性能)
      • 70B参数Llama模型推理速度达30 token/秒
  3. 集群管理挑战

    • macOS限制:系统升级需GUI操作,无法通过SSH完成
    • 线缆问题:Thunderbolt 5需全互联(无交换机支持),插拔稳定性差
    • 稳定性问题:HPL测试中TCP over Thunderbolt导致崩溃
  4. RDMA实战应用

    • 需进入恢复模式执行rdma_ctl enable激活
    • Exo 1.0支持跨节点运行万亿参数模型(如Kimi K2 Thinking)
    • 四节点集群FP64性能达3.7 Tflops(单节点1.3 Tflops)

遗留问题与展望

  • 硬件限制:Thunderbolt 5带宽制约(理想方案应为QSFP端口)
  • 软件生态:Llama.cpp等工具尚未适配RDMA
  • 未来可能:苹果或推出M5 Ultra芯片、复兴Mac Pro扩展PCIe带宽

结语
尽管存在管理复杂性和网络瓶颈,Mac Studio集群在本地AI运算和能效上展现独特优势。若苹果进一步开放硬件设计,或将成为高性能计算的新选择。

(注:原文中关于个人观点、历史回顾及非核心测试细节已精简)

评论总结

以下是评论内容的总结:

  1. 对M5 Max/Ultra设备的期待

    • 希望采用更高速的QSFP链接(200Gb/s, 400Gb/s)替代TB5
    • 需要更强的神经加速器,接近3090/4090的性能
    • 希望Mac Studio顶配版提供1TB统一内存和1TB/s带宽
    • 支持超频,即使功耗增加至600W也可接受
      关键引用
    • "I’d rather invest in more RAM than more devices"
    • "I’m TOTALLY okay with it consuming +600W energy"
  2. 对AI应用的看法

    • 本地AI模型有一定用途,但需保持批判性思维
    • 认为当前AI应用(如问答)未充分发挥硬件潜力,应探索视频生成、批量图像生成等
      关键引用
    • "don’t ever let AI replace your ability to think critically!"
    • "Video generation: CogVideoX at full resolution, longer clips"
  3. 对RDMA性能的疑问

    • 从1节点扩展到2节点,推理速度仅提升32%,低于预期
    • 4节点下速度仍不足512GB节点的50%,质疑内存约束的影响
      关键引用
    • "I would have expected...increased inference speed by more than 32%"
    • "With no constraint on RAM...less than 50% faster"
  4. 对苹果策略的讨论

    • 质疑苹果为何优先开发RDMA等集群功能,却忽略远程管理等基础需求
    • 推测苹果可能有未公开的M系列服务器产品
      关键引用
    • "ignoring basic qol stuff like remote management"
    • "Makes one wonder what apple uses for their own servers"
  5. 其他观点

    • 对Jeff工作的赞赏("Your good vibes are deeply appreciated")
    • 对M5发布时机的猜测(是否为了延长M4/M3的需求)
    • 对RDMA扩展设备的设想(外接内存盒)

总结保持了对技术期待、AI应用、性能质疑和苹果策略的多角度平衡,引用均来自原始评论的关键语句。