文章摘要
苹果为作者提供了Mac Studio集群,用于测试Thunderbolt 5上的RDMA技术,该技术能让多台Mac共享内存,形成1.5TB的统一内存池,大幅提升AI模型等高性能计算任务的速度。这套价值近4万美元的设备由苹果出借,配合开源工具Exo 1.0进行测试。这是自2000年代Xserve服务器后,苹果再次涉足高性能计算领域。
文章总结
苹果Mac Studio集群测试:Thunderbolt 5上的RDMA技术
核心内容概述
作者Jeff Geerling获得苹果提供的四台Mac Studio(总内存1.5TB,成本近4万美元),用于测试macOS 26.2新增的Thunderbolt 5 RDMA(远程直接内存访问)功能。通过开源工具Exo 1.0,这些Mac可共享内存池,显著提升大模型AI运算效率。
关键细节
硬件配置
- 底层两台:512GB统一内存+32核CPU,单价11,699美元
- 顶层两台:256GB内存,单价8,099美元
- 对比竞品:NVIDIA DGX Spark和AMD AI Max+ 395系统内存仅128GB
性能表现
- RDMA优势:内存访问延迟从300μs降至<50μs
- 基准测试:
- Geekbench 6单核/多核领先
- FP64浮点性能突破1 Tflop(竞品一半功耗下实现双倍性能)
- 70B参数Llama模型推理速度达30 token/秒
集群管理挑战
- macOS限制:系统升级需GUI操作,无法通过SSH完成
- 线缆问题:Thunderbolt 5需全互联(无交换机支持),插拔稳定性差
- 稳定性问题:HPL测试中TCP over Thunderbolt导致崩溃
RDMA实战应用
- 需进入恢复模式执行
rdma_ctl enable激活 - Exo 1.0支持跨节点运行万亿参数模型(如Kimi K2 Thinking)
- 四节点集群FP64性能达3.7 Tflops(单节点1.3 Tflops)
- 需进入恢复模式执行
遗留问题与展望
- 硬件限制:Thunderbolt 5带宽制约(理想方案应为QSFP端口)
- 软件生态:Llama.cpp等工具尚未适配RDMA
- 未来可能:苹果或推出M5 Ultra芯片、复兴Mac Pro扩展PCIe带宽
结语
尽管存在管理复杂性和网络瓶颈,Mac Studio集群在本地AI运算和能效上展现独特优势。若苹果进一步开放硬件设计,或将成为高性能计算的新选择。
(注:原文中关于个人观点、历史回顾及非核心测试细节已精简)
评论总结
以下是评论内容的总结:
对M5 Max/Ultra设备的期待
- 希望采用更高速的QSFP链接(200Gb/s, 400Gb/s)替代TB5
- 需要更强的神经加速器,接近3090/4090的性能
- 希望Mac Studio顶配版提供1TB统一内存和1TB/s带宽
- 支持超频,即使功耗增加至600W也可接受
关键引用: - "I’d rather invest in more RAM than more devices"
- "I’m TOTALLY okay with it consuming +600W energy"
对AI应用的看法
- 本地AI模型有一定用途,但需保持批判性思维
- 认为当前AI应用(如问答)未充分发挥硬件潜力,应探索视频生成、批量图像生成等
关键引用: - "don’t ever let AI replace your ability to think critically!"
- "Video generation: CogVideoX at full resolution, longer clips"
对RDMA性能的疑问
- 从1节点扩展到2节点,推理速度仅提升32%,低于预期
- 4节点下速度仍不足512GB节点的50%,质疑内存约束的影响
关键引用: - "I would have expected...increased inference speed by more than 32%"
- "With no constraint on RAM...less than 50% faster"
对苹果策略的讨论
- 质疑苹果为何优先开发RDMA等集群功能,却忽略远程管理等基础需求
- 推测苹果可能有未公开的M系列服务器产品
关键引用: - "ignoring basic qol stuff like remote management"
- "Makes one wonder what apple uses for their own servers"
其他观点
- 对Jeff工作的赞赏("Your good vibes are deeply appreciated")
- 对M5发布时机的猜测(是否为了延长M4/M3的需求)
- 对RDMA扩展设备的设想(外接内存盒)
总结保持了对技术期待、AI应用、性能质疑和苹果策略的多角度平衡,引用均来自原始评论的关键语句。