文章摘要
作者花费约3000美元构建了一个由10个Raspberry Pi CM5模块组成的AI集群,但对其价值产生怀疑。尽管这是其构建的最大Pi集群,拥有160GB内存,但在性能上无法与价格更高的4节点Framework Desktop集群相比。作者质疑Pi集群在每千兆浮点运算成本或效率上是否仍有优势,并对另一款更小更便宜的Xerxes Pi表示兴趣,尽管其交付时间不确定。
文章总结
标题:我后悔搭建了这个价值3000美元的树莓派AI集群
主要内容:
作者在2023年4月订购了10个计算刀片,直到2025年9月才收到。在此期间,树莓派已将CM4升级为CM5,因此作者又订购了10个16GB的CM5 Lite模块,组成了一个拥有160GB内存的刀片集群。这是作者搭建的最大规模的树莓派集群,总花费约3000美元。
尽管这个集群在性能上无法与价值8000美元的4节点Framework桌面集群相媲美,但作者希望通过测试其在每千兆浮点运算(Gflops)成本、效率和计算密度方面的表现来评估其价值。
在搭建过程中,作者经历了多次重建,主要问题包括NVMe SSD的兼容性、CM5在高负载下的节流问题以及散热器的安装问题。最终,作者通过更换SSD、安装散热器等措施,使集群在满负荷运行时达到了325 Gflops的性能,比单个8GB CM5提升了10倍。
在AI测试中,尽管集群拥有160GB内存,但由于树莓派5的iGPU无法通过Vulkan加速AI运算,导致AI推理只能依赖CPU,性能表现较差。例如,运行Llama 3.2:3B模型时,单个树莓派每秒只能生成6个token,远低于Intel N100和Framework桌面的表现。而在运行更大的Llama 3.3:70B模型时,集群的表现更加糟糕,每秒仅能生成0.28个token,比Framework集群慢了25倍。
作者还尝试了Exo和distributed-llama等分布式AI框架,但效果依然不理想。最终,作者得出结论:这个树莓派集群在性能上并不强大,且性价比不高。尽管它在能效、噪音和体积方面表现优异,但对于大多数用户来说,这并不是一个理想的选择。
适用场景:
- 学习与研究:对于想要了解集群搭建和AI推理的用户,这个集群可以作为一个学习工具。
- 持续集成(CI)任务:在需要大量独立节点的CI环境中,这个集群可能是一个合适的选择。
- 高安全性边缘部署:在某些不允许在单一服务器上运行多个任务的高安全性环境中,这个集群可能具有应用价值。
总结:
尽管这个树莓派AI集群在某些特定场景下可能有用,但对于大多数用户来说,它并不是一个高性价比的选择。作者建议,除非你特别需要高密度、低功耗的独立节点,否则不建议投资这样的集群。
评论总结
评论主要围绕Raspberry Pi集群的成本效益、实用性和学习价值展开,观点多样,既有批评也有认可。
1. 成本效益低,不适合高性能计算 - 多位评论者认为Raspberry Pi集群在成本效益上表现不佳,不适合用于高性能计算。例如,fidotron指出:“如果Pi集群在性能上具有成本竞争力,数据中心早就满布它们了。” (If Pi Clusters were actually cost competitive for performance there would be data centres full of them.) - lumost进一步强调:“除非你能保持计算资源在70%的平均利用率下运行5年,否则购买硬件永远不会比租用更省钱。” (Unless you can keep your compute at 70% average utilization for 5 years - you will never save money purchasing your hardware compared to renting it.)
2. 作为学习工具和娱乐项目 - 尽管成本效益低,但许多评论者认为Raspberry Pi集群作为学习工具和娱乐项目仍有价值。dbg31415表示:“这是一个学习经验吗?更重要的是,你玩得开心吗?哪怕只是一点点?” (Was it a learning experience? More importantly, did you have some fun? Just a little? (=) - aprdm也提到:“Jeff的Ansible角色和集群构建非常有趣,我应该找时间玩玩Pi集群和Ansible,听起来很有趣。” (Love Jeff's ansible roles/playbooks and his cluster building! Quite interesting, I should reserve some time to play with a Pi cluster and ansible, sounds fun.)
3. 技术局限性和替代方案 - 一些评论者指出了Raspberry Pi集群的技术局限性,并提出了替代方案。nromiun建议:“如果你想要32位并行性能,只需购买一些消费级GPU并连接起来。如果需要64位,购买一些专业级GPU如RTX 6000 Pro即可。” (If you want 32bit parallel performance just buy some consumer GPUs and hook them up. If you need 64bit buy some prosumer GPUs like the RTX 6000 Pro and you are done.) - Aurornis则认为:“如果你的目标是玩转或学习Linux机器集群,更经济的方式是购买一台桌面消费级CPU,安装虚拟机管理程序,并创建大量虚拟机。” (If your goal is to play with or learn on a cluster of Linux machines, the cost effective way to do it is to buy a desktop consumer CPU, install a hypervisor, and create a lot of VMs.)
4. 对作者的批评和质疑 - 部分评论者对作者的项目提出了批评和质疑。imtringued调侃道:“哦,Jeff,你忘了为你的AI集群购买GPU。这样的新手错误。” (Oh come on Jeff, you forgot to buy GPUs for your AI cluster. Such a beginner mistake.) - bearjaws则对比了其他设备:“我是唯一一个看着Pi集群和Framework PC,并想知道它们为什么都比MacBook Pro M4 Max更慢且更不经济的人吗?” (Am I the only one who looks at both the Pi Cluster and the Framework PC and wonders how they are both slower and less cost effective than a MacBook Pro M4 Max?)
总结来看,评论者普遍认为Raspberry Pi集群在成本效益和性能上不具优势,但作为学习工具和娱乐项目仍有其价值。同时,许多评论者提出了更经济、更高效的技术替代方案。