文章摘要
文章讨论了在GitHub上的一个基准测试框架,涉及桌面主板和四节点集群的性能评估。该问题由geerlingguy提出,旨在通过基准测试优化代码和系统性能。
文章总结
文章主要内容:
本文详细介绍了在Framework Desktop主板上进行的基准测试,特别是针对AMD Ryzen AI Max+ 395和Radeon 8090S的硬件配置。测试包括单节点和四节点集群的性能评估,主要关注CPU、GPU、磁盘和网络等方面的表现。
单节点配置(128 GB内存): - 使用2.5 Gbps以太网进行初始测试。 - 后续升级到5 Gbps网络,并使用NICGIGA交换机进行连接。 - 测试了Thunderbolt节点间连接,但仅能通过TB4接口实现10 Gbps的传输速度。
四节点集群配置(512 GB内存): - 使用Vulkan后端进行测试,重点关注Llama和DeepSeek模型的性能。 - 测试了不同模型在不同配置下的表现,包括Llama 3.2 3B、Llama 3.1 70B、DeepSeek R1 1.5B等。 - 测试结果显示,使用Vulkan后端的性能优于ROCm,尤其是在处理较大模型时。
测试结果: - Llama 3.2 3B模型在Vulkan后端下的平均评估速率为45.36 tokens/s。 - DeepSeek R1 1.5B模型在Vulkan后端下的平均评估速率为85.38 tokens/s。 - 在四节点集群中,Llama 3.1 70B模型的性能有所提升,尤其是在使用5 Gbps网络时。
其他测试: - 尝试使用ROCm后端进行测试,发现其在处理大模型时存在内存分配问题。 - 测试了OpenAI新发布的gpt-oss模型,发现其性能与Vulkan后端相当。
结论: - 使用Vulkan后端在处理大模型时表现更佳,尤其是在四节点集群中。 - ROCm后端在处理大模型时存在内存分配问题,性能不如Vulkan。 - 未来将继续优化集群配置,以进一步提升性能。
相关链接: - I clustered four Framework Mainboards to test huge LLMs - sbc-reviews: Framework Desktop - Beowulf AI Cluster
评论总结
评论内容主要围绕AI Max+ 395的性能、适用场景及与其他产品的比较展开,观点多样且各有侧重。
性能与适用性:
- jeffbee认为AI Max+ 395因低功耗设计在性能上全面落后于9950X,适合ML用户,但通用工作负载用户可能更倾向于选择Threadripper。
- 引用:“AI Max+ 395 loses across the board, by large margins.”
- 引用:“these really are niche products for ML users only.”
- reissbaker则对ROCm的表现表示惊喜,认为其在LLM工作负载和适度游戏方面性价比较高。
- 引用:“for the price these aren’t bad for LLM workloads and some moderate gaming.”
- jeffbee认为AI Max+ 395因低功耗设计在性能上全面落后于9950X,适合ML用户,但通用工作负载用户可能更倾向于选择Threadripper。
与其他产品的比较:
- mhitza通过基准测试比较了AI Max+ 395与RTX 4000 SFF Ada的性能,认为前者在大多数测试中快2.5-3倍,但在tg128测试中差异不大。
- 引用:“ballpark it between 2.5-3x faster than the desktop.”
- 引用:“the difference is ‘minimal’ (but I didn’t do the math).”
- mhitza通过基准测试比较了AI Max+ 395与RTX 4000 SFF Ada的性能,认为前者在大多数测试中快2.5-3倍,但在tg128测试中差异不大。
用户选择与建议:
- iamtheworstdev询问是否应选择Nvidia 5080 GPU或Framework AMD桌面来运行本地LLM,反映了用户在选择硬件时的困惑。
- 引用:“should I find an Nvidia 5080 GPU for my current desktop or is it worth trying one of these Framework AMD desktops?”
- Havoc建议jeffbee查看distributed-llama项目,以利用集群资源。
- 引用:“check out the distributed-llama project...you should be able to distribute over entire cluster.”
- iamtheworstdev询问是否应选择Nvidia 5080 GPU或Framework AMD桌面来运行本地LLM,反映了用户在选择硬件时的困惑。
总结与期待:
- jvanderbot请求总结评论,指出虽然结果不一,但评论普遍认为AI Max+ 395在家用设置中表现良好。
- 引用:“comments suggest very good performance relative to other at-home setups.”
- jvanderbot请求总结评论,指出虽然结果不一,但评论普遍认为AI Max+ 395在家用设置中表现良好。
总体而言,评论中对AI Max+ 395的评价褒贬不一,既有对其性能的质疑,也有对其在特定场景下性价比的认可。用户在选择时需根据自身需求权衡。