Hacker News 中文摘要

RSS订阅

基准测试框架:桌面主板与四节点集群 -- Benchmark Framework Desktop Mainboard and 4-node cluster

文章摘要

文章讨论了在GitHub上的一个基准测试框架,涉及桌面主板和四节点集群的性能评估。该问题由geerlingguy提出,旨在通过基准测试优化代码和系统性能。

文章总结

文章主要内容:

本文详细介绍了在Framework Desktop主板上进行的基准测试,特别是针对AMD Ryzen AI Max+ 395和Radeon 8090S的硬件配置。测试包括单节点和四节点集群的性能评估,主要关注CPU、GPU、磁盘和网络等方面的表现。

单节点配置(128 GB内存): - 使用2.5 Gbps以太网进行初始测试。 - 后续升级到5 Gbps网络,并使用NICGIGA交换机进行连接。 - 测试了Thunderbolt节点间连接,但仅能通过TB4接口实现10 Gbps的传输速度。

四节点集群配置(512 GB内存): - 使用Vulkan后端进行测试,重点关注Llama和DeepSeek模型的性能。 - 测试了不同模型在不同配置下的表现,包括Llama 3.2 3B、Llama 3.1 70B、DeepSeek R1 1.5B等。 - 测试结果显示,使用Vulkan后端的性能优于ROCm,尤其是在处理较大模型时。

测试结果: - Llama 3.2 3B模型在Vulkan后端下的平均评估速率为45.36 tokens/s。 - DeepSeek R1 1.5B模型在Vulkan后端下的平均评估速率为85.38 tokens/s。 - 在四节点集群中,Llama 3.1 70B模型的性能有所提升,尤其是在使用5 Gbps网络时。

其他测试: - 尝试使用ROCm后端进行测试,发现其在处理大模型时存在内存分配问题。 - 测试了OpenAI新发布的gpt-oss模型,发现其性能与Vulkan后端相当。

结论: - 使用Vulkan后端在处理大模型时表现更佳,尤其是在四节点集群中。 - ROCm后端在处理大模型时存在内存分配问题,性能不如Vulkan。 - 未来将继续优化集群配置,以进一步提升性能。

相关链接: - I clustered four Framework Mainboards to test huge LLMs - sbc-reviews: Framework Desktop - Beowulf AI Cluster

评论总结

评论内容主要围绕AI Max+ 395的性能、适用场景及与其他产品的比较展开,观点多样且各有侧重。

  1. 性能与适用性

    • jeffbee认为AI Max+ 395因低功耗设计在性能上全面落后于9950X,适合ML用户,但通用工作负载用户可能更倾向于选择Threadripper。
      • 引用:“AI Max+ 395 loses across the board, by large margins.”
      • 引用:“these really are niche products for ML users only.”
    • reissbaker则对ROCm的表现表示惊喜,认为其在LLM工作负载和适度游戏方面性价比较高。
      • 引用:“for the price these aren’t bad for LLM workloads and some moderate gaming.”
  2. 与其他产品的比较

    • mhitza通过基准测试比较了AI Max+ 395与RTX 4000 SFF Ada的性能,认为前者在大多数测试中快2.5-3倍,但在tg128测试中差异不大。
      • 引用:“ballpark it between 2.5-3x faster than the desktop.”
      • 引用:“the difference is ‘minimal’ (but I didn’t do the math).”
  3. 用户选择与建议

    • iamtheworstdev询问是否应选择Nvidia 5080 GPU或Framework AMD桌面来运行本地LLM,反映了用户在选择硬件时的困惑。
      • 引用:“should I find an Nvidia 5080 GPU for my current desktop or is it worth trying one of these Framework AMD desktops?”
    • Havoc建议jeffbee查看distributed-llama项目,以利用集群资源。
      • 引用:“check out the distributed-llama project...you should be able to distribute over entire cluster.”
  4. 总结与期待

    • jvanderbot请求总结评论,指出虽然结果不一,但评论普遍认为AI Max+ 395在家用设置中表现良好。
      • 引用:“comments suggest very good performance relative to other at-home setups.”

总体而言,评论中对AI Max+ 395的评价褒贬不一,既有对其性能的质疑,也有对其在特定场景下性价比的认可。用户在选择时需根据自身需求权衡。