Hacker News 中文摘要

文章摘要

文章讨论了在GitHub上的一个基准测试框架，涉及桌面主板和四节点集群的性能评估。该问题由geerlingguy提出，旨在通过基准测试优化代码和系统性能。

文章总结

文章主要内容：

本文详细介绍了在Framework Desktop主板上进行的基准测试，特别是针对AMD Ryzen AI Max+ 395和Radeon 8090S的硬件配置。测试包括单节点和四节点集群的性能评估，主要关注CPU、GPU、磁盘和网络等方面的表现。

单节点配置（128 GB内存）： - 使用2.5 Gbps以太网进行初始测试。 - 后续升级到5 Gbps网络，并使用NICGIGA交换机进行连接。 - 测试了Thunderbolt节点间连接，但仅能通过TB4接口实现10 Gbps的传输速度。

四节点集群配置（512 GB内存）： - 使用Vulkan后端进行测试，重点关注Llama和DeepSeek模型的性能。 - 测试了不同模型在不同配置下的表现，包括Llama 3.2 3B、Llama 3.1 70B、DeepSeek R1 1.5B等。 - 测试结果显示，使用Vulkan后端的性能优于ROCm，尤其是在处理较大模型时。

测试结果： - Llama 3.2 3B模型在Vulkan后端下的平均评估速率为45.36 tokens/s。 - DeepSeek R1 1.5B模型在Vulkan后端下的平均评估速率为85.38 tokens/s。 - 在四节点集群中，Llama 3.1 70B模型的性能有所提升，尤其是在使用5 Gbps网络时。

其他测试： - 尝试使用ROCm后端进行测试，发现其在处理大模型时存在内存分配问题。 - 测试了OpenAI新发布的gpt-oss模型，发现其性能与Vulkan后端相当。

结论： - 使用Vulkan后端在处理大模型时表现更佳，尤其是在四节点集群中。 - ROCm后端在处理大模型时存在内存分配问题，性能不如Vulkan。 - 未来将继续优化集群配置，以进一步提升性能。

评论总结

评论内容主要围绕AI Max+ 395的性能、适用场景及与其他产品的比较展开，观点多样且各有侧重。

性能与适用性：
- jeffbee认为AI Max+ 395因低功耗设计在性能上全面落后于9950X，适合ML用户，但通用工作负载用户可能更倾向于选择Threadripper。
  - 引用：“AI Max+ 395 loses across the board, by large margins.”
  - 引用：“these really are niche products for ML users only.”
- reissbaker则对ROCm的表现表示惊喜，认为其在LLM工作负载和适度游戏方面性价比较高。
  - 引用：“for the price these aren’t bad for LLM workloads and some moderate gaming.”
与其他产品的比较：
- mhitza通过基准测试比较了AI Max+ 395与RTX 4000 SFF Ada的性能，认为前者在大多数测试中快2.5-3倍，但在tg128测试中差异不大。
  - 引用：“ballpark it between 2.5-3x faster than the desktop.”
  - 引用：“the difference is ‘minimal’ (but I didn’t do the math).”
用户选择与建议：
- iamtheworstdev询问是否应选择Nvidia 5080 GPU或Framework AMD桌面来运行本地LLM，反映了用户在选择硬件时的困惑。
  - 引用：“should I find an Nvidia 5080 GPU for my current desktop or is it worth trying one of these Framework AMD desktops?”
- Havoc建议jeffbee查看distributed-llama项目，以利用集群资源。
  - 引用：“check out the distributed-llama project...you should be able to distribute over entire cluster.”
总结与期待：
- jvanderbot请求总结评论，指出虽然结果不一，但评论普遍认为AI Max+ 395在家用设置中表现良好。
  - 引用：“comments suggest very good performance relative to other at-home setups.”

总体而言，评论中对AI Max+ 395的评价褒贬不一，既有对其性能的质疑，也有对其在特定场景下性价比的认可。用户在选择时需根据自身需求权衡。

基准测试框架：桌面主板与四节点集群 -- Benchmark Framework Desktop Mainboard and 4-node cluster

文章摘要

文章总结

评论总结