文章摘要
文章指出,高性能GPU并不一定需要搭配大型PC主机,作者通过实验证明即使是树莓派这样的小型设备,也能通过有限的PCIe通道连接并使用高端显卡,虽然带宽受限但仍有实用价值。
文章总结
大显存GPU无需依赖大体积PC:树莓派5的另类性能实验
核心发现
PCIe带宽限制下的性能表现
树莓派5仅提供1条PCIe Gen 3通道(8 GT/s),远低于现代PC的16条PCIe Gen 5通道(512 GT/s)。但测试显示,在特定场景下,树莓派5的性能损失仅为2-5%,且能效显著优于PC平台。多GPU并行突破
通过Dolphin ICS的PCIe Gen 4外部交换器,用户mpsparrow成功在单台树莓派5上连接4块Nvidia RTX A5000显卡。运行Llama 3 70B模型时,生成速度达11.83 token/s,与Intel服务器(12 token/s)的差距不足2%。
硬件成本对比
| 树莓派eGPU方案 | Intel PC方案 | |---------------|-------------| | 总价$350-400 | 总价$1500-2000 | | 包含16GB树莓派CM5、eGPU扩展坞等 | 含Intel Core Ultra处理器、64GB DDR5内存等 | | 空闲功耗4-5W | 空闲功耗30W(未计入显卡) |
三大基准测试结果
媒体转码(Jellyfin)
- PC凭借PCIe Gen 4 SSD的2GB/s吞吐量完胜树莓派(300MB/s)
- 但树莓派在实时转码1080p/4K视频时表现流畅,满足家庭服务器需求
图形渲染(GravityMark)
- AMD RX 460在树莓派上的能效比超PC平台
- 高端显卡受限于驱动支持,目前仅能在PC端测试
AI推理(LLM)
- Nvidia RTX 3060:树莓派性能接近PC,且能效高出15-20%
- RTX 4090:Qwen3 30B模型下树莓派仅落后PC 5%
- 多GPU测试显示,异构显卡无法共享显存,性能提升有限
技术突破点
- PCIe直连技术:通过禁用ACS(访问控制服务),多块Nvidia显卡可实现显存池化
- Arm驱动优化:Nvidia对Arm平台的长期支持使其在AI场景表现突出
实验意义
作者Jeff Geerling强调,该项目旨在探索树莓派的硬件极限与PCIe技术边界。虽然PC在绝对性能上占优,但树莓派在能效比和特定应用场景(如低负载GPU计算)展现出独特价值。该实验也为边缘计算设备的高性能扩展提供了新思路。
特别鸣谢:Micro Center提供AMD Radeon AI Pro R9700测试样卡,Dolphin ICS提供PCIe交换设备支持。
(全文保留原始技术细节与测试数据,删减了重复的基准测试描述和硬件采购琐事)
评论总结
以下是评论内容的总结:
低成本计算设备的可行性
- 有评论认为使用低功耗、低成本的迷你PC(如300美元的设备)作为日常驱动是可行的,仅在需要时远程连接高性能工作站(评论2)。
- 另一评论提到,对于本地运行LLM,只需一个性能良好的GPU,而其他计算需求可以简化(评论3)。
GPU与计算设备的结合
- 有观点认为,将GPU与CPU集成(如苹果和Nvidia的做法)是更优方案(评论5)。
- 也有评论探讨了GPU是否需要独立主机的问题,提出未来GPU可能通过高速网络直接连接,减少对主机的依赖(评论9)。
多GPU性能与优化
- 评论指出,当前LLM框架在多GPU环境下存在性能瓶颈,尤其是分层模型导致的顺序依赖问题(评论7)。
- 另有评论提到,批处理训练或推理的性能对比值得关注(评论6)。
其他技术细节
- 有评论希望看到游戏性能测试,但指出ARM架构支持有限(评论4)。
- 还有评论提到约束解码(如JSON模式)对CPU的高占用问题(评论8)。
未来技术趋势
- 评论讨论了高速互联技术(如PCIe 3.0、100Gbe)和新型存储技术(如高带宽闪存)对AI计算的潜在影响(评论9)。
关键引用:
- 评论2:"I should be running one of those $300 mini PCs at <20W... Just remote into my beefy workstation when I actually need to do real work."
- 评论5:"Apple and Nvidia have the right idea: put the MPP on the same die/package as the CPU."
- 评论7:"It's very well known that most LLM frameworks including llama.cpp splits models by layers, which has sequential dependency..."
- 评论9:"GPUs that just plug into the switch and talk across 400Gbe or UltraEthernet... feel so sensible."