文章摘要
文章介绍了作者使用RTX 5080和RTX 3090双显卡搭建本地大语言模型运行环境的经历。通过配置支持双8x PCIe通道的华硕X570-Pro主板,配合BIOS设置(禁用CSM、启用4G以上解码等),成功实现了Qwen 3.6 27B Q8模型80+ token/s的高效推理性能,充分发挥了两张显卡的计算能力。
文章总结
标题:RTX 5080 + RTX 3090双卡配置实现Qwen 3.6 27B Q8模型80+ Tok/s推理速度
核心内容:
- 硬件配置
- 作者最初购买RTX 5080用于游戏和AI实验,后因运行Qwen 3.6等大模型需要更多显存,增配了24GB显存的翻新RTX 3090
- 使用华硕Prime X570-Pro主板(支持PCIe通道拆分为2x8),并通过PCIe 4.0转接卡连接第二张显卡
- BIOS关键设置
- 禁用CSM兼容模块
- 启用Above 4G Decoding
- 设置ReSize BAR Support为Auto/Enabled
- 将两个PCIe x16插槽都设置为Gen 4模式
- 驱动配置
- 由于使用不同代显卡(Ampere和Blackwell架构),无法使用开源GPU内核模块
- 最终选择nvidia-open驱动方案
- 通过nvidia-smi验证双卡识别正常
- 软件优化
- 编译llama.cpp时指定双架构支持(CMAKECUDAARCHITECTURES="86;120")
- 禁用NCCL库(实测影响性能)
- 使用Huihui-Qwen3.6-27B模型的Q8量化版本(约39GB显存占用)
- 启用tensor并行模式(-sm tensor)和显存分配比例(-ts 2,3)
- 结合ngram-mod和draft-mtp推测解码技术
- 性能表现
- 在230k上下文长度下实现80-90+ tokens/sec的推理速度
- 实测数据显示:prompt处理速度77.36 tokens/s,推理速度88.14 tokens/s
- 通过lspci命令验证PCIe链路运行在16GT/s x8模式
技术亮点: - 创新性地混合使用不同代显卡实现大模型推理 - 通过量化技术和推测解码实现高性能 - 详细的BIOS和内核级调优经验分享
(注:已剔除部分技术调试细节和重复性内容,保留核心配置方案和性能数据)
评论总结
以下是评论内容的总结,平衡呈现不同观点:
对理论深度的期待
- 有评论认为文章偏重实践而缺乏理论深度
- 关键引用:
- "I would have liked to see a bit more on the theory side..." (ComputerGuru)
- "Would like to see the perf of their setup with and without mtp..." (ydj)
成本效益争议
- 支持本地部署:用户享受自主控制和隐私保护
- "I can understand the joy of running things yourself..." (deng)
- "I'm very happy with its performance..." (sieste)
- 反对观点:初始投入和电费成本过高
- "A refurbished 3090 and a 5080 will set you back well over 2k..." (deng)
- "electricity alone puts this non-competitive..." (ydj)
- 支持本地部署:用户享受自主控制和隐私保护
硬件配置讨论
- 多种配置方案分享:
- "I just bought a $25 chinese 2x Oculink card..." (avyeed_desa)
- "two 3080/20gb and one of those MACHINIST X99 mainboards..." (cybertim)
- 性能关注点:
- "80tp/s with 5080 3090 combo is wild" (ydj)
- "it now draws 700W on full load" (well_ackshually)
- 多种配置方案分享:
模型性能比较
- Qwen3.6在不同场景下的表现:
- "Qwens hallucinations...are much easier to spot" (sieste)
- "On Apple Silicon...20 tok/s with Macbook Max M5" (stared)
- 优化建议:
- "Would you mind giving these a try..." (skhameneh)
- Qwen3.6在不同场景下的表现:
替代方案探讨
- 云服务对比:
- "I pay ~3$ per 1M/tokens...on Openrouter" (deng)
- 移动端可能性:
- "being able to run such models on laptop is wild" (stared)
- 云服务对比: