Hacker News 中文摘要

RSS订阅

RTX 5080与RTX 3090配置:Qwen 3.6 27B Q8实现80 Tok/s -- RTX 5080 and RTX 3090 Setup: 80 Tok/s on Qwen 3.6 27B Q8

文章摘要

文章介绍了作者使用RTX 5080和RTX 3090双显卡搭建本地大语言模型运行环境的经历。通过配置支持双8x PCIe通道的华硕X570-Pro主板,配合BIOS设置(禁用CSM、启用4G以上解码等),成功实现了Qwen 3.6 27B Q8模型80+ token/s的高效推理性能,充分发挥了两张显卡的计算能力。

文章总结

标题:RTX 5080 + RTX 3090双卡配置实现Qwen 3.6 27B Q8模型80+ Tok/s推理速度

核心内容:

  1. 硬件配置
  • 作者最初购买RTX 5080用于游戏和AI实验,后因运行Qwen 3.6等大模型需要更多显存,增配了24GB显存的翻新RTX 3090
  • 使用华硕Prime X570-Pro主板(支持PCIe通道拆分为2x8),并通过PCIe 4.0转接卡连接第二张显卡
  1. BIOS关键设置
  • 禁用CSM兼容模块
  • 启用Above 4G Decoding
  • 设置ReSize BAR Support为Auto/Enabled
  • 将两个PCIe x16插槽都设置为Gen 4模式
  1. 驱动配置
  • 由于使用不同代显卡(Ampere和Blackwell架构),无法使用开源GPU内核模块
  • 最终选择nvidia-open驱动方案
  • 通过nvidia-smi验证双卡识别正常
  1. 软件优化
  • 编译llama.cpp时指定双架构支持(CMAKECUDAARCHITECTURES="86;120")
  • 禁用NCCL库(实测影响性能)
  • 使用Huihui-Qwen3.6-27B模型的Q8量化版本(约39GB显存占用)
  • 启用tensor并行模式(-sm tensor)和显存分配比例(-ts 2,3)
  • 结合ngram-mod和draft-mtp推测解码技术
  1. 性能表现
  • 在230k上下文长度下实现80-90+ tokens/sec的推理速度
  • 实测数据显示:prompt处理速度77.36 tokens/s,推理速度88.14 tokens/s
  • 通过lspci命令验证PCIe链路运行在16GT/s x8模式

技术亮点: - 创新性地混合使用不同代显卡实现大模型推理 - 通过量化技术和推测解码实现高性能 - 详细的BIOS和内核级调优经验分享

(注:已剔除部分技术调试细节和重复性内容,保留核心配置方案和性能数据)

评论总结

以下是评论内容的总结,平衡呈现不同观点:

  1. 对理论深度的期待

    • 有评论认为文章偏重实践而缺乏理论深度
    • 关键引用:
      • "I would have liked to see a bit more on the theory side..." (ComputerGuru)
      • "Would like to see the perf of their setup with and without mtp..." (ydj)
  2. 成本效益争议

    • 支持本地部署:用户享受自主控制和隐私保护
      • "I can understand the joy of running things yourself..." (deng)
      • "I'm very happy with its performance..." (sieste)
    • 反对观点:初始投入和电费成本过高
      • "A refurbished 3090 and a 5080 will set you back well over 2k..." (deng)
      • "electricity alone puts this non-competitive..." (ydj)
  3. 硬件配置讨论

    • 多种配置方案分享:
      • "I just bought a $25 chinese 2x Oculink card..." (avyeed_desa)
      • "two 3080/20gb and one of those MACHINIST X99 mainboards..." (cybertim)
    • 性能关注点:
      • "80tp/s with 5080 3090 combo is wild" (ydj)
      • "it now draws 700W on full load" (well_ackshually)
  4. 模型性能比较

    • Qwen3.6在不同场景下的表现:
      • "Qwens hallucinations...are much easier to spot" (sieste)
      • "On Apple Silicon...20 tok/s with Macbook Max M5" (stared)
    • 优化建议:
      • "Would you mind giving these a try..." (skhameneh)
  5. 替代方案探讨

    • 云服务对比:
      • "I pay ~3$ per 1M/tokens...on Openrouter" (deng)
    • 移动端可能性:
      • "being able to run such models on laptop is wild" (stared)