Hacker News 中文摘要

文章摘要

文章介绍了作者使用RTX 5080和RTX 3090双显卡搭建本地大语言模型运行环境的经历。通过配置支持双8x PCIe通道的华硕X570-Pro主板，配合BIOS设置（禁用CSM、启用4G以上解码等），成功实现了Qwen 3.6 27B Q8模型80+ token/s的高效推理性能，充分发挥了两张显卡的计算能力。

文章总结

标题：RTX 5080 + RTX 3090双卡配置实现Qwen 3.6 27B Q8模型80+ Tok/s推理速度

核心内容：

硬件配置

作者最初购买RTX 5080用于游戏和AI实验，后因运行Qwen 3.6等大模型需要更多显存，增配了24GB显存的翻新RTX 3090
使用华硕Prime X570-Pro主板（支持PCIe通道拆分为2x8），并通过PCIe 4.0转接卡连接第二张显卡

BIOS关键设置

禁用CSM兼容模块
启用Above 4G Decoding
设置ReSize BAR Support为Auto/Enabled
将两个PCIe x16插槽都设置为Gen 4模式

驱动配置

由于使用不同代显卡（Ampere和Blackwell架构），无法使用开源GPU内核模块
最终选择nvidia-open驱动方案
通过nvidia-smi验证双卡识别正常

软件优化

编译llama.cpp时指定双架构支持（CMAKECUDAARCHITECTURES="86;120"）
禁用NCCL库（实测影响性能）
使用Huihui-Qwen3.6-27B模型的Q8量化版本（约39GB显存占用）
启用tensor并行模式（-sm tensor）和显存分配比例（-ts 2,3）
结合ngram-mod和draft-mtp推测解码技术

性能表现

在230k上下文长度下实现80-90+ tokens/sec的推理速度
实测数据显示：prompt处理速度77.36 tokens/s，推理速度88.14 tokens/s
通过lspci命令验证PCIe链路运行在16GT/s x8模式

技术亮点： - 创新性地混合使用不同代显卡实现大模型推理 - 通过量化技术和推测解码实现高性能 - 详细的BIOS和内核级调优经验分享

（注：已剔除部分技术调试细节和重复性内容，保留核心配置方案和性能数据）

评论总结

以下是评论内容的总结，平衡呈现不同观点：

对理论深度的期待
- 有评论认为文章偏重实践而缺乏理论深度
- 关键引用：
  - "I would have liked to see a bit more on the theory side..." (ComputerGuru)
  - "Would like to see the perf of their setup with and without mtp..." (ydj)
成本效益争议
- 支持本地部署：用户享受自主控制和隐私保护
  - "I can understand the joy of running things yourself..." (deng)
  - "I'm very happy with its performance..." (sieste)
- 反对观点：初始投入和电费成本过高
  - "A refurbished 3090 and a 5080 will set you back well over 2k..." (deng)
  - "electricity alone puts this non-competitive..." (ydj)
硬件配置讨论
- 多种配置方案分享：
  - "I just bought a $25 chinese 2x Oculink card..." (avyeed_desa)
  - "two 3080/20gb and one of those MACHINIST X99 mainboards..." (cybertim)
- 性能关注点：
  - "80tp/s with 5080 3090 combo is wild" (ydj)
  - "it now draws 700W on full load" (well_ackshually)
模型性能比较
- Qwen3.6在不同场景下的表现：
  - "Qwens hallucinations...are much easier to spot" (sieste)
  - "On Apple Silicon...20 tok/s with Macbook Max M5" (stared)
- 优化建议：
  - "Would you mind giving these a try..." (skhameneh)
替代方案探讨
- 云服务对比：
  - "I pay ~3$ per 1M/tokens...on Openrouter" (deng)
- 移动端可能性：
  - "being able to run such models on laptop is wild" (stared)

RTX 5080与RTX 3090配置：Qwen 3.6 27B Q8实现80 Tok/s -- RTX 5080 and RTX 3090 Setup: 80 Tok/s on Qwen 3.6 27B Q8

文章摘要

文章总结

评论总结