Hacker News 中文摘要

RSS订阅

HN展示:根据基准测试排名,为您的硬件寻找最佳本地LLM -- Show HN: Find the best local LLM for your hardware, ranked by benchmarks

文章摘要

这是一个帮助用户根据本地硬件配置自动筛选最适合运行的大型语言模型(LLM)的工具。它能检测用户的GPU/CPU/内存配置,从HuggingFace中推荐性能最佳且能在本地运行的模型,并通过实际基准测试而非参数数量进行排名。支持Python 3.11+,采用MIT开源协议。

文章总结

GitHub项目:whichllm - 为你的硬件寻找最佳本地LLM模型

项目简介
whichllm是一个智能工具,能够自动检测你的GPU/CPU/RAM配置,并从HuggingFace中筛选出最适合你硬件运行的本地大型语言模型(LLM)。它不仅考虑模型参数大小,还基于实时更新的多维度基准测试进行排名,确保推荐最优模型。

核心功能
1. 硬件适配
- 自动检测NVIDIA/AMD/Apple Silicon/CPU配置
- 模拟任意GPU性能(如whichllm --gpu "RTX 4090"
- 提供硬件规划建议(如whichllm plan "llama 3 70b"

  1. 智能排名

    • 综合评估:VRAM占用、推理速度、基准测试表现
    • 实时数据:直接对接HuggingFace API(支持离线缓存)
    • 架构感知:考虑GQA KV缓存、MoE模型激活参数等细节
  2. 一键操作

    • 即时聊天:whichllm run自动下载并启动模型
    • 代码生成:whichllm snippet输出可直接运行的Python代码
    • 多格式支持:GGUF/AWQ/GPTQ/FP16等

基准测试体系
- 数据源:整合LiveBench、Artificial Analysis、Chatbot Arena ELO等6类评测
- 可信度分级:从直接测试(100%)到自我报告(55%)五级置信度
- 时效性处理:自动降权过时评测数据

性能示例(2026-05快照)
| 硬件 | VRAM | 推荐模型 | 速度 |
|------|------|----------|------|
| RTX 4090 | 24GB | Qwen3.6-27B-Q5KM | 27 t/s |
| RTX 4060 | 8GB | Qwen3-14B-Q3KM | 22 t/s |
| M3 Max | 36GB | Qwen3.6-27B-Q5KM | 9 t/s |

安装方式
bash pipx install whichllm # 推荐 brew install Andyyyy64/whichllm/whichllm # Mac pip install whichllm # 通用

项目优势
- 拒绝"参数至上":27B模型可能优于32B(实测分数92.8 vs 83.0)
- 透明标记:带~表示家族继承分数,?表示无基准数据
- 开源生态:支持Ollama集成,提供Shell别名快捷方式

技术架构
- 数据管道:HuggingFace API实时抓取 + 双级缓存(模型6h/评测24h)
- 评分引擎:log2缩放参数权重 + 量化惩罚系数 + 速度门限调整

许可证:MIT
开发要求:Python 3.11+

提示:在GitHub给星可帮助更多人发现本项目,欢迎在Issues分享你的硬件测试结果。

评论总结

以下是评论内容的总结:

  1. 内存估算准确性

    • 认为当前工具对不同模型的内存估算不够准确,特别是滑动窗口注意力机制与完整上下文模型的差异(如Mistral与Llama的比较)
      关键引用
      "The plan command is clever. How do you handle the VRAM estimation for models with sliding window attention vs full context?"
      "accurate memory estimation is key here. it will crash if that accurate and it cant be generic for all local llm."
  2. 安装与模型推荐问题

    • 指出brew安装存在问题,且推荐的模型版本过旧
      关键引用
      "Brew install is broken...recommending me loads of qwen 2.5 which are really old"
      "It seems pretty rubbish I have to say"
  3. 功能改进建议

    • 希望增加更多量化选项(如IQ3_M)和实际性能测试
    • 建议显示最大上下文长度和并行处理效果
      关键引用
      "can you add in the other quants like IQ3_M?"
      "I’d like to see benchmarks reassure they’re based on the fastest implementation"
  4. 检测准确性争议

    • 指出工具对统一内存架构的检测不准确,特别是AMD GPU的情况
      关键引用
      "This doesn’t correclty detect the unified memory architecture"
      "Linux sets the unified memory like this on linux"
  5. 替代方案推荐

    • 用户推荐其他工具如llmfit、canirun.ai和RapidMLX进行实际性能测试
      关键引用
      "This is very helpful too: https://www.canirun.ai/"
      "I’ve been using RapidMLX for this. The integrated speed tests matter"
  6. 正面反馈

    • 赞赏工具提供的量化质量损失显示和社区贡献
      关键引用
      "Showing quality loss per quantization is nice"
      "I love this community...Hats off to you sir"

总结呈现了关于内存估算准确性、安装问题、功能改进、检测准确性、替代工具和正面评价等多方面观点,保持了不同意见的平衡。