Hacker News 中文摘要

RSS订阅

如何在本地运行通义千问3.5 -- How to run Qwen 3.5 locally

文章摘要

这篇文章介绍了如何在本地运行Qwen3.5模型,提供了Unsloth文档中的相关指南内容,包括技术支持和社区资源链接。

文章总结

Qwen3.5本地运行指南

本文详细介绍了如何在本地设备上运行阿里巴巴最新发布的Qwen3.5系列大语言模型,包括不同规格的模型(如35B-A3B、27B、122B-A10B、397B-A17B以及小型系列0.8B、2B、4B、9B)。文章提供了从模型下载到实际运行的完整流程,并针对不同使用场景给出了推荐参数设置。

核心内容

  1. 模型概览

    • Qwen3.5系列支持256K上下文长度,覆盖201种语言,具备"思考"和"非思考"两种模式,擅长编程、视觉、对话和长文本任务。
    • 小型模型(0.8B-9B)默认禁用思考模式,需手动开启。
  2. 运行要求

    • 硬件需求表详细列出了不同量化版本(3/4/6/8-bit和BF16)的内存要求。例如:
      • 35B-A3B模型:4-bit需22GB内存
      • 397B-A17B模型:4-bit需214GB内存
  3. 推荐参数设置

    • 提供针对不同任务的优化参数组合:
      • 思考模式(编程任务):temperature=0.6, topp=0.95
      • 非思考模式(通用任务):temperature=0.7, topp=0.8
  4. 具体运行方法

    • 使用llama.cpp的完整步骤: bash git clone https://github.com/ggml-org/llama.cpp cmake -B build -DGGML_CUDA=ON cmake --build build --config Release
    • 模型下载示例: bash hf download unsloth/Qwen3.5-35B-A3B-GGUF --include "*UD-Q4_K_XL*"
  5. 特殊功能配置

    • 启用/禁用思考模式: bash --chat-template-kwargs '{"enable_thinking":true}'
    • LM Studio中显示思考模式开关的配置方法
  6. 性能基准

    • Unsloth动态量化GGUF在KL散度测试中表现优异
    • 397B模型在第三方测试中,4-bit量化仅比原模型精度低0.8%

实用工具

  • 提供工具调用(Tool Calling)和代码执行(Python/Linux终端)的完整实现代码
  • 支持通过OpenAI兼容API部署本地服务

资源链接

注:本文已过滤导航菜单、重复图片和页脚信息等非核心内容,保留技术细节和关键操作指南。

评论总结

以下是评论内容的总结:

  1. 模型性能与硬件配置

    • 多位用户分享了在不同硬件上运行Qwen模型的经验:
      • "在8GB RTX 3050上运行35B-A3B模型很实用,响应快,编码任务表现好" (I've been finding it very practical...)
      • "ASUS 5070ti 16G运行3.5 9B模型速度稳定约100 tok/s,性能超越多数在线LLM服务" (Running 3.5 9B...gives a stable ~100 tok/s)
  2. 量化配置困惑

    • 用户对量化选项缺乏说明表示困惑:
      • "量化选项如IQ4XS/Q4K_S等没有解释其区别和权衡" (no explanation for what they are...)
      • "希望有一个典型模型/硬件配置列表" (would be nice to have a list...)
  3. 性能基准测试

    • 有用户进行了系统性的基准测试:
      • "在不同硬件配置下测试GGUF量化版本的Python任务性能" (I've been benchmarking GGUF quants...)
      • "发现默认参数下会出现幻觉和重复问题" (shows some hallucination and repetition...)
  4. 技术问题

    • 部分用户遇到技术难题:
      • "在4GB VRAM的1650 Ti上无法正常实现GPU卸载" (still haven't gotten GPU offloading working...)
      • "模型有时会陷入工具使用的循环" (occasionally get stuck in a loop...)
  5. 需求与建议

    • 用户提出明确需求:
      • "什么是最优硬件配置?" (What would be optimal HW...)
      • "社区缺乏清晰的配置/使用示例" (no concrete config/usage clear examples)

不同观点保持平衡: - 正面评价强调模型在消费级硬件的可用性 - 负面评价集中在配置复杂性和性能局限 - 技术讨论涉及量化方法和硬件适配问题