Hacker News 中文摘要

RSS订阅

Qwen3-4B-思考-2507 -- Qwen3-4B-Thinking-2507

文章摘要

Qwen3-4B-Thinking-2507模型在逻辑推理、数学、科学、编码等复杂任务上表现显著提升,增强了指令遵循、工具使用、文本生成等通用能力,并优化了长上下文理解能力,适用于高复杂度推理任务。

文章总结

Qwen3-4B-Thinking-2507 模型介绍

Qwen3-4B-Thinking-2507 是一款基于因果语言模型(Causal Language Models)的AI模型,经过预训练和后训练阶段,拥有4.0B参数,其中非嵌入参数为3.6B。该模型在推理能力、通用任务处理以及长上下文理解方面均有显著提升。

主要特点: 1. 推理能力增强:在逻辑推理、数学、科学、编程等需要人类专业知识的任务上表现优异。 2. 通用能力提升:在指令遵循、工具使用、文本生成以及与人类偏好对齐等方面表现更好。 3. 长上下文理解:支持高达262,144的上下文长度,适合处理复杂推理任务。

模型性能: 在多个基准测试中,Qwen3-4B-Thinking-2507 表现突出,尤其在推理、编码和对齐任务上。例如,在AIME25推理任务中得分为81.3,在LiveCodeBench v6编码任务中得分为55.2,在IFEval对齐任务中得分为87.4。

使用建议: 1. 采样参数:建议使用 Temperature=0.6TopP=0.95TopK=20MinP=0。 2. 输出长度:对于大多数查询,建议输出长度为32,768 tokens;对于复杂问题,建议设置为81,920 tokens。 3. 标准化输出格式:在数学问题中,提示模型逐步推理并将最终答案放入 \boxed{} 中;在选择题中,使用JSON结构标准化响应。

部署与使用: 可以通过 sglangvllm 创建OpenAI兼容的API端点进行部署。本地使用支持Ollama、LMStudio、MLX-LM、llama.cpp和KTransformers等应用。

代理使用: Qwen3在工具调用能力上表现出色,推荐使用 Qwen-Agent 来最大化其代理能力。Qwen-Agent封装了工具调用模板和解析器,大大降低了编码复杂度。

引用: 如果觉得我们的工作有帮助,欢迎引用: @misc{qwen3technicalreport, title={Qwen3 Technical Report}, author={Qwen Team}, year={2025}, eprint={2505.09388}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.09388}, }

更多详细信息,请参考我们的博客GitHub文档

评论总结

  1. 模型性能与效率:评论1和评论3指出,该4B密集模型在性能上与30B MoE变体相似,但体积更小,适合个人电脑使用。

    • "So this 4B dense model gets very similar performance to the 30B MoE variant with 7.5x smaller footprint." (评论1)
    • "According to the benchmarks, this one is improved in every one of them compared to the previous version, some better than 30B-A3B." (评论3)
  2. 个人电脑适用性:评论2和评论3强调该模型适合在个人电脑上运行,且生成速度较快。

    • "This one should work on personal computers! I'm thankful for Chinese companies raising the floor." (评论2)
    • "Definitely worth a try, it’ll easily fit into memory and token generation speed will be pleasantly fast." (评论3)
  3. 模型比较与基准测试:评论5通过基准测试数据比较了该模型与Gemma 3n的性能,显示该模型在多个基准测试中表现更优。

    • "I am reading this right, is this model way better than Gemma 3n[1]? (For only the benchmarks that are common among the models)" (评论5)
    • "LiveCodeBench: E4B IT: 13.2, Qwen: 55.2; AIME25: E4B IT: 11.6, Qwen: 81.3" (评论5)
  4. 模型评价与可靠性:评论4和评论6提出对模型评价体系的疑问,评论6认为基准测试分数可能被夸大,建议关注实际使用情况。

    • "Is there like a leaderboard or power rankings sort of thing that tracks these small open models and assigns ratings or grades to them based on particular use cases?" (评论4)
    • "I know all these scores are juiced like crazy. I stopped taking them at face value months ago." (评论6)