文章摘要
Qwen3-4B-Thinking-2507模型在逻辑推理、数学、科学、编码等复杂任务上表现显著提升,增强了指令遵循、工具使用、文本生成等通用能力,并优化了长上下文理解能力,适用于高复杂度推理任务。
文章总结
Qwen3-4B-Thinking-2507 模型介绍
Qwen3-4B-Thinking-2507 是一款基于因果语言模型(Causal Language Models)的AI模型,经过预训练和后训练阶段,拥有4.0B参数,其中非嵌入参数为3.6B。该模型在推理能力、通用任务处理以及长上下文理解方面均有显著提升。
主要特点: 1. 推理能力增强:在逻辑推理、数学、科学、编程等需要人类专业知识的任务上表现优异。 2. 通用能力提升:在指令遵循、工具使用、文本生成以及与人类偏好对齐等方面表现更好。 3. 长上下文理解:支持高达262,144的上下文长度,适合处理复杂推理任务。
模型性能: 在多个基准测试中,Qwen3-4B-Thinking-2507 表现突出,尤其在推理、编码和对齐任务上。例如,在AIME25推理任务中得分为81.3,在LiveCodeBench v6编码任务中得分为55.2,在IFEval对齐任务中得分为87.4。
使用建议:
1. 采样参数:建议使用 Temperature=0.6、TopP=0.95、TopK=20 和 MinP=0。
2. 输出长度:对于大多数查询,建议输出长度为32,768 tokens;对于复杂问题,建议设置为81,920 tokens。
3. 标准化输出格式:在数学问题中,提示模型逐步推理并将最终答案放入 \boxed{} 中;在选择题中,使用JSON结构标准化响应。
部署与使用:
可以通过 sglang 或 vllm 创建OpenAI兼容的API端点进行部署。本地使用支持Ollama、LMStudio、MLX-LM、llama.cpp和KTransformers等应用。
代理使用: Qwen3在工具调用能力上表现出色,推荐使用 Qwen-Agent 来最大化其代理能力。Qwen-Agent封装了工具调用模板和解析器,大大降低了编码复杂度。
引用:
如果觉得我们的工作有帮助,欢迎引用:
@misc{qwen3technicalreport,
title={Qwen3 Technical Report},
author={Qwen Team},
year={2025},
eprint={2505.09388},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.09388},
}
评论总结
模型性能与效率:评论1和评论3指出,该4B密集模型在性能上与30B MoE变体相似,但体积更小,适合个人电脑使用。
- "So this 4B dense model gets very similar performance to the 30B MoE variant with 7.5x smaller footprint." (评论1)
- "According to the benchmarks, this one is improved in every one of them compared to the previous version, some better than 30B-A3B." (评论3)
个人电脑适用性:评论2和评论3强调该模型适合在个人电脑上运行,且生成速度较快。
- "This one should work on personal computers! I'm thankful for Chinese companies raising the floor." (评论2)
- "Definitely worth a try, it’ll easily fit into memory and token generation speed will be pleasantly fast." (评论3)
模型比较与基准测试:评论5通过基准测试数据比较了该模型与Gemma 3n的性能,显示该模型在多个基准测试中表现更优。
- "I am reading this right, is this model way better than Gemma 3n[1]? (For only the benchmarks that are common among the models)" (评论5)
- "LiveCodeBench: E4B IT: 13.2, Qwen: 55.2; AIME25: E4B IT: 11.6, Qwen: 81.3" (评论5)
模型评价与可靠性:评论4和评论6提出对模型评价体系的疑问,评论6认为基准测试分数可能被夸大,建议关注实际使用情况。
- "Is there like a leaderboard or power rankings sort of thing that tracks these small open models and assigns ratings or grades to them based on particular use cases?" (评论4)
- "I know all these scores are juiced like crazy. I stopped taking them at face value months ago." (评论6)