Hacker News 中文摘要

文章摘要

Qwen3-4B-Thinking-2507模型在逻辑推理、数学、科学、编码等复杂任务上表现显著提升，增强了指令遵循、工具使用、文本生成等通用能力，并优化了长上下文理解能力，适用于高复杂度推理任务。

文章总结

Qwen3-4B-Thinking-2507 模型介绍

Qwen3-4B-Thinking-2507 是一款基于因果语言模型（Causal Language Models）的AI模型，经过预训练和后训练阶段，拥有4.0B参数，其中非嵌入参数为3.6B。该模型在推理能力、通用任务处理以及长上下文理解方面均有显著提升。

主要特点： 1. 推理能力增强：在逻辑推理、数学、科学、编程等需要人类专业知识的任务上表现优异。 2. 通用能力提升：在指令遵循、工具使用、文本生成以及与人类偏好对齐等方面表现更好。 3. 长上下文理解：支持高达262,144的上下文长度，适合处理复杂推理任务。

模型性能： 在多个基准测试中，Qwen3-4B-Thinking-2507 表现突出，尤其在推理、编码和对齐任务上。例如，在AIME25推理任务中得分为81.3，在LiveCodeBench v6编码任务中得分为55.2，在IFEval对齐任务中得分为87.4。

使用建议： 1. 采样参数：建议使用 Temperature=0.6、TopP=0.95、TopK=20 和 MinP=0。 2. 输出长度：对于大多数查询，建议输出长度为32,768 tokens；对于复杂问题，建议设置为81,920 tokens。 3. 标准化输出格式：在数学问题中，提示模型逐步推理并将最终答案放入 \boxed{} 中；在选择题中，使用JSON结构标准化响应。

部署与使用： 可以通过 sglang 或 vllm 创建OpenAI兼容的API端点进行部署。本地使用支持Ollama、LMStudio、MLX-LM、llama.cpp和KTransformers等应用。

代理使用： Qwen3在工具调用能力上表现出色，推荐使用 Qwen-Agent 来最大化其代理能力。Qwen-Agent封装了工具调用模板和解析器，大大降低了编码复杂度。

引用： 如果觉得我们的工作有帮助，欢迎引用： @misc{qwen3technicalreport, title={Qwen3 Technical Report}, author={Qwen Team}, year={2025}, eprint={2505.09388}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.09388}, }

更多详细信息，请参考我们的博客、GitHub和文档。

评论总结

模型性能与效率：评论1和评论3指出，该4B密集模型在性能上与30B MoE变体相似，但体积更小，适合个人电脑使用。
- "So this 4B dense model gets very similar performance to the 30B MoE variant with 7.5x smaller footprint." (评论1)
- "According to the benchmarks, this one is improved in every one of them compared to the previous version, some better than 30B-A3B." (评论3)
个人电脑适用性：评论2和评论3强调该模型适合在个人电脑上运行，且生成速度较快。
- "This one should work on personal computers! I'm thankful for Chinese companies raising the floor." (评论2)
- "Definitely worth a try, it’ll easily fit into memory and token generation speed will be pleasantly fast." (评论3)
模型比较与基准测试：评论5通过基准测试数据比较了该模型与Gemma 3n的性能，显示该模型在多个基准测试中表现更优。
- "I am reading this right, is this model way better than Gemma 3n[1]? (For only the benchmarks that are common among the models)" (评论5)
- "LiveCodeBench: E4B IT: 13.2, Qwen: 55.2; AIME25: E4B IT: 11.6, Qwen: 81.3" (评论5)
模型评价与可靠性：评论4和评论6提出对模型评价体系的疑问，评论6认为基准测试分数可能被夸大，建议关注实际使用情况。
- "Is there like a leaderboard or power rankings sort of thing that tracks these small open models and assigns ratings or grades to them based on particular use cases?" (评论4)
- "I know all these scores are juiced like crazy. I stopped taking them at face value months ago." (评论6)

Qwen3-4B-思考-2507 -- Qwen3-4B-Thinking-2507

文章摘要

文章总结

评论总结