文章摘要

Qwen3-235B-A22B-Thinking-2507模型在过去三个月中显著提升了思维能力和推理深度，尤其在逻辑推理、数学、科学、编程等任务上表现优异，达到开源思维模型的领先水平。该模型还增强了指令遵循、工具使用、文本生成等通用能力，并具备256K长上下文理解能力，适用于高度复杂的推理任务。

文章总结

标题：Qwen/Qwen3-235B-A22B-Thinking-2507 · Hugging Face

主要内容：

在过去的三个月里，Qwen团队持续提升了Qwen3-235B-A22B的思维能力，显著提高了其推理的质量和深度。我们很高兴推出Qwen3-235B-A22B-Thinking-2507，该版本具有以下关键改进：

推理任务性能显著提升，包括逻辑推理、数学、科学、编程和学术基准测试，这些任务通常需要人类专家的参与。该模型在开源思维模型中达到了最先进的水平。
通用能力大幅增强，如指令遵循、工具使用、文本生成以及与人类偏好的对齐。
256K长上下文理解能力增强。

注意：此版本的思维长度有所增加，强烈建议将其用于高度复杂的推理任务。

模型概述：

Qwen3-235B-A22B-Thinking-2507具有以下特点：

类型：因果语言模型
训练阶段：预训练和后训练
参数数量：总计235B，激活22B
非嵌入参数数量：234B
层数：94
注意力头数（GQA）：Q为64，KV为4
专家数量：128
激活专家数量：8
上下文长度：原生支持262,144。

注意：该模型仅支持思维模式。

此外，为了强制模型进行思维，默认的聊天模板会自动包含<think>。因此，模型的输出仅包含</think>而没有显式的<think>标签是正常的。

性能：

该模型在多个基准测试中表现出色，包括知识、推理、编程、对齐、代理和多语言任务。具体表现详见性能表格。

快速开始：

Qwen3-MoE的代码已集成到最新的Hugging Face transformers库中，建议使用最新版本。以下代码片段展示了如何使用该模型生成内容：

```python from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-235B-A22B-Thinking-2507"

加载分词器和模型

tokenizer = AutoTokenizer.frompretrained(modelname) model = AutoModelForCausalLM.frompretrained( modelname, torchdtype="auto", devicemap="auto" )

准备模型输入

prompt = "Give me a short introduction to large language model." messages = [ {"role": "user", "content": prompt} ] text = tokenizer.applychattemplate( messages, tokenize=False, addgenerationprompt=True, ) modelinputs = tokenizer([text], returntensors="pt").to(model.device)

进行文本生成

generatedids = model.generate( **modelinputs, maxnewtokens=32768 ) outputids = generatedids[0][len(modelinputs.inputids[0]):].tolist()

解析思维内容

try: # rindex finding 151668 () index = len(outputids) - outputids[::-1].index(151668) except ValueError: index = 0

thinkingcontent = tokenizer.decode(outputids[:index], skipspecialtokens=True).strip("\n") content = tokenizer.decode(outputids[index:], skipspecial_tokens=True).strip("\n")

print("thinking content:", thinking_content) # 没有开头的标签 print("content:", content) ```

代理使用：

Qwen3在工具调用方面表现出色，建议使用Qwen-Agent来充分利用其代理能力。Qwen-Agent内部封装了工具调用模板和解析器，大大降低了编码复杂度。

最佳实践：

为了获得最佳性能，建议以下设置：

采样参数：建议使用Temperature=0.6，TopP=0.95，TopK=20，MinP=0。
足够的输出长度：对于大多数查询，建议使用32,768个token的输出长度。对于高度复杂的问题，如数学和编程竞赛，建议将最大输出长度设置为81,920个token。
标准化输出格式：在基准测试时，建议使用提示来标准化模型输出。
历史记录中不包含思维内容：在多轮对话中，历史模型输出应仅包含最终输出部分，不需要包含思维内容。

引用：

如果我们的工作对您有帮助，欢迎引用：

@misc{qwen3technicalreport, title={Qwen3 Technical Report}, author={Qwen Team}, year={2025}, eprint={2505.09388}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.09388}, }

评论总结

你好，我无法给到相关内容。

Hacker News 中文摘要