文章摘要
Qwen3-235B-A22B-Thinking-2507模型在过去三个月中显著提升了思维能力和推理深度,尤其在逻辑推理、数学、科学、编程等任务上表现优异,达到开源思维模型的领先水平。该模型还增强了指令遵循、工具使用、文本生成等通用能力,并具备256K长上下文理解能力,适用于高度复杂的推理任务。
文章总结
标题:Qwen/Qwen3-235B-A22B-Thinking-2507 · Hugging Face
主要内容:
在过去的三个月里,Qwen团队持续提升了Qwen3-235B-A22B的思维能力,显著提高了其推理的质量和深度。我们很高兴推出Qwen3-235B-A22B-Thinking-2507,该版本具有以下关键改进:
- 推理任务性能显著提升,包括逻辑推理、数学、科学、编程和学术基准测试,这些任务通常需要人类专家的参与。该模型在开源思维模型中达到了最先进的水平。
- 通用能力大幅增强,如指令遵循、工具使用、文本生成以及与人类偏好的对齐。
- 256K长上下文理解能力增强。
注意:此版本的思维长度有所增加,强烈建议将其用于高度复杂的推理任务。
模型概述:
Qwen3-235B-A22B-Thinking-2507具有以下特点:
- 类型:因果语言模型
- 训练阶段:预训练和后训练
- 参数数量:总计235B,激活22B
- 非嵌入参数数量:234B
- 层数:94
- 注意力头数(GQA):Q为64,KV为4
- 专家数量:128
- 激活专家数量:8
- 上下文长度:原生支持262,144。
注意:该模型仅支持思维模式。
此外,为了强制模型进行思维,默认的聊天模板会自动包含<think>。因此,模型的输出仅包含</think>而没有显式的<think>标签是正常的。
性能:
该模型在多个基准测试中表现出色,包括知识、推理、编程、对齐、代理和多语言任务。具体表现详见性能表格。
快速开始:
Qwen3-MoE的代码已集成到最新的Hugging Face transformers库中,建议使用最新版本。以下代码片段展示了如何使用该模型生成内容:
```python from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3-235B-A22B-Thinking-2507"
加载分词器和模型
tokenizer = AutoTokenizer.frompretrained(modelname) model = AutoModelForCausalLM.frompretrained( modelname, torchdtype="auto", devicemap="auto" )
准备模型输入
prompt = "Give me a short introduction to large language model." messages = [ {"role": "user", "content": prompt} ] text = tokenizer.applychattemplate( messages, tokenize=False, addgenerationprompt=True, ) modelinputs = tokenizer([text], returntensors="pt").to(model.device)
进行文本生成
generatedids = model.generate( **modelinputs, maxnewtokens=32768 ) outputids = generatedids[0][len(modelinputs.inputids[0]):].tolist()
解析思维内容
try: # rindex finding 151668 () index = len(outputids) - outputids[::-1].index(151668) except ValueError: index = 0
thinkingcontent = tokenizer.decode(outputids[:index], skipspecialtokens=True).strip("\n") content = tokenizer.decode(outputids[index:], skipspecial_tokens=True).strip("\n")
print("thinking content:", thinking_content) # 没有开头的
代理使用:
Qwen3在工具调用方面表现出色,建议使用Qwen-Agent来充分利用其代理能力。Qwen-Agent内部封装了工具调用模板和解析器,大大降低了编码复杂度。
最佳实践:
为了获得最佳性能,建议以下设置:
- 采样参数:建议使用
Temperature=0.6,TopP=0.95,TopK=20,MinP=0。 - 足够的输出长度:对于大多数查询,建议使用32,768个token的输出长度。对于高度复杂的问题,如数学和编程竞赛,建议将最大输出长度设置为81,920个token。
- 标准化输出格式:在基准测试时,建议使用提示来标准化模型输出。
- 历史记录中不包含思维内容:在多轮对话中,历史模型输出应仅包含最终输出部分,不需要包含思维内容。
引用:
如果我们的工作对您有帮助,欢迎引用:
@misc{qwen3technicalreport,
title={Qwen3 Technical Report},
author={Qwen Team},
year={2025},
eprint={2505.09388},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.09388},
}
评论总结
你好,我无法给到相关内容。