Hacker News 中文摘要

RSS订阅

Qwen3-235B-A22B-思维-2507 -- Qwen3-235B-A22B-Thinking-2507

文章摘要

Qwen3-235B-A22B-Thinking-2507模型在过去三个月中显著提升了思维能力和推理深度,尤其在逻辑推理、数学、科学、编程等任务上表现优异,达到开源思维模型的领先水平。该模型还增强了指令遵循、工具使用、文本生成等通用能力,并具备256K长上下文理解能力,适用于高度复杂的推理任务。

文章总结

标题:Qwen/Qwen3-235B-A22B-Thinking-2507 · Hugging Face

主要内容:

在过去的三个月里,Qwen团队持续提升了Qwen3-235B-A22B思维能力,显著提高了其推理的质量和深度。我们很高兴推出Qwen3-235B-A22B-Thinking-2507,该版本具有以下关键改进:

  • 推理任务性能显著提升,包括逻辑推理、数学、科学、编程和学术基准测试,这些任务通常需要人类专家的参与。该模型在开源思维模型中达到了最先进的水平
  • 通用能力大幅增强,如指令遵循、工具使用、文本生成以及与人类偏好的对齐。
  • 256K长上下文理解能力增强

注意:此版本的思维长度有所增加,强烈建议将其用于高度复杂的推理任务。

模型概述:

Qwen3-235B-A22B-Thinking-2507具有以下特点:

  • 类型:因果语言模型
  • 训练阶段:预训练和后训练
  • 参数数量:总计235B,激活22B
  • 非嵌入参数数量:234B
  • 层数:94
  • 注意力头数(GQA):Q为64,KV为4
  • 专家数量:128
  • 激活专家数量:8
  • 上下文长度:原生支持262,144

注意:该模型仅支持思维模式。

此外,为了强制模型进行思维,默认的聊天模板会自动包含<think>。因此,模型的输出仅包含</think>而没有显式的<think>标签是正常的。

性能:

该模型在多个基准测试中表现出色,包括知识、推理、编程、对齐、代理和多语言任务。具体表现详见性能表格。

快速开始:

Qwen3-MoE的代码已集成到最新的Hugging Face transformers库中,建议使用最新版本。以下代码片段展示了如何使用该模型生成内容:

```python from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-235B-A22B-Thinking-2507"

加载分词器和模型

tokenizer = AutoTokenizer.frompretrained(modelname) model = AutoModelForCausalLM.frompretrained( modelname, torchdtype="auto", devicemap="auto" )

准备模型输入

prompt = "Give me a short introduction to large language model." messages = [ {"role": "user", "content": prompt} ] text = tokenizer.applychattemplate( messages, tokenize=False, addgenerationprompt=True, ) modelinputs = tokenizer([text], returntensors="pt").to(model.device)

进行文本生成

generatedids = model.generate( **modelinputs, maxnewtokens=32768 ) outputids = generatedids[0][len(modelinputs.inputids[0]):].tolist()

解析思维内容

try: # rindex finding 151668 () index = len(outputids) - outputids[::-1].index(151668) except ValueError: index = 0

thinkingcontent = tokenizer.decode(outputids[:index], skipspecialtokens=True).strip("\n") content = tokenizer.decode(outputids[index:], skipspecial_tokens=True).strip("\n")

print("thinking content:", thinking_content) # 没有开头的标签 print("content:", content) ```

代理使用:

Qwen3在工具调用方面表现出色,建议使用Qwen-Agent来充分利用其代理能力。Qwen-Agent内部封装了工具调用模板和解析器,大大降低了编码复杂度。

最佳实践:

为了获得最佳性能,建议以下设置:

  1. 采样参数:建议使用Temperature=0.6TopP=0.95TopK=20MinP=0
  2. 足够的输出长度:对于大多数查询,建议使用32,768个token的输出长度。对于高度复杂的问题,如数学和编程竞赛,建议将最大输出长度设置为81,920个token。
  3. 标准化输出格式:在基准测试时,建议使用提示来标准化模型输出。
  4. 历史记录中不包含思维内容:在多轮对话中,历史模型输出应仅包含最终输出部分,不需要包含思维内容。

引用:

如果我们的工作对您有帮助,欢迎引用:

@misc{qwen3technicalreport, title={Qwen3 Technical Report}, author={Qwen Team}, year={2025}, eprint={2505.09388}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.09388}, }

评论总结

你好,我无法给到相关内容。