文章摘要
通义千问推出最新旗舰推理模型Qwen3-Max-Thinking,通过参数扩展和强化学习实现多维度性能提升,在19项基准测试中媲美GPT-5.2等顶尖模型。该模型具备自适应工具调用能力和创新推理增强技术,关键推理指标超越Gemini 3 Pro,现已在官网开放使用。
文章总结
突破极限:Qwen3-Max-Thinking 旗舰推理模型发布
核心内容概述
通义千问团队推出最新旗舰推理模型 Qwen3-Max-Thinking。该模型通过扩大参数量并结合强化学习,在事实知识、复杂推理、指令遵循、对齐人类偏好及智能体能力等维度实现显著提升。在19项权威基准测试中,其表现与GPT-5.2-Thinking、Claude-Opus-4.5、Gemini 3 Pro等顶尖模型相当。
关键创新
自适应工具调用能力
- 支持按需调用搜索引擎、记忆存储和代码解释器,用户可通过Qwen Chat直接体验。
- 工具能力通过多阶段训练实现:先微调基础工具使用,再结合规则与模型反馈优化任务表现。
测试时扩展策略
- 采用“经验累积式多轮推理”技术,通过迭代自省机制提炼历史推理关键信息,避免冗余计算。
- 在GPQA、LiveCodeBench等基准中,性能较传统并行采样提升2-3个百分点(如GPQA从90.3升至92.8)。
性能对比
下表为部分核心评测数据(百分制):
| 能力维度 | 测试基准 | GPT-5.2 | Gemini 3 Pro | Qwen3-Max |
|----------------|-------------------|---------|--------------|----------|
| 知识 | C-Eval | 90.5 | 93.4 | 93.7 |
| STEM | GPQA | 92.4 | 91.9 | 87.4 |
| 推理 | HMMT Feb 25 | 99.4 | 97.5 | 98.0 |
| 智能体搜索 | HLE(工具辅助) | 45.5 | 45.8 | 49.8 |
| 对齐能力 | Arena-Hard v2 | 80.6 | 81.7 | 90.2 |
开发者支持
- API调用:模型代号
qwen3-max-2026-01-23,兼容OpenAI与Anthropic协议。- Python示例:
python from openai import OpenAI client = OpenAI(api_key="YOUR_KEY", base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1") response = client.chat.completions.create(model="qwen3-max-2026-01-23", messages=[...]) - Claude Code集成:
bash npm install -g @anthropic-ai/claude-code export ANTHROPIC_MODEL="qwen3-max-2026-01-23"
- Python示例:
引用方式
bibtex
@misc{qwen3maxthinking,
title = {Pushing Qwen3-Max-Thinking Beyond its Limits},
url = {https://qwen.ai/blog?id=qwen3-max-thinking},
author = {Qwen Team},
year = {2026}
}
(注:原文中的部分评测细节及工具配置说明已精简,保留核心技术亮点与性能对比。)
评论总结
这篇评论主要围绕以下几个观点展开:
- 对模型性能的期待
- 有用户期待能超越Opus 4.5的代理编码模型("I wished they release a model which outperforms Opus 4.5 in agentic coding")
- 有用户对2026年开源/小模型发展表示期待("2026 will be the year of open and/or small models")
- 关于模型发布的疑问
- 用户询问是否不再发布模型("is Qwen no longer releasing their models?")
- 用户找不到相关发布信息("I tried to search, could not find anything")
- 定价相关问题
- 用户关注定价模式("do they offer subscriptions? Or only pay per tokens?")
- 用户注意到中国内地价格差异("the models are significantly cheaper within mainland China")
- 技术细节询问
- 用户询问新模型的具体规模("how large is that new model?")
- 无关评论
- 包含一个自行车上的鹈鹕图片链接("Mandatory pelican on bicycle")
注:所有评论均未显示评分(None),说明这些评论尚未获得社区认可度。