Hacker News 中文摘要

文章摘要

通义千问推出最新旗舰推理模型Qwen3-Max-Thinking，通过参数扩展和强化学习实现多维度性能提升，在19项基准测试中媲美GPT-5.2等顶尖模型。该模型具备自适应工具调用能力和创新推理增强技术，关键推理指标超越Gemini 3 Pro，现已在官网开放使用。

文章总结

突破极限：Qwen3-Max-Thinking 旗舰推理模型发布

核心内容概述

通义千问团队推出最新旗舰推理模型 Qwen3-Max-Thinking。该模型通过扩大参数量并结合强化学习，在事实知识、复杂推理、指令遵循、对齐人类偏好及智能体能力等维度实现显著提升。在19项权威基准测试中，其表现与GPT-5.2-Thinking、Claude-Opus-4.5、Gemini 3 Pro等顶尖模型相当。

关键创新

自适应工具调用能力
- 支持按需调用搜索引擎、记忆存储和代码解释器，用户可通过Qwen Chat直接体验。
- 工具能力通过多阶段训练实现：先微调基础工具使用，再结合规则与模型反馈优化任务表现。
测试时扩展策略
- 采用“经验累积式多轮推理”技术，通过迭代自省机制提炼历史推理关键信息，避免冗余计算。
- 在GPQA、LiveCodeBench等基准中，性能较传统并行采样提升2-3个百分点（如GPQA从90.3升至92.8）。

性能对比

下表为部分核心评测数据（百分制）：

| 能力维度 | 测试基准 | GPT-5.2 | Gemini 3 Pro | Qwen3-Max |
|----------------|-------------------|---------|--------------|----------|
| 知识 | C-Eval | 90.5 | 93.4 | 93.7 |
| STEM | GPQA | 92.4 | 91.9 | 87.4 |
| 推理 | HMMT Feb 25 | 99.4 | 97.5 | 98.0 |
| 智能体搜索 | HLE（工具辅助） | 45.5 | 45.8 | 49.8 |
| 对齐能力 | Arena-Hard v2 | 80.6 | 81.7 | 90.2 |

开发者支持

API调用：模型代号qwen3-max-2026-01-23，兼容OpenAI与Anthropic协议。
- Python示例：
  python from openai import OpenAI client = OpenAI(api_key="YOUR_KEY", base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1") response = client.chat.completions.create(model="qwen3-max-2026-01-23", messages=[...])
- Claude Code集成：
  bash npm install -g @anthropic-ai/claude-code export ANTHROPIC_MODEL="qwen3-max-2026-01-23"

引用方式

bibtex @misc{qwen3maxthinking, title = {Pushing Qwen3-Max-Thinking Beyond its Limits}, url = {https://qwen.ai/blog?id=qwen3-max-thinking}, author = {Qwen Team}, year = {2026} }

（注：原文中的部分评测细节及工具配置说明已精简，保留核心技术亮点与性能对比。）

评论总结

这篇评论主要围绕以下几个观点展开：

对模型性能的期待

有用户期待能超越Opus 4.5的代理编码模型（"I wished they release a model which outperforms Opus 4.5 in agentic coding"）
有用户对2026年开源/小模型发展表示期待（"2026 will be the year of open and/or small models"）

关于模型发布的疑问

用户询问是否不再发布模型（"is Qwen no longer releasing their models?"）
用户找不到相关发布信息（"I tried to search, could not find anything"）

定价相关问题

用户关注定价模式（"do they offer subscriptions? Or only pay per tokens?"）
用户注意到中国内地价格差异（"the models are significantly cheaper within mainland China"）

技术细节询问

用户询问新模型的具体规模（"how large is that new model?"）

无关评论

包含一个自行车上的鹈鹕图片链接（"Mandatory pelican on bicycle"）

注：所有评论均未显示评分（None），说明这些评论尚未获得社区认可度。

Qwen3-Max-思维 -- Qwen3-Max-Thinking