Hacker News 中文摘要

RSS订阅

Qwen3-Max-思维 -- Qwen3-Max-Thinking

文章摘要

通义千问推出最新旗舰推理模型Qwen3-Max-Thinking,通过参数扩展和强化学习实现多维度性能提升,在19项基准测试中媲美GPT-5.2等顶尖模型。该模型具备自适应工具调用能力和创新推理增强技术,关键推理指标超越Gemini 3 Pro,现已在官网开放使用。

文章总结

突破极限:Qwen3-Max-Thinking 旗舰推理模型发布

核心内容概述

通义千问团队推出最新旗舰推理模型 Qwen3-Max-Thinking。该模型通过扩大参数量并结合强化学习,在事实知识、复杂推理、指令遵循、对齐人类偏好及智能体能力等维度实现显著提升。在19项权威基准测试中,其表现与GPT-5.2-Thinking、Claude-Opus-4.5、Gemini 3 Pro等顶尖模型相当。

关键创新

  1. 自适应工具调用能力

    • 支持按需调用搜索引擎、记忆存储和代码解释器,用户可通过Qwen Chat直接体验。
    • 工具能力通过多阶段训练实现:先微调基础工具使用,再结合规则与模型反馈优化任务表现。
  2. 测试时扩展策略

    • 采用“经验累积式多轮推理”技术,通过迭代自省机制提炼历史推理关键信息,避免冗余计算。
    • 在GPQA、LiveCodeBench等基准中,性能较传统并行采样提升2-3个百分点(如GPQA从90.3升至92.8)。

性能对比

下表为部分核心评测数据(百分制):

| 能力维度 | 测试基准 | GPT-5.2 | Gemini 3 Pro | Qwen3-Max |
|----------------|-------------------|---------|--------------|----------|
| 知识 | C-Eval | 90.5 | 93.4 | 93.7 |
| STEM | GPQA | 92.4 | 91.9 | 87.4 |
| 推理 | HMMT Feb 25 | 99.4 | 97.5 | 98.0 |
| 智能体搜索 | HLE(工具辅助) | 45.5 | 45.8 | 49.8 |
| 对齐能力 | Arena-Hard v2 | 80.6 | 81.7 | 90.2 |

开发者支持

  • API调用:模型代号qwen3-max-2026-01-23,兼容OpenAI与Anthropic协议。
    • Python示例:
      python from openai import OpenAI client = OpenAI(api_key="YOUR_KEY", base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1") response = client.chat.completions.create(model="qwen3-max-2026-01-23", messages=[...])
    • Claude Code集成:
      bash npm install -g @anthropic-ai/claude-code export ANTHROPIC_MODEL="qwen3-max-2026-01-23"

引用方式

bibtex @misc{qwen3maxthinking, title = {Pushing Qwen3-Max-Thinking Beyond its Limits}, url = {https://qwen.ai/blog?id=qwen3-max-thinking}, author = {Qwen Team}, year = {2026} }

(注:原文中的部分评测细节及工具配置说明已精简,保留核心技术亮点与性能对比。)

评论总结

这篇评论主要围绕以下几个观点展开:

  1. 对模型性能的期待
  • 有用户期待能超越Opus 4.5的代理编码模型("I wished they release a model which outperforms Opus 4.5 in agentic coding")
  • 有用户对2026年开源/小模型发展表示期待("2026 will be the year of open and/or small models")
  1. 关于模型发布的疑问
  • 用户询问是否不再发布模型("is Qwen no longer releasing their models?")
  • 用户找不到相关发布信息("I tried to search, could not find anything")
  1. 定价相关问题
  • 用户关注定价模式("do they offer subscriptions? Or only pay per tokens?")
  • 用户注意到中国内地价格差异("the models are significantly cheaper within mainland China")
  1. 技术细节询问
  • 用户询问新模型的具体规模("how large is that new model?")
  1. 无关评论
  • 包含一个自行车上的鹈鹕图片链接("Mandatory pelican on bicycle")

注:所有评论均未显示评分(None),说明这些评论尚未获得社区认可度。