Hacker News 中文摘要

RSS订阅

Qwen3.6-Max-Preview:更智能、更精准,持续进化 -- Qwen3.6-Max-Preview: Smarter, Sharper, Still Evolving

文章摘要

通义千问发布Qwen3.6-Max-Preview预览版,相比Qwen3.6-Plus版本在知识理解、指令跟随和智能编码能力上有显著提升。该模型目前仍处于持续优化阶段,可通过阿里云平台体验,未来性能还将进一步增强。

文章总结

通义千问3.6-Max预览版发布:更智能、更精准的持续进化

在推出Qwen3.6-Plus版本后,我们正式发布新一代专有模型Qwen3.6-Max的预览版本。该版本在知识储备、指令遵循和智能体编码能力方面实现显著提升,目前仍在持续迭代优化中。

核心升级亮点: - 智能体编码能力显著增强(SkillsBench提升9.9分,SciCode提升6.3分) - 世界知识库与指令遵循能力优化(SuperGPQA提升2.3分,中文基准提升5.3分) - 真实场景下的智能体可靠性提升

技术特性: 1. 部署方式: - 通过阿里云Model Studio平台提供托管服务 - 即将开放API调用(模型标识:qwen3.6-max-preview) - 用户可通过Qwen Studio进行交互式体验

  1. 性能表现:

    • 在六大编程基准测试(SWE-bench Pro等)中取得领先成绩
    • 知识类测试(SuperGPQA等)和指令遵循测试表现突出
  2. API特色功能:

    • 支持"preserve_thinking"特性,保留智能体任务的完整思考链
    • 兼容OpenAI规范的标准API接口
    • 提供多区域服务节点(北京/新加坡/弗吉尼亚)

开发进展: 作为预览版本,Qwen3.6-Max仍在持续优化中。团队欢迎开发者通过官方渠道提交反馈,共同推动模型进化。完整版本即将登陆阿里云Model Studio平台。

[注:原文中的代码示例、具体分数对比及引用格式等技术细节已作简化处理,保留核心功能说明]

评论总结

以下是评论内容的总结:

  1. 模型比较的质疑

    • 有评论认为将Opus 4.5与其他模型比较不够客观,因为Opus 4.6已发布较长时间(评论1)。
    • 也有用户对未包含OpenAI模型表示疑惑,并质疑Z GLM 5.1的优异表现是否真实(评论3)。
  2. 实际使用体验

    • 部分用户更关注性价比,如MiniMax M2.5以低成本满足需求(评论4)。
    • 在特定领域(如实时路径追踪),Qwen的表现优于Claude和Gemini(评论6)。
  3. 开源与商业化的矛盾

    • 担忧行业趋势从开源转向闭源,可能导致普通用户失去计算自主权(评论5)。
  4. 模型可用性问题

    • 用户反映Qwen 3.6 Plus订阅困难,质疑宣传与实际可用的差距(评论7)。
  5. 工具适用性的观点

    • 强调不同模型各有优势,实际表现比基准测试更重要(评论8)。

关键引用:
- "Opus 4.6 has been out for quite some time"(评论1)
- "Qwen always gave me proper, practical and correct information"(评论6)
- "The day no one releases open weights is a sad day for humanity"(评论5)
- "They brag about Qwen but don’t let people use it"(评论7)
- "Benchmarks are one thing but reality is what the modes actually do"(评论8)