Hacker News 中文摘要

RSS订阅

Qwen3.6-Plus:迈向现实世界智能体 -- Qwen3.6-Plus: Towards Real World Agents

文章摘要

通义千问发布Qwen3.6-Plus模型,在代码能力、多模态推理和真实世界感知方面实现重大升级。该模型默认支持100万上下文窗口,显著提升了前端开发和复杂代码库问题的解决能力,为开发者提供更稳定的"氛围编程"体验。现已在阿里云Model Studio平台开放API服务。

文章总结

Qwen3.6-Plus:迈向现实世界智能体的重要升级

核心升级亮点

  1. 全面能力提升

    • 在Qwen3.5系列基础上实现重大突破
    • 默认支持100万token上下文窗口
    • 显著增强多模态感知与推理能力
  2. 工程级编码突破

    • 前端开发到仓库级问题解决的全面优化
    • 主流代码修复基准测试中媲美行业领先者
    • 复杂终端操作和自动化任务执行表现突出
  3. 智能体能力进化

    • 长周期规划任务取得突破性进展
    • 工具调用基准测试全面领先
    • 实现推理、记忆与执行能力的深度整合

多模态能力进展

  1. 高级视觉推理

    • 复杂文档理解准确率达91.2%(OmniDocBench1.5)
    • 空间定位精度提升至93.5%(RefCOCO基准)
    • 视频理解能力达87.8分(VideoMME基准)
  2. 视觉应用闭环

    • 支持从UI设计图到完整前端代码的生成
    • 实现PPT自动生成等实用功能
    • 构建"感知-理解-执行"完整能力链

开发者支持

  1. API增强功能

    • 新增preserve_thinking参数优化多步任务处理
    • 兼容OpenAI和Anthropic协议
    • 提供代码示例: python completion = client.chat.completions.create( model="qwen3.6-plus", messages=messages, extra_body={"enable_thinking": True} )
  2. 生态整合

    • 支持OpenClaw、Qwen Code等主流编码助手
    • 终端开发工具链深度优化
    • 每日提供1000次免费调用额度

性能数据对比(部分关键指标)

| 测试项目 | Qwen3.5 | Qwen3.6-Plus | 提升幅度 | |-------------------|---------|--------------|---------| | SWE-bench Verified | 76.2 | 78.8 | +3.4% | | Terminal-Bench 2.0 | 52.5 | 61.6 | +17.3% | | MMMU视觉推理 | 85.0 | 86.0 | +1.2% | | 文档理解(OmniDoc) | 90.8 | 91.2 | +0.4% |

未来规划

  • 即将开源小规模模型变体
  • 持续优化仓库级复杂任务处理
  • 推进多模态智能体的环境交互能力

引用方式: @misc{qwen36plus, title = {Qwen3.6-Plus:迈向现实世界智能体}, url = {https://qwen.ai/blog?id=qwen3.6}, author = {Qwen团队}, month = {4月}, year = {2026}}

(注:本文对原始技术文档进行了专业编译处理,保留核心技术创新点和关键性能数据,去除冗余的测试细节表格和重复性功能描述,优化了技术术语的中文表达,使内容更符合中文技术社区的阅读习惯。)

评论总结

以下是评论内容的总结,平衡呈现不同观点:

  1. 版本对比争议

    • 批评者认为与旧版模型(Opus 4.5/Gemini 3 Pro)对比是刻意误导:
      • "Comparing to Opus 4.5 instead of 4.6... is clearly an attempt to deceive" (Aurornis)
      • "How convenient to compare to last-gen models to make their model look better" (Art9681)
    • 支持者认为旧版对比仍有参考价值:
      • "I can remember how good Opus 4.5 was... most informative to compare to familiar models" (furyofantares)
      • "Calling it misleading is a stretch... we didn't forget previous generations" (Alifatisk)
  2. 开源争议

    • 对闭源表示失望:
      • "It's not open weights so I'm not interested" (MarsIronPI)
      • "Got publicity for open weight... now pivoting to hosted model" (Aurornis)
    • 部分用户表示理解:
      • "Qwen has been hosting private variants for a while" (linolevan)
      • "This is not new, Qwen-3.5-plus was also closed" (Alifatisk)
  3. 性能与市场定位

    • 对技术进步的认可:
      • "Benchmarks look very good... progress is healthy for consumers" (Alifatisk)
      • "Open weight models were decent, excited to see this" (eis)
    • 对实用性的质疑:
      • "B tier models are six months behind" (woeirua)
      • "Most users will change providers overnight for better models" (Aurornis)
  4. 隐私与信任问题

    • 对阿里云托管表示担忧:
      • "I trust Google/OpenAI more than alibaba" (daft_pink)
    • 关注实际应用场景:
      • "How it handles long-horizon tasks with error recovery?" (Caum)
      • "Would love user comparisons with Claude Code" (throwaw12)

关键引用保留: - 英文:"Comparing to Opus 4.5... is clearly an attempt to deceive" (Aurornis) - 中文:"与Opus 4.5而非4.6对比显然是欺骗行为" (Aurornis) - 英文:"I can remember how good Opus 4.5 was" (furyofantares) - 中文:"我记得Opus 4.5的表现,这种对比更有参考价值" (furyofantares)