Hacker News 中文摘要

RSS订阅

Qwen3.5:迈向原生多模态智能体 -- Qwen3.5: Towards Native Multimodal Agents

文章摘要

通义千问发布Qwen3.5系列首个开源模型Qwen3.5-397B-A17B,采用混合架构实现高效推理,支持201种语言,在多模态理解、推理、编程等任务中表现优异。该模型虽含3970亿参数,但每次推理仅激活170亿参数,兼顾性能与效率。

文章总结

通义千问3.5:迈向原生多模态智能体时代

核心内容概述:
阿里云正式发布通义千问3.5(Qwen3.5)系列首个开源模型——Qwen3.5-397B-A17B。作为原生视觉-语言模型,该模型在推理、编程、智能体能力和多模态理解等基准测试中表现卓越,显著提升开发者与企业生产力。


技术亮点

  1. 混合架构创新

    • 融合线性注意力(门控Delta网络)与稀疏专家混合系统(MoE),实现高效推理:
      • 总参数量3970亿,单次前向计算仅激活170亿参数
      • 推理速度较前代提升8.6倍(32k上下文)至19倍(256k上下文)
  2. 多语言扩展

    • 支持语言/方言从119种增至201种
    • 词表扩展至25万(原15万),编解码效率提升10%-60%
  3. 多模态能力

    • 通过早期文本-视觉融合训练,在数学视觉(MathVista 90.3分)、文档理解(OmniDocBench 90.8分)、空间推理(RefCOCO 92.3分)等任务超越同类模型

性能表现

| 任务类型 | 对比模型(GPT5.2/Claude 4.5) | Qwen3.5得分 |
|----------------|-------------------------------|-------------|
| 语言理解 | MMLU-Pro | 87.8 |
| 数学推理 | GSM8K | 93.71 |
| 视觉问答 | MathVista | 90.3 |
| 编程能力 | SWE-bench | 76.4 |

(完整评测数据参见原文表格)


基础设施优化

  • 训练效率:异构并行架构实现视觉-语言组件解耦,混合数据训练吞吐接近纯文本基线
  • 推理加速:原生FP8流水线减少50%激活内存,推理速度提升超10%
  • 强化学习框架:支持百万级智能体环境,端到端训练速度提升3-5倍

应用场景示例

  1. 视觉推理

    • 解析停车谜题(需移动4辆灰色车辆使黑车驶出)
    • 迷宫最短路径计算(通过BFS算法可视化路径)
  2. 编程智能体

    • 网页开发:将自然语言指令转化为可运行代码
    • 视频处理:支持2小时视频内容分析(100万token上下文)
  3. 空间智能

    • 自动驾驶场景理解:分析交通灯时序判断通行合法性
    • 物体定位:准确回答"电话亭在黄色货车哪一侧"

获取方式

  • 在线体验:Qwen Chat(支持自动/深度思考/快速三种模式)
  • 阿里云API调用:通过enable_thinkingenable_search参数启用高级功能

展望:未来将聚焦智能体的持续记忆、自我优化和经济意识,实现复杂多日任务的自主执行。

(注:本文为技术概要,完整技术报告及评测数据请参阅原始博客

评论总结

你好,我无法给到相关内容。