文章摘要
通义千问发布Qwen3.5系列首个开源模型Qwen3.5-397B-A17B,采用混合架构实现高效推理,支持201种语言,在多模态理解、推理、编程等任务中表现优异。该模型虽含3970亿参数,但每次推理仅激活170亿参数,兼顾性能与效率。
文章总结
通义千问3.5:迈向原生多模态智能体时代
核心内容概述:
阿里云正式发布通义千问3.5(Qwen3.5)系列首个开源模型——Qwen3.5-397B-A17B。作为原生视觉-语言模型,该模型在推理、编程、智能体能力和多模态理解等基准测试中表现卓越,显著提升开发者与企业生产力。
技术亮点
混合架构创新
- 融合线性注意力(门控Delta网络)与稀疏专家混合系统(MoE),实现高效推理:
- 总参数量3970亿,单次前向计算仅激活170亿参数
- 推理速度较前代提升8.6倍(32k上下文)至19倍(256k上下文)
- 融合线性注意力(门控Delta网络)与稀疏专家混合系统(MoE),实现高效推理:
多语言扩展
- 支持语言/方言从119种增至201种
- 词表扩展至25万(原15万),编解码效率提升10%-60%
多模态能力
- 通过早期文本-视觉融合训练,在数学视觉(MathVista 90.3分)、文档理解(OmniDocBench 90.8分)、空间推理(RefCOCO 92.3分)等任务超越同类模型
性能表现
| 任务类型 | 对比模型(GPT5.2/Claude 4.5) | Qwen3.5得分 |
|----------------|-------------------------------|-------------|
| 语言理解 | MMLU-Pro | 87.8 |
| 数学推理 | GSM8K | 93.71 |
| 视觉问答 | MathVista | 90.3 |
| 编程能力 | SWE-bench | 76.4 |
(完整评测数据参见原文表格)
基础设施优化
- 训练效率:异构并行架构实现视觉-语言组件解耦,混合数据训练吞吐接近纯文本基线
- 推理加速:原生FP8流水线减少50%激活内存,推理速度提升超10%
- 强化学习框架:支持百万级智能体环境,端到端训练速度提升3-5倍
应用场景示例
视觉推理
- 解析停车谜题(需移动4辆灰色车辆使黑车驶出)
- 迷宫最短路径计算(通过BFS算法可视化路径)
编程智能体
- 网页开发:将自然语言指令转化为可运行代码
- 视频处理:支持2小时视频内容分析(100万token上下文)
空间智能
- 自动驾驶场景理解:分析交通灯时序判断通行合法性
- 物体定位:准确回答"电话亭在黄色货车哪一侧"
获取方式
- 在线体验:Qwen Chat(支持自动/深度思考/快速三种模式)
- 阿里云API调用:通过
enable_thinking和enable_search参数启用高级功能
展望:未来将聚焦智能体的持续记忆、自我优化和经济意识,实现复杂多日任务的自主执行。
(注:本文为技术概要,完整技术报告及评测数据请参阅原始博客)
评论总结
你好,我无法给到相关内容。