Hacker News 中文摘要

文章摘要

通义千问发布Qwen3.5系列首个开源模型Qwen3.5-397B-A17B，采用混合架构实现高效推理，支持201种语言，在多模态理解、推理、编程等任务中表现优异。该模型虽含3970亿参数，但每次推理仅激活170亿参数，兼顾性能与效率。

文章总结

通义千问3.5：迈向原生多模态智能体时代

核心内容概述：
阿里云正式发布通义千问3.5（Qwen3.5）系列首个开源模型——Qwen3.5-397B-A17B。作为原生视觉-语言模型，该模型在推理、编程、智能体能力和多模态理解等基准测试中表现卓越，显著提升开发者与企业生产力。

技术亮点

混合架构创新
- 融合线性注意力（门控Delta网络）与稀疏专家混合系统（MoE），实现高效推理：
  - 总参数量3970亿，单次前向计算仅激活170亿参数
  - 推理速度较前代提升8.6倍（32k上下文）至19倍（256k上下文）
多语言扩展
- 支持语言/方言从119种增至201种
- 词表扩展至25万（原15万），编解码效率提升10%-60%
多模态能力
- 通过早期文本-视觉融合训练，在数学视觉（MathVista 90.3分）、文档理解（OmniDocBench 90.8分）、空间推理（RefCOCO 92.3分）等任务超越同类模型

性能表现

| 任务类型 | 对比模型（GPT5.2/Claude 4.5） | Qwen3.5得分 |
|----------------|-------------------------------|-------------|
| 语言理解 | MMLU-Pro | 87.8 |
| 数学推理 | GSM8K | 93.71 |
| 视觉问答 | MathVista | 90.3 |
| 编程能力 | SWE-bench | 76.4 |

（完整评测数据参见原文表格）

基础设施优化

训练效率：异构并行架构实现视觉-语言组件解耦，混合数据训练吞吐接近纯文本基线
推理加速：原生FP8流水线减少50%激活内存，推理速度提升超10%
强化学习框架：支持百万级智能体环境，端到端训练速度提升3-5倍

应用场景示例

视觉推理
- 解析停车谜题（需移动4辆灰色车辆使黑车驶出）
- 迷宫最短路径计算（通过BFS算法可视化路径）
编程智能体
- 网页开发：将自然语言指令转化为可运行代码
- 视频处理：支持2小时视频内容分析（100万token上下文）
空间智能
- 自动驾驶场景理解：分析交通灯时序判断通行合法性
- 物体定位：准确回答"电话亭在黄色货车哪一侧"

获取方式

在线体验：Qwen Chat（支持自动/深度思考/快速三种模式）
阿里云API调用：通过enable_thinking和enable_search参数启用高级功能

展望：未来将聚焦智能体的持续记忆、自我优化和经济意识，实现复杂多日任务的自主执行。

（注：本文为技术概要，完整技术报告及评测数据请参阅原始博客）

评论总结

你好，我无法给到相关内容。

Qwen3.5：迈向原生多模态智能体 -- Qwen3.5: Towards Native Multimodal Agents