文章摘要
通义千问Qwen3-Omni-Flash-2025-12-01是多模态大模型升级版,能同时处理文本、图像、音频和视频输入,并实时生成文本与语音输出。新版大幅提升了视听交互体验,优化了多模态指令的理解与执行能力。
文章总结
标题:Qwen3-Omni-Flash-2025-12-01:听懂你,看懂你,更智能地跟随!
主要内容:
Qwen3-Omni 是一款新一代原生多模态大模型,能够无缝处理文本、图像、音频和视频等多种输入模态,并通过实时流式响应同时生成文本和自然语音输出。最新版本 Qwen3-Omni-Flash-2025-12-01 在模型性能和效率上进行了多项优化升级。
核心升级亮点
大幅增强的视听交互体验
- 显著提升对音频和视觉指令的理解与执行能力,有效解决日常口语场景中的“智能下降”问题。
- 多轮视听对话的稳定性和连贯性大幅提升,交互更加自然流畅。
强化系统提示控制
- 支持完全自定义系统提示,精准控制模型行为,包括人物风格(如甜美、酷炫、动漫风)、口语化偏好或输出长度限制等。
更可靠的多语言支持
- 支持 119 种语言 的文本交互、19 种语言 的语音识别和 10 种语言 的语音合成。
- 解决了此前版本的语言跟随不稳定性,确保不同语境下的准确性和一致性。
更自然流畅的语音合成
- 显著提升韵律自适应控制,智能调整语速、停顿和语调,使语音输出更富有表现力,接近真人发音。
性能表现
相比上一版本 Qwen3-Omni-Flash,新模型在各项基准测试中均有显著提升:
- 文本理解与生成:逻辑推理(ZebraLogic +5.6)、代码生成(LiveCodeBench-v6 +9.3)、写作质量(WritingBench +2.2)全面提升。
- 语音理解:在 Fleurs-zh 数据集上词错率降低,VoiceBench 提升 +3.2,增强真实对话场景的理解能力。
- 语音合成:中文及多语言场景下语音质量更高,韵律和节奏更接近自然人类语音。
- 图像理解:视觉推理任务表现突出,MMMU +4.7,MathVision_full +2.2,能更精准解析复杂图表和数学图形。
- 视频理解:语义理解能力稳步提升(MLVU +1.6),视听同步性增强,为实时视频对话奠定基础。
此次升级使 Qwen3-Omni-Flash-2025-12-01 真正实现了“听懂你,看懂你,更智能地跟随”的愿景,带来更自然、精准、生动的 AI 交互体验。
未来计划
团队将持续优化模型,包括多说话人语音识别、视频 OCR、音视频主动学习,并增强对智能代理工作流的支持。
引用说明:
若模型对您的研究有帮助,欢迎引用:
bibtex
@misc{qwen3_omni_20251201,
author = {{Qwen Team, Alibaba}},
title = {{Qwen3-Omni-Flash-2025-12-01:Hear You. See You. Follow Smarter!}},
year = {2025},
url = {https://qwen.ai/blog?id=qwen3-omni-20251201},
urldate = {2025-12-09}
}
评论总结
以下是评论内容的总结:
模型准确性争议
- 有用户指出AI在回答吉他踏板电阻数量时出错(实际2个,AI回答29个)
"It replied 29 resistors... Answer is 2 resistors" - dvh
- 有用户指出AI在回答吉他踏板电阻数量时出错(实际2个,AI回答29个)
实时对话功能探讨
- 关于Qwen3-Omni是否支持类似GPT-4o的实时对话存在疑问与确认
"Does Qwen3-Omni support real-time conversation like GPT-4o?" - sosodev
"It does support real-time conversation!" - sosodev
- 关于Qwen3-Omni是否支持类似GPT-4o的实时对话存在疑问与确认
语音合成的自然度问题
- 用户指出AI语音存在不自然的"无生命感",表现为语调单一和语速过于稳定
"hard to pin down reason of life-lessness... overly stable rate of speech" - binsquare
- 用户指出AI语音存在不自然的"无生命感",表现为语调单一和语速过于稳定
模型性能评价
- 对GPT-4o和Qwen3-Omni的性能表示惊叹,特别是后者作为30B参数的开放权重模型
"GPT4o in the charts is crazy" - rarisma
"crushing 2.5 Flash on every benchmark is huge" - banjoe
- 对GPT-4o和Qwen3-Omni的性能表示惊叹,特别是后者作为30B参数的开放权重模型
本地运行与技术实现
- 讨论如何在Macbook等设备上量化运行Omni模型,以及缺乏开源解决方案的问题
"Is there a way to run these Omni models on a Macbook quantized via GGUF or MLX?" - terhechte - 开发者关注如何区分语音输出中的思考内容和最终回答
"how to separate non-diegetic outputs from outputs meant to be heard" - sim04ful
- 讨论如何在Macbook等设备上量化运行Omni模型,以及缺乏开源解决方案的问题
模型可用性质疑
- 有用户发现该模型可能仅提供API服务,无法本地部署
"Looks to be API only. Bummer." - aschobel
- 有用户发现该模型可能仅提供API服务,无法本地部署
模型参数与架构
- 指出这是30B参数的MoE模型,激活参数3B,性能接近非Omni版本
"This is a 30B parameter MoE with 3B active parameters" - gardnr
- 指出这是30B参数的MoE模型,激活参数3B,性能接近非Omni版本