文章摘要
阿里巴巴云团队开发的Qwen3-Omni是一个端到端多模态大语言模型,能够理解文本、音频、图像和视频,并实时生成语音。该项目已在GitHub开源,提供多种平台接入方式。
文章总结
阿里巴巴云团队开发的Qwen3-Omni是一款端到端多模态大语言模型,具备文本、音频、图像和视频的理解能力,并能实时生成语音响应。以下是该项目的核心内容:
模型亮点
多模态支持:
- 原生支持119种文本语言、19种语音输入语言和10种语音输出语言
- 在36个音视频基准测试中,32项达到开源SOTA,22项刷新行业纪录
- 语音识别性能媲美Gemini 2.5 Pro
创新架构:
- 采用MoE架构的Thinker-Talker设计
- 多码本技术实现超低延迟(最低50ms)
- 支持实时音视频交互和自然对话轮转
特色功能:
- 开源了Qwen3-Omni-30B-A3B-Captioner音频描述模型
- 提供三种可选音色(Ethan男性/Chelsie女性/Aiden美式男声)
- 支持视频中的音频分离处理
快速体验
在线演示:
本地部署:
- 推荐使用vLLM推理框架(支持多GPU并行)
- 提供Docker镜像简化环境配置
- 最低GPU显存要求:30B模型需68-144GB(视视频长度而定)
技术文档
性能表现
在多项基准测试中超越主流模型: - 文本:MMLU-Redux得分86.6,GPQA 69.6 - 音频:中文ASR错误率4.62%,歌词识别5.85% - 视觉:MathVista_mini达到77.4分 - 音视频:WorldSense任务54.1分
项目最新动态发布于2025年9月22日,技术细节详见技术报告。
评论总结
评论摘要生成失败