Hacker News 中文摘要

RSS订阅

Qwen3-Omni: Native Omni AI model for text, image and video

文章摘要

阿里巴巴云团队开发的Qwen3-Omni是一个端到端多模态大语言模型,能够理解文本、音频、图像和视频,并实时生成语音。该项目已在GitHub开源,提供多种平台接入方式。

文章总结

阿里巴巴云团队开发的Qwen3-Omni是一款端到端多模态大语言模型,具备文本、音频、图像和视频的理解能力,并能实时生成语音响应。以下是该项目的核心内容:

模型亮点

  1. 多模态支持

    • 原生支持119种文本语言、19种语音输入语言和10种语音输出语言
    • 在36个音视频基准测试中,32项达到开源SOTA,22项刷新行业纪录
    • 语音识别性能媲美Gemini 2.5 Pro
  2. 创新架构

    • 采用MoE架构的Thinker-Talker设计
    • 多码本技术实现超低延迟(最低50ms)
    • 支持实时音视频交互和自然对话轮转
  3. 特色功能

    • 开源了Qwen3-Omni-30B-A3B-Captioner音频描述模型
    • 提供三种可选音色(Ethan男性/Chelsie女性/Aiden美式男声)
    • 支持视频中的音频分离处理

快速体验

  • 在线演示

  • 本地部署

    • 推荐使用vLLM推理框架(支持多GPU并行)
    • 提供Docker镜像简化环境配置
    • 最低GPU显存要求:30B模型需68-144GB(视视频长度而定)

技术文档

性能表现

在多项基准测试中超越主流模型: - 文本:MMLU-Redux得分86.6,GPQA 69.6 - 音频:中文ASR错误率4.62%,歌词识别5.85% - 视觉:MathVista_mini达到77.4分 - 音视频:WorldSense任务54.1分

项目最新动态发布于2025年9月22日,技术细节详见技术报告

评论总结

评论摘要生成失败