Hacker News 中文摘要

RSS订阅

Qwen3-TTS家族正式开源:语音设计、克隆与生成 -- Qwen3-TTS Family Is Now Open Sourced: Voice Design, Clone, and Generation

文章摘要

通义千问开源Qwen3-TTS系列语音模型,支持语音克隆、设计及高质量人声生成,采用创新多码本编码器和双轨建模技术,实现高效压缩与极速流式生成,包含1.7B和0.5B两个版本。

文章总结

通义千问开源Qwen3-TTS语音模型家族:支持音色设计与克隆的尖端语音生成技术

核心内容: 1. 模型开源 - Qwen3-TTS系列正式开源,包含1.7B和0.6B两种规格 - 1.7B版本提供顶级性能,0.6B版本实现高效平衡 - 支持通过GitHub、HuggingFace等平台获取,并提供API服务

  1. 核心技术
  • 采用创新的12Hz多码本语音编码器
  • 双轨建模架构实现极低延迟(首字符输入97ms内响应)
  • 轻量级非DiT结构保持高保真重建能力
  • 完整保留副语言信息和声学环境特征
  1. 核心功能
  • 音色设计:通过自然语言描述生成定制音色
  • 音色克隆:3秒音频即可实现高质量克隆
  • 多语言支持:覆盖中英日韩等10种主流语言及方言
  • 智能控制:基于语义自动调节语调、节奏和情感
  1. 性能表现
  • 在InstructTTS-Eval等基准测试中多项指标达SOTA
  • 跨语言克隆能力超越CosyVoice3等模型
  • 长文本合成(10分钟)保持低至2.36%的字错误率
  • 语音重建质量PESQ达3.68(窄带),STOI达0.96
  1. 应用场景
  • 提供9种预设音色,覆盖不同年龄、性别和方言组合
  • 支持多角色对话生成和音色持久化存储
  • 具备强大的文本噪声鲁棒性,可处理拼音、公式等特殊文本

该技术突破传统语音合成的信息瓶颈,通过端到端架构实现"所想即所听"的生成效果,为开发者提供目前最全面的语音生成解决方案。

评论总结

总结评论内容:

  1. 对技术效果的积极评价
  • 有用户对AI语音克隆技术表示惊叹,认为可以用于修复老旧广播剧:"technology gives me chills...plausible to use AI TTS to remaster old radioplays"(genewitch)
  • 有用户对英文语音样本表示赞赏:"great news, this looks great"(albertwang)
  1. 对技术实现的疑问
  • 本地运行问题:"I still don't know anyone who managed Qwen3-Omni to work properly on a local machine"(lostmsu)
  • 新手询问具体实现方式:"how would I implement this locally? How do I pass it audio to process"(thedangler)
  1. 功能比较请求
  • 有用户希望与其他产品对比:"How does the cloning compare to pocket TTS?"(indigodaddy)
  1. 对开发团队的看法
  • 有用户在赞赏模型的同时表达对公司领导层的担忧:"I like the model, I don't like the leadership of that company"(throwaw12)
  1. 样本选择问题
  • 有用户注意到样本可能经过精选:"maybe the results were cherrypicked"(genewitch)
  • 有用户发现样本使用奥巴马声音:"One of the English Voice Clone examples features Obama"(ideashower)