Hacker News 中文摘要

RSS订阅

Qwen3-TTS家族正式开源：语音设计、克隆与生成 -- Qwen3-TTS Family Is Now Open Sourced: Voice Design, Clone, and Generation

原文链接 | HN讨论 | 2026-01-23 00:59:47

文章摘要

通义千问开源Qwen3-TTS系列语音模型，支持语音克隆、设计及高质量人声生成，采用创新多码本编码器和双轨建模技术，实现高效压缩与极速流式生成，包含1.7B和0.5B两个版本。

文章总结

通义千问开源Qwen3-TTS语音模型家族：支持音色设计与克隆的尖端语音生成技术

核心内容： 1. 模型开源 - Qwen3-TTS系列正式开源，包含1.7B和0.6B两种规格 - 1.7B版本提供顶级性能，0.6B版本实现高效平衡 - 支持通过GitHub、HuggingFace等平台获取，并提供API服务

核心技术

采用创新的12Hz多码本语音编码器
双轨建模架构实现极低延迟（首字符输入97ms内响应）
轻量级非DiT结构保持高保真重建能力
完整保留副语言信息和声学环境特征

核心功能

音色设计：通过自然语言描述生成定制音色
音色克隆：3秒音频即可实现高质量克隆
多语言支持：覆盖中英日韩等10种主流语言及方言
智能控制：基于语义自动调节语调、节奏和情感

性能表现

在InstructTTS-Eval等基准测试中多项指标达SOTA
跨语言克隆能力超越CosyVoice3等模型
长文本合成（10分钟）保持低至2.36%的字错误率
语音重建质量PESQ达3.68（窄带），STOI达0.96

应用场景

提供9种预设音色，覆盖不同年龄、性别和方言组合
支持多角色对话生成和音色持久化存储
具备强大的文本噪声鲁棒性，可处理拼音、公式等特殊文本

该技术突破传统语音合成的信息瓶颈，通过端到端架构实现"所想即所听"的生成效果，为开发者提供目前最全面的语音生成解决方案。

评论总结

总结评论内容：

对技术效果的积极评价

有用户对AI语音克隆技术表示惊叹，认为可以用于修复老旧广播剧："technology gives me chills...plausible to use AI TTS to remaster old radioplays"(genewitch)
有用户对英文语音样本表示赞赏："great news, this looks great"(albertwang)

对技术实现的疑问

本地运行问题："I still don't know anyone who managed Qwen3-Omni to work properly on a local machine"(lostmsu)
新手询问具体实现方式："how would I implement this locally? How do I pass it audio to process"(thedangler)

功能比较请求

有用户希望与其他产品对比："How does the cloning compare to pocket TTS?"(indigodaddy)

对开发团队的看法

有用户在赞赏模型的同时表达对公司领导层的担忧："I like the model, I don't like the leadership of that company"(throwaw12)

样本选择问题

有用户注意到样本可能经过精选："maybe the results were cherrypicked"(genewitch)
有用户发现样本使用奥巴马声音："One of the English Voice Clone examples features Obama"(ideashower)