文章摘要

KittenTTS是一个体积小于25MB的先进文本转语音(TTS)模型，在GitHub上开源。该模型在保持小巧体积的同时实现了业界领先的语音合成效果。项目由KittenML团队开发维护，属于AI代码创作领域的应用。

文章总结

KittenTTS：轻量级开源文本转语音模型

项目概述

KittenTTS是由KittenML团队开发的开源文本转语音(TTS)库，其核心特点是模型体积小巧（25-80MB）却能达到业界领先的语音合成质量。该项目基于ONNX运行时，可在CPU上高效运行，无需GPU支持。

核心特性

超轻量级：提供15M到80M参数的不同规格模型，最小仅25MB(int8量化版)
CPU优化：基于ONNX的推理引擎，无需GPU即可流畅运行
多样化语音：内置8种不同音色(Bella、Jasper、Luna等)
可调语速：支持通过speed参数控制语音播放速度
文本预处理：自动处理数字、货币单位等特殊文本
高质量输出：24kHz采样率音频输出

模型版本

| 模型名称 | 参数量 | 体积 | 下载地址 | |---------|-------|-----|---------| | kitten-tts-mini | 80M | 80MB | HuggingFace | | kitten-tts-micro | 40M | 41MB | HuggingFace | | kitten-tts-nano | 15M | 56MB | HuggingFace | | kitten-tts-nano(int8) | 15M | 25MB | HuggingFace |

快速开始

安装： bash pip install https://github.com/KittenML/KittenTTS/releases/download/0.8.1/kittentts-0.8.1-py3-none-any.whl
基础使用： python from kittentts import KittenTTS model = KittenTTS("KittenML/kitten-tts-mini-0.8") audio = model.generate("这个高质量的TTS模型无需GPU即可运行", voice="Jasper")

商业支持

项目团队提供商业支持服务，包括： - 集成协助 - 定制语音开发 - 企业级授权联系方式：info@stellonlabs.com

社区资源

许可协议

项目采用Apache 2.0开源协议。

项目状态：开发者预览版（API可能随版本变更）

评论总结

以下是评论内容的总结：

功能扩展需求
- 用户希望支持iPhone/iOS平台（评论1："Is there any way to get those running on iPhone?"）
- 需要更多语言支持（评论3："Is it English only?"）
- 建议提供JS包（评论12："This would be great as a js package"）
声音定制需求
- 商业场景需要更专业的语音（评论2："All but one of the voices are unusable in a business context"）
- 希望实现语音克隆功能（评论14："clone my voice and use it locally"）
- 对虚拟宠物语音的创意需求（评论9："generate human-like voice based on animal sound"）
技术性能评价
- 对小模型质量的肯定（评论4："the 25MB model is amazingly good"；评论15："innovation in terms of quality of tiny models"）
- 运行速度反馈（评论5："about 1.5x realtime using the 80M model"）
- 不同模型比较需求（评论6："put examples comparing the 4 models"）
技术细节疑问
- 关于GPU支持的问题（评论16："how to run it on a GPU"）
- 安装包大小疑问（评论17："require installing 1GB+ of dependencies?"）
- 模型训练透明度（评论8："I only assume they just took another one"）
语音表现关注点
- 韵律和重音问题（评论10："rhythm and emphasizing is often so out of whack"）
- 短文本处理能力（评论11："struggle with small text strings"）
- 表达控制功能（评论4："expressive control...pitch/speed/volume controls"）

Hacker News 中文摘要

Show HN：三款新Kitten TTS模型发布——最小不足25MB -- Show HN: Three new Kitten TTS models – smallest less than 25MB