Hacker News 中文摘要

RSS订阅

Show HN:三款新Kitten TTS模型发布——最小不足25MB -- Show HN: Three new Kitten TTS models – smallest less than 25MB

文章摘要

KittenTTS是一个体积小于25MB的先进文本转语音(TTS)模型,在GitHub上开源。该模型在保持小巧体积的同时实现了业界领先的语音合成效果。项目由KittenML团队开发维护,属于AI代码创作领域的应用。

文章总结

KittenTTS:轻量级开源文本转语音模型

项目概述

KittenTTS是由KittenML团队开发的开源文本转语音(TTS)库,其核心特点是模型体积小巧(25-80MB)却能达到业界领先的语音合成质量。该项目基于ONNX运行时,可在CPU上高效运行,无需GPU支持。

核心特性

  • 超轻量级:提供15M到80M参数的不同规格模型,最小仅25MB(int8量化版)
  • CPU优化:基于ONNX的推理引擎,无需GPU即可流畅运行
  • 多样化语音:内置8种不同音色(Bella、Jasper、Luna等)
  • 可调语速:支持通过speed参数控制语音播放速度
  • 文本预处理:自动处理数字、货币单位等特殊文本
  • 高质量输出:24kHz采样率音频输出

模型版本

| 模型名称 | 参数量 | 体积 | 下载地址 | |---------|-------|-----|---------| | kitten-tts-mini | 80M | 80MB | HuggingFace | | kitten-tts-micro | 40M | 41MB | HuggingFace | | kitten-tts-nano | 15M | 56MB | HuggingFace | | kitten-tts-nano(int8) | 15M | 25MB | HuggingFace |

快速开始

  1. 安装: bash pip install https://github.com/KittenML/KittenTTS/releases/download/0.8.1/kittentts-0.8.1-py3-none-any.whl

  2. 基础使用: python from kittentts import KittenTTS model = KittenTTS("KittenML/kitten-tts-mini-0.8") audio = model.generate("这个高质量的TTS模型无需GPU即可运行", voice="Jasper")

商业支持

项目团队提供商业支持服务,包括: - 集成协助 - 定制语音开发 - 企业级授权 联系方式:info@stellonlabs.com

社区资源

许可协议

项目采用Apache 2.0开源协议。

项目状态:开发者预览版(API可能随版本变更)

评论总结

以下是评论内容的总结:

  1. 功能扩展需求

    • 用户希望支持iPhone/iOS平台(评论1:"Is there any way to get those running on iPhone?")
    • 需要更多语言支持(评论3:"Is it English only?")
    • 建议提供JS包(评论12:"This would be great as a js package")
  2. 声音定制需求

    • 商业场景需要更专业的语音(评论2:"All but one of the voices are unusable in a business context")
    • 希望实现语音克隆功能(评论14:"clone my voice and use it locally")
    • 对虚拟宠物语音的创意需求(评论9:"generate human-like voice based on animal sound")
  3. 技术性能评价

    • 对小模型质量的肯定(评论4:"the 25MB model is amazingly good";评论15:"innovation in terms of quality of tiny models")
    • 运行速度反馈(评论5:"about 1.5x realtime using the 80M model")
    • 不同模型比较需求(评论6:"put examples comparing the 4 models")
  4. 技术细节疑问

    • 关于GPU支持的问题(评论16:"how to run it on a GPU")
    • 安装包大小疑问(评论17:"require installing 1GB+ of dependencies?")
    • 模型训练透明度(评论8:"I only assume they just took another one")
  5. 语音表现关注点

    • 韵律和重音问题(评论10:"rhythm and emphasizing is often so out of whack")
    • 短文本处理能力(评论11:"struggle with small text strings")
    • 表达控制功能(评论4:"expressive control...pitch/speed/volume controls")