chatterbox 实时语音合成

chatterbox 项目地址

简介

它把语音识别(ASR)、语言模型处理(LLM)和语音合成(TTS)这三个环节紧密地整合在了一起。 通过优化的流水线处理,它能做到在大模型还没把整句话吐完时,TTS就已经开始生成开头的语音了,这种流式处理极大提升了对话的自然度。

Chatterbox 家族有三个模型,各有侧重:

  • Chatterbox-Turbo最新、最高效的模型。专门为低延迟的语音助手等实时应用优化,生成速度快,还能用 [laugh][cough] 等标签合成笑声、咳嗽等副语言效果。
  • Chatterbox:通用的英语模型,支持通过参数微调生成更具表现力或戏剧性的语音。
  • Chatterbox-Multilingual支持超过23种语言(包括中文),适用于需要全球部署或本地化的应用。

🛠️ 主要能力与应用

  1. 零样本语音克隆:无需针对特定声音训练,只需一段短音频,即可模仿该声音说话。
  2. 多语言合成:使用多语言模型,可直接合成中文、法语、西班牙语等语言的语音。
  3. 创意与控制:通过调节参数,可以控制语速、语调,实现更富情感的语音合成。
  4. 内置水印:所有生成的音频都包含难以察觉的神经网络水印,用于追踪和防止滥用
模型推荐显存最低显存适用场景
Chatterbox-Turbo≥ 8GB (如 RTX 3070/4060 Ti)6GB(需调低batch size)实时语音助手、快速原型开发
Chatterbox(标准版)≥ 12GB (如 RTX 3080/4070 Ti)8GB(推理可能较慢)高质量的英语语音合成
Chatterbox-Multilingual≥ 16GB (如 RTX 4080/4090)12GB多语言/中文合成、商业部署

其他参考

chatterbox-fastapi


作者:spike

分类: 互联网

创作时间:2026-01-13

更新时间:2026-01-13