简介
它把语音识别(ASR)、语言模型处理(LLM)和语音合成(TTS)这三个环节紧密地整合在了一起。 通过优化的流水线处理,它能做到在大模型还没把整句话吐完时,TTS就已经开始生成开头的语音了,这种流式处理极大提升了对话的自然度。
Chatterbox 家族有三个模型,各有侧重:
- Chatterbox-Turbo:最新、最高效的模型。专门为低延迟的语音助手等实时应用优化,生成速度快,还能用
[laugh]、[cough]等标签合成笑声、咳嗽等副语言效果。 - Chatterbox:通用的英语模型,支持通过参数微调生成更具表现力或戏剧性的语音。
- Chatterbox-Multilingual:支持超过23种语言(包括中文),适用于需要全球部署或本地化的应用。
🛠️ 主要能力与应用
- 零样本语音克隆:无需针对特定声音训练,只需一段短音频,即可模仿该声音说话。
- 多语言合成:使用多语言模型,可直接合成中文、法语、西班牙语等语言的语音。
- 创意与控制:通过调节参数,可以控制语速、语调,实现更富情感的语音合成。
- 内置水印:所有生成的音频都包含难以察觉的神经网络水印,用于追踪和防止滥用。
| 模型 | 推荐显存 | 最低显存 | 适用场景 |
|---|---|---|---|
| Chatterbox-Turbo | ≥ 8GB (如 RTX 3070/4060 Ti) | 6GB(需调低batch size) | 实时语音助手、快速原型开发 |
| Chatterbox(标准版) | ≥ 12GB (如 RTX 3080/4070 Ti) | 8GB(推理可能较慢) | 高质量的英语语音合成 |
| Chatterbox-Multilingual | ≥ 16GB (如 RTX 4080/4090) | 12GB | 多语言/中文合成、商业部署 |