chatterbox 实时语音合成

简介

它把语音识别(ASR)、语言模型处理(LLM)和语音合成(TTS)这三个环节紧密地整合在了一起。通过优化的流水线处理，它能做到在大模型还没把整句话吐完时，TTS就已经开始生成开头的语音了，这种流式处理极大提升了对话的自然度。

Chatterbox 家族有三个模型，各有侧重：

Chatterbox-Turbo：最新、最高效的模型。专门为低延迟的语音助手等实时应用优化，生成速度快，还能用 [laugh]、[cough] 等标签合成笑声、咳嗽等副语言效果。
Chatterbox：通用的英语模型，支持通过参数微调生成更具表现力或戏剧性的语音。
Chatterbox-Multilingual：支持超过23种语言（包括中文），适用于需要全球部署或本地化的应用。

作者:spike

分类: 互联网

创作时间:2026-01-13

更新时间:2026-01-13