RapidTTS 是一个轻量级文本转语音工具,面向本地快速推理。当前默认后端是 kokoro_onnx,同时支持 melo_onnx 和 moss_nano_onnx。
- 支持 Kokoro ONNX, MeloTTS ONNX 和 MOSS Nano ONNX 推理
- 支持中文、英文和中英混合文本
- 支持查询模型语言、默认参数和音色能力
- 模型文件可自动下载,并使用 SHA256 校验
- 同时提供 Python API 和命令行工具
默认推荐安装 Kokoro ONNX 后端:
pip install "rapidtts[kokoro]"使用 MOSS Nano ONNX 时安装对应 extra:
pip install "rapidtts[moss_nano]"其他安装方式见 安装说明。
from rapidtts import RapidTTS, SynthesisRequest
tts = RapidTTS()
resp = tts.synthesize(SynthesisRequest(text="你好,RapidTTS"))
resp.save("outputs/1.wav")指定模型和音色:
from rapidtts import RapidTTS, SynthesisRequest, TTSModel
tts = RapidTTS(model=TTSModel.KOKORO_ONNX)
resp = tts.synthesize(
SynthesisRequest(
text="你好,RapidTTS",
voice="zm_009",
)
)
resp.save("outputs/zm_009.wav")使用 MOSS Nano 内置音色:
from rapidtts import RapidTTS, SynthesisRequest, TTSModel
tts = RapidTTS(model=TTSModel.MOSS_NANO_ONNX)
resp = tts.synthesize(
SynthesisRequest(
text="你好,RapidTTS",
voice="Junhao",
)
)
resp.save("outputs/moss_nano_junhao.wav")当前 MOSS Nano 内置音色:
Junhao, Zhiming, Weiguo, Xiaoyu, Yuewen, Lingyu, Trump, Ava, Bella, Adam, Nathan, Soyo, Saki, Mortis, Umiri, Mei, Anon, Arisa
MOSS Nano 也支持通过 extras["prompt_audio_path"] 传入参考音频。首次使用参考音频时会自动下载 prompt_audio_encoder 可选模型文件组。
更多示例见 Python API。
rapidtts text "你好,RapidTTS" outputs/1.wav指定模型:
rapidtts text "你好,RapidTTS" outputs/kokoro.wav --model kokoro_onnx
rapidtts text "你好,RapidTTS" outputs/moss_nano.wav --model moss_nano_onnx --voice Junhao指定模型和音色:
rapidtts text "你好,RapidTTS" outputs/zm_009.wav --model kokoro_onnx --voice zm_009更多命令见 命令行用法。
- 安装说明:安装 extra、检查依赖和模型文件
- Python API:在代码中指定模型、音色、语言、语速和模型目录
- 命令行用法:下载模型、检查安装、查询能力、合成音频
- 模型信息:支持的模型、语言、音色规则和模型文件
- 开发说明:测试、文本归一化和项目结构
Apache-2.0 License。

