IndexTTS 是一个工业级的可控和高效的零样本文本到语音系统。它主要基于 XTTS 和 Tortoise 模型,能够使用拼音纠正中文字符的发音,并通过标点符号控制任意位置的停顿。该系统在多个模块进行了增强,包括改善了说话人条件特征表示,并集成了 BigVGAN2 以优化音频质量。经过数万小时的训练,该系统达到了最先进的性能,优于当前流行的 TTS 系统,如 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS。

https://github.com/index-tts/index-tts
 
 
Back to Top