play.ht:这个项目可以从20秒的音频中快速生成克隆语音,并自动转换为英语。即便你不会说英语,也可以通过语音克隆的方式,立刻说出一口流利的英语。

这里的技术采用了一个名为 Parrot 的模型,它能从几秒的音频克隆出声音,并基于文本,重新生成一段富有情感的语音。

目前该模型只支持英语,不过技术团队已经在开始尝试支持更多语言。

克隆声音的数据样本主要分两种:高保真(20 分钟)和零样本(20 秒),给的音频样本时间越长,其精度就更佳。

未来,该工具将被应用到各类数字内容创作(如游戏、媒体、在线教育)等平台。
 
 
Back to Top