声音大模型之音色克隆 博客介绍了声音大模型的两个主要分支:SVC(音色转换)和TTS(文字转语音)。SVC专注于复制原语音的音色特征,不模仿呼吸、语速等细节,常用于歌声替换;TTS则学习发音特点以生成更自然的语音,适用于语言描述或说话模仿。 文中列举了两个开源项目:SoftVC VITS 歌声转换模型需大量高质量人声 8月前 达达下雨不吃鱼 Technical 0