语音模型

声音大模型之音色克隆

声音大模型领域包含两个分支:SVC(音色转换)专注于模仿语音音色特征,用于歌声替换等场景,但不学习呼吸或语速;TTS(文字转语音)则学习发音特点生成自然语音,常用于语言模仿。开源项目如SoftVC VITS针对歌声转换,需大量纯人声训练,泛化性差易跑调,作者已停止维护;阿里开源的CosyVoice