/ Technical / 13浏览

声音大模型之音色克隆

在声音大模型领域有两个不同分支的发展,其中一个是SVC(音色转换),另一个则是TTS(文字转语音);其中前者偏向于使用复刻原语音中音色的特点,后者更偏向于学习原语音发音的特点进行模仿,两个存在本质区别。前者应用更偏向于一个替身,不会学习呼吸、语速等特点,只是模仿音色特征,常用于歌声的替换与替换;而后者更倾向于模型生成一种自然的语音,常用于语言描述或者模仿说话。

1. 语音模型介绍

目前开源的语音模型项目有以下两个:

(1)SoftVC VITS 歌声转换:

  • 该项目是完全基于离线模型本地生成的音色模型,需要使用大量的高质量纯人声素材进行训练,并最终得到一个可以学习到原声音高音、低音等特点的模型,可用于歌声生成,但在自然语音生成上存在不足,并且在某些原素材没有的音调上也会存在跑调走音的情况,泛化性较差。

  • 遗憾的是由于项目被大量的博主非法使用模型生成侵犯不同歌手版权的音乐并广泛传播,导致该项目作者不堪重负,不再进行维护,但是该项目仍然具有重大的意义和贡献,该项目的结构值得学习和借鉴。

https://github.com/svc-develop-team/so-vits-svc

(2)由阿里开源的TTS项目:CosyVoice

  • 该项目是基于通用预训练大模型训练的语音大模型,只需一段极短的语音样本即可复刻出样本语音一样的效果,并且具有十分自然的发音与语气,还可以模仿原音色的前提下生成自然的发音特点。

https://github.com/FunAudioLLM/CosyVoice

2. 音色克隆展示

  • 鱼姐的声音从高中开始,便一直陪伴着我度过每一个夜晚,仿佛黑暗中的一束微光。

  • 如果鱼姐可以尝试其他的歌,又会是怎样的感觉呢?

  • 虽然不能像其他人一样去追星,但借助模型的能力,终于可以让鱼姐的歌声永远陪着我往后的时光~

    • (PS:模型训练的不太好,有些破音,希望后续能有新的网络进行训练)

fish-leong1.jpg

达达下雨不吃鱼
Python全能依赖环境管理工具uv
基于H2O的AutoML机器学习详细说明
Glusterfs——开源分布式存储
FRP——网络代理服务
深度学习机大模型领域相关术语及解释
Mysql慢查询优化