小众AI赛道之声音克隆–GPT-sovits推理特化包让你轻松简单上手

EMMM前两天写了这个系列的第一篇小众AI赛道之声音克隆–从GPT-SoVITS开始,虽然好像没啥人对这玩意感兴趣,但是我想了想还是继续完成这一篇,万一有人看是吧(

什么是特化包

GPT-SoVITS是花儿不哭大佬研发的低成本AI音色克隆软件,缩写是GSV

GSVI是由AI-Hobbyist开发的gpt-sovits的推理特化包,
项目地址:https://github.com/AI-Hobbyist/GPT-SoVITS-V4-Inference

相比原版整合包

  • 使用vue美化了推理前端
  • 可以快速选择角色和参考音频,再给参考音频标注后可以通过选择不同情感的参考音频来控制合成语音的情感
  • 可以一键下载4000+角色多语种的模型(原神&星铁&崩三&绝区零&蔚蓝档案&明日方舟&NIKKE……且在持续更新)

上面内容全部来自官方文档,感谢花儿不哭,红血球AE3803,白菜工厂1145号员工三位大佬的奉献

下载安装

下载链接:https://modelscope.cn/models/aihobbyist/GPT-SoVITS-Inference/files

image

打开后你会看到上面页面,框出来的就是整合包,0927和1007是更新时间,直接最新就好,后面的cu是CUDA版本,你得看看你显卡支持的最大CUDA版本了

还是以我自己的为例,WIN+R输入powershell打开命令行,输入nvidia-smi查看驱动版本和最高支持的CUDA版本,比如我这13.0就直接下cu12.8就完了

image

安装就直接解压

使用

模型下载

来到我们的解压目录,双击gsvi.bat打开WEBUI

image

然后就熟悉地出现一个小黑框框,加载完成后自动http://127.0.0.1:8000/,然后会显示下面页面(因为我自个已经点了,所有下面两张图也来自官方文档)

点击我同意,下一步

image

输入三位作者名并保证,进入网页

image

然后!让我们查看GSVI相比原版最大的区别!模型库!

image

在社区模型,我们可以找自己想要的角色的模型,试听然后点击下载就好,需要注意的是有些模型会标注V4,V2PROPLUS什么的,这个我们后面会用

image

点击下载我们会跳转到ai-hobbyist社区并看到一个下载链接

image

下载解压后得到一个文件夹,我们需要手动把它移到对应的目录去,比如我下的丛雨酱的模型,它标注了一个V4,那我们就移动到models/v4下,标注啥放哪就行

image

image

而对于一键下载就很方便了,点一下,完事

image

推理

我们推理有三种模式

image

情感模式需要下载的模型支持,不然是用不了这个模式的,很多支持的模型也就一种情感不太好用。

至于使用,先选择版本,我们之前下的是V4这里还是选V4,然后就能看到下载的模型,再选择语言情感和语气就好

至于种子,-1就是随机,你也可以输入其他值,遇到喜欢的可以记录下来能够保证生成效果的一致性

image

然后经典模式就是上传参考文本和参考音频了,不知道怎么生成合适的参考文本和参考音频可以参考我的上一篇小众AI赛道之声音克隆–从GPT-SoVITS开始

image

模型生成

特化版也是支持模型生成的,随便双击一个,然后参考前文干就完了

image

参考文献

官方文档:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/gos50nrqrlipryqq#dphBp

再次感谢大佬的付出!