本文较长，嫌文章太长的天赋型选手的可以自动跳到文末查看工作流程图与软件下载链接。

最近大家都听到了很多AI翻唱的歌曲吧？特别是著名的“冷门“歌手孙燕姿的AI版本。孙燕姿凭借干净清晰的嗓音、极具辨识度的声线，稳居被AI训练的歌手当中的头把交椅。从冷门到再度翻红，本人一首歌没唱，简直是躺红。

目前大家普遍使用的AI声音训练软件叫做so-vits-svc-4.0（也称Sovits），是由是中国民间歌声合成爱好者Rcell基于VITS、soft-vc、VISinger2等一系列项目开发的一款开源免费AI语音转换软件。只需准备几十分钟到几个小时不等的语音或歌声数据（歌曲建议至少准备2小时以上的素材），就能训练出属于自己的AI声音库（训练时间根据你显卡性能而定），可以将一段语音或歌声转换为你想要的音色。比如你可以让特朗普唱“你吃火锅，老子吃火锅底料”。

so-vits-svc-4.0的安装以及使用方法，本文不深入讲解。大家可以去B站看Cui哥（Jack-Cui）的视频教程（我也是从Cui哥那儿学的）。本文主要给大家分享一下声音训练前，对所需素材进行处理过程中，所需软件的使用方法以及一些实操经验。1个月的实践经验喂到嘴边哦~~保证不翻车

我们以歌声训练为例。首先我们会用到UVR5这个软件来将素材当中的伴奏、和声、人声（干声）进行分离。歌曲有不同的格式，常见的有MP3，WMA，WAV，APE，FLAC，OGG，AAC等。选择无损格式（APE，WAV ，FLAC等）的素材会得到更好的训练效果。由于WAV格式容量过大，用起来不方便，推荐使用FLAC。

5.这个地方选择“GPU Conversion”和“Vocals Only”，下面两个选项不要勾选。勾选了VOCALS ONLY，就不会生成伴奏文件，后面声音的训练是不需要伴奏音的。如果勾选了Instrumental Only，只会生成伴奏文件，将不会生成人声+和声的文件。

6.点击“Start Processing”开始处理。看到“Process Complete”后，表示已经处理完成。

第三步：导入分离后的人声文件（文件名末尾会带有“VOCALS”）。

2.WINDOWS SIZE选择“320”。Windows Size 越小，效果就越好。较小的Windows Size 意味着越长的转换时间和越大的资源占用，我们毫不犹豫的选择320.

3.Aggression Setting (力度设置)：这个选项允许你设置去除声音的力度。数值越大提取深度越大，为了得到最纯净的干声，我们选择20.

5.最后这里我们勾选“GPU Conversion”和“Vocals Only”第就行了。

6.点击“Start Processing”开始处理。看到“Process Complete”后，表示已经处理完成。第二次处理后的文件名末尾会有带有“VOCALS_VOCALS”。至此，我们就得到了纯净干声素材。

用so-vits-svc-4.0进行声音训练，需要将素材切分成较短的片段，根据多次实践的经验（基于2080/3060ti），每个音频片段控制在3-10秒是比较理想的。我们用Audio Slicer这个软件来进行切分工作。

Audio Slicer主要是消除音频中的空白部分，并进行初步的音频分段切割。

第一步：导入要切分的文件，选择切分后文件的储存路径。

第二步：参数设置。先给大家解释一下各个参数代表什么意思。

Threshold（dB）：以分贝表示的RMS阈值，默认值40dB。所有RMS值都低于此值的区域将被视为静音。通俗来讲就是低于这个分贝时就会切割。如果音频有噪音，请增加此值。

Minimum Length（ms）：每个切片音频剪辑所需的最小长度，默认值为 5000毫秒。也就是说切割后音频长度不小于5秒钟。（实测还是会产生一些5秒以内的音频）。

Minimum Interval（ms）：音频中静音部分的最小长度，默认值300毫秒。解释一下，一段音频中出现了300毫秒以上的中断（无声），就会发生切割。低于300毫秒，则不会切割。举个例子，如果要切割说唱歌曲当中的快嘴部分，就要把这个参数设置得更小。否则rapper们一秒钟10几个字的不停发声，是没法切割的。请注意，此值必须小于 minimum length 且大于hop size。

Hop Size（ms）：每个RMS帧的长度，默认值10毫秒。增加此值将提高切片的精度，但会降低处理速度。大家根据自己设备性能而定。

Maximum Silence Length（ms）：在切片音频周围保持的最大静音长度，默认值1000毫秒。该算法用于搜索要切片的最佳位置。举例来说，你的干声部分虽然去掉了伴奏，但周围可能是有静默时间的，比如前奏、尾奏。如果这个参数比较大，音频就会沉默一段时间再放干声。我们肯定希望这个时间短一点好，直接上来就是干声，因此可以把这个值调低一点。可以点单理解为最大沉默（无声）时间。大家可能会疑惑，上面“Minimum Interval”设置了中断300毫秒就会切割，但这里设置允许保持1000毫秒的静默时间，岂不是矛盾了？？其实这一点我也有一些疑惑，根据官方解释是“设置此值并不意味着切片音频中的静音部分具有完全给定的长度。”我大概理解的意思就是说这个“1000毫秒”只是一个相对值，不是完全意义的1000毫秒。期待有更专业的大佬评论区留言给大家解释一下。

第一次切分后，打开文件夹，按照时长排序将0-2秒的文件删除，将≥11秒的文件再次导入Audio Slicer，进行第二次切分。第二次切分时，可以将“Minimum Interval”、“Maximum Silence Length”两个参数改小（可减半），以达到更大强度的切分。并新建一个文件夹，储存第二次切分的文件。第三次、第四次切分过程以此类推，每次都可以将参数减半。