GPT-SoVITS从零开始:音频切割、打标、训练完整教程
GPT-SoVITS从零开始音频切割、打标、训练完整教程1. 准备工作与环境搭建1.1 获取GPT-SoVITS工具包首先需要下载GPT-SoVITS的完整工具包。推荐从官方提供的百度网盘链接获取最新版本百度网盘下载链接下载完成后请使用7-Zip工具解压压缩包。注意不要使用Windows自带的解压工具可能会导致文件缺失。1.2 启动WebUI界面解压完成后进入解压目录找到并双击运行go-webui.bat文件。请注意不要以管理员身份运行运行后会弹出一个命令行窗口这是控制台不要关闭稍等片刻会自动打开浏览器窗口地址为http://0.0.0.0:9874如果浏览器没有自动打开可以手动输入上述地址访问。2. 音频素材准备与处理2.1 原始音频要求为了获得最佳效果建议准备以下类型的音频素材清晰的人声录音无背景音乐和噪音单一声源同一个人的声音总时长建议1-5分钟最少5秒即可采样率建议16kHz或以上格式支持wav、mp3等常见格式2.2 音频降噪处理可选如果原始音频含有背景噪音可以使用内置的UVR5工具进行降噪点击开启UVR5-WebUI按钮在打开的界面中输入音频文件夹路径选择model_bs_roformer_ep_317_sdr_12.9755模型点击转换按钮处理完成后删除生成的instrumental文件对于有混响的音频可以进一步使用VR-DeEchoAggressive模型处理。3. 音频切割与分段3.1 自动切割音频进入语音切割标签页设置以下参数输入路径选择处理后的音频文件夹min_length根据显存大小设置24G显存建议24秒min_interval300ms密集语音可降低至100msmax_sil_kept保持默认点击开启语音切割按钮处理后的音频会保存在output/slicer_opt目录。3.2 手动调整切割结果打开切割后的文件夹按大小排序检查音频删除明显不完整的片段手动切割超过显存限制的长音频确保每段音频清晰可懂4. 音频标注与文本对齐4.1 自动语音识别(ASR)标注在ASR打标标签页选择处理后的音频文件夹选择识别引擎中文/粤语达摩ASR其他语言fast whisper(large V3)设置精度为float16点击开启离线批量ASR处理完成后标注文件会保存在output/asr_opt目录。4.2 手动校对标注点击开启打标webui进入校对界面逐条检查自动生成的文本是否准确修改错误的文字标注删除质量差的音频片段每页修改后点击保存修改全部完成后点击保存文件5. 模型训练流程5.1 基础设置在训练标签页设置实验名称模型名称确认标注文件路径已自动填充点击一键三连生成必要文件5.2 SoVITS模型训练设置训练参数batch_size显存的一半如24G显存设为12训练轮数建议10-20轮点击开启SoVITS训练训练过程中可以通过控制台查看进度任务管理器查看GPU使用情况。5.3 GPT模型训练SoVITS训练完成后设置GPT训练轮数建议10轮点击开启GPT训练等待训练完成训练好的模型分别保存在SoVITS模型SoVITS_weights_v2/*.pthGPT模型GPT_weights_v2/*.ckpt6. 语音合成与推理6.1 启动推理界面点击刷新模型按钮选择训练好的模型版本点击开启TTS推理访问http://0.0.0.0:98726.2 合成语音在推理界面上传参考音频建议5秒来自训练集输入参考文本与参考音频内容一致输入要合成的文本选择切分方式推荐凑四句一切点击合成语音合成完成后可以试听效果不满意可调整参数重新合成。7. 常见问题解决7.1 训练过程中的问题显存不足降低batch_size检查是否有过长音频片段关闭其他占用GPU的程序训练效果不佳检查音频质量增加训练数据量调整训练轮数7.2 合成语音问题语音不自然更换更好的参考音频检查文本标注准确性尝试不同的切分方式音色不一致确保参考音频来自训练集增加训练数据多样性调整SoVITS模型轮数获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。