GPT-SoVITS从零开始：音频切割、打标、训练完整教程

张

张建站

2026/6/26 2:51:16

10分钟阅读

GPT-SoVITS从零开始音频切割、打标、训练完整教程1. 准备工作与环境搭建1.1 获取GPT-SoVITS工具包首先需要下载GPT-SoVITS的完整工具包。推荐从官方提供的百度网盘链接获取最新版本百度网盘下载链接下载完成后请使用7-Zip工具解压压缩包。注意不要使用Windows自带的解压工具可能会导致文件缺失。1.2 启动WebUI界面解压完成后进入解压目录找到并双击运行go-webui.bat文件。请注意不要以管理员身份运行运行后会弹出一个命令行窗口这是控制台不要关闭稍等片刻会自动打开浏览器窗口地址为http://0.0.0.0:9874如果浏览器没有自动打开可以手动输入上述地址访问。2. 音频素材准备与处理2.1 原始音频要求为了获得最佳效果建议准备以下类型的音频素材清晰的人声录音无背景音乐和噪音单一声源同一个人的声音总时长建议1-5分钟最少5秒即可采样率建议16kHz或以上格式支持wav、mp3等常见格式2.2 音频降噪处理可选如果原始音频含有背景噪音可以使用内置的UVR5工具进行降噪点击开启UVR5-WebUI按钮在打开的界面中输入音频文件夹路径选择model_bs_roformer_ep_317_sdr_12.9755模型点击转换按钮处理完成后删除生成的instrumental文件对于有混响的音频可以进一步使用VR-DeEchoAggressive模型处理。3. 音频切割与分段3.1 自动切割音频进入语音切割标签页设置以下参数输入路径选择处理后的音频文件夹min_length根据显存大小设置24G显存建议24秒min_interval300ms密集语音可降低至100msmax_sil_kept保持默认点击开启语音切割按钮处理后的音频会保存在output/slicer_opt目录。3.2 手动调整切割结果打开切割后的文件夹按大小排序检查音频删除明显不完整的片段手动切割超过显存限制的长音频确保每段音频清晰可懂4. 音频标注与文本对齐4.1 自动语音识别(ASR)标注在ASR打标标签页选择处理后的音频文件夹选择识别引擎中文/粤语达摩ASR其他语言fast whisper(large V3)设置精度为float16点击开启离线批量ASR处理完成后标注文件会保存在output/asr_opt目录。4.2 手动校对标注点击开启打标webui进入校对界面逐条检查自动生成的文本是否准确修改错误的文字标注删除质量差的音频片段每页修改后点击保存修改全部完成后点击保存文件5. 模型训练流程5.1 基础设置在训练标签页设置实验名称模型名称确认标注文件路径已自动填充点击一键三连生成必要文件5.2 SoVITS模型训练设置训练参数batch_size显存的一半如24G显存设为12训练轮数建议10-20轮点击开启SoVITS训练训练过程中可以通过控制台查看进度任务管理器查看GPU使用情况。5.3 GPT模型训练SoVITS训练完成后设置GPT训练轮数建议10轮点击开启GPT训练等待训练完成训练好的模型分别保存在SoVITS模型SoVITS_weights_v2/*.pthGPT模型GPT_weights_v2/*.ckpt6. 语音合成与推理6.1 启动推理界面点击刷新模型按钮选择训练好的模型版本点击开启TTS推理访问http://0.0.0.0:98726.2 合成语音在推理界面上传参考音频建议5秒来自训练集输入参考文本与参考音频内容一致输入要合成的文本选择切分方式推荐凑四句一切点击合成语音合成完成后可以试听效果不满意可调整参数重新合成。7. 常见问题解决7.1 训练过程中的问题显存不足降低batch_size检查是否有过长音频片段关闭其他占用GPU的程序训练效果不佳检查音频质量增加训练数据量调整训练轮数7.2 合成语音问题语音不自然更换更好的参考音频检查文本标注准确性尝试不同的切分方式音色不一致确保参考音频来自训练集增加训练数据多样性调整SoVITS模型轮数获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

YimMenu终极指南：如何在GTA5中安全地享受增强游戏体验

YimMenu终极指南：如何在GTA5中安全地享受增强游戏体验【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trending/yi/YimM…...

2026/6/16 8:34:46 阅读更多 →

利用快马平台快速构建openclaw 101机器人抓取控制原型

最近在尝试用openclaw 101框架做机器人抓取控制的快速验证，发现用InsCode(快马)平台可以省去很多环境配置的麻烦。这里分享下如何快速搭建一个二指夹爪控制模拟器的原型。项目需求分析首先明确需要实现的核心功能：模拟二指夹爪的基本运动控制、力反馈模…...

2026/6/16 8:34:47 阅读更多 →

终极Windows热键冲突排查指南：快速定位谁偷了你的快捷键

终极Windows热键冲突排查指南：快速定位谁偷了你的快捷键【免费下载链接】hotkey-detective A small program for investigating stolen key combinations under Windows 7 and later. 项目地址: https://gitcode.com/gh_mirrors/ho/hotkey-detective 你是否…...

2026/6/16 8:34:48 阅读更多 →

Python自动化抢票：5个实战技巧提升成功率90%

Python自动化抢票：5个实战技巧提升成功率90% 【免费下载链接】Automatic_ticket_purchase 大麦网抢票脚本项目地址: https://gitcode.com/GitHub_Trending/au/Automatic_ticket_purchase 还在为抢不到心仪的演唱会门票而烦恼吗？传统手动抢票方式…...

2026/6/25 18:21:50 阅读更多 →

当你的网盘下载速度只有几十KB时，这个开源工具如何帮你找回时间

当你的网盘下载速度只有几十KB时，这个开源工具如何帮你找回时间【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云…...

2026/6/25 22:00:57 阅读更多 →

Pearcleaner终极指南：如何彻底清理macOS应用释放磁盘空间

Pearcleaner终极指南：如何彻底清理macOS应用释放磁盘空间【免费下载链接】Pearcleaner A free, source-available and fair-code licensed mac app cleaner 项目地址: https://gitcode.com/gh_mirrors/pe/Pearcleaner 你是否曾发现，即使卸载了ma…...

2026/6/25 22:00:57 阅读更多 →

408计算机网络考试大纲|408计算机网络知识点总结|法硕考试分析pdf

408计算机网络考试大纲|408计算机网络知识点总结|法硕考试分析pdf资料全科都有408网络法硕 PDFhttps://tool.nineya.com/s/1jpq3effr 【计算机408真题】1. 下列关于迪杰斯特拉算法的说法正确的是（ ） A. 适用于求单源最短路径 B. 适用于求所有顶点间最短路…...

2026/6/25 18:45:17 阅读更多 →