PyTorch分布式训练常见错误包括端口被占、MASTER_ADDR配置错误、init_process_group超时及torchrun环境变量冲突需检查端口占用、使用真实IP、确保WORLD_SIZE与RANK一致、避免手动设置torchrun管理的环境变量。PyTorch分布式训练报错 RuntimeError: Address already in use端口被占是初始化失败最常见原因不是代码写错了而是本地已有进程比如上一次没杀干净的 python 或 torch.distributed 进程绑定了 MASTER_PORT。实操建议立即学习“Python免费学习笔记深入”先用 lsof -i :codeMASTER_PORTmacOS/Linux或 netstat -ano | findstr :codeMASTER_PORTWindows查占用进程确认无用后直接 killkill -9 codePIDLinux/macOS或 taskkill /F /PID codePIDWindows更稳妥的做法每次启动前换一个随机端口比如用 export MASTER_PORT$((10000 $RANDOM % 1000))别用默认的 29500 —— 它太常见CI/本地多任务并行时极易冲突MASTER_ADDR 设成本机 localhost 却在多机训练中失败单机多卡能跑不代表多机通localhost 在每台机器上都指向自己跨机器根本连不上。实操建议立即学习“Python免费学习笔记深入”必须设为可被所有节点访问的真实 IP比如主节点网卡地址非 127.0.0.1、非 localhost、非 Docker 内网 IP运行前先手动 ping 测试ping codeMASTER_ADDR 从所有 worker 节点执行不通就别往下试如果走 SSH 登录训练注意云服务器安全组是否放行了 MASTER_PORT 端口TCPDocker 场景下避免用 --networkhost 外还设 localhost —— 容器内 localhost 不等于宿主机网络命名空间init_process_group 调用超时卡死日志停在 initializing process group这不是程序卡住是等待其他 rank 连接超时。PyTorch 默认等 300 秒期间只要有一个 rank 没 join全部挂起。 稿定AI 拥有线稿上色优化、图片重绘、人物姿势检测、涂鸦完善等功能