Python环境PyTorch分布式训练初始化失败_检查MASTER_ADDR与端口

张

张建站

2026/4/25 18:11:34

10分钟阅读

Python环境PyTorch分布式训练初始化失败_检查MASTER_ADDR与端口

PyTorch分布式训练常见错误包括端口被占、MASTER_ADDR配置错误、init_process_group超时及torchrun环境变量冲突需检查端口占用、使用真实IP、确保WORLD_SIZE与RANK一致、避免手动设置torchrun管理的环境变量。PyTorch分布式训练报错 RuntimeError: Address already in use端口被占是初始化失败最常见原因不是代码写错了而是本地已有进程比如上一次没杀干净的 python 或 torch.distributed 进程绑定了 MASTER_PORT。实操建议立即学习“Python免费学习笔记深入”先用 lsof -i :codeMASTER_PORTmacOS/Linux或 netstat -ano | findstr :codeMASTER_PORTWindows查占用进程确认无用后直接 killkill -9 codePIDLinux/macOS或 taskkill /F /PID codePIDWindows更稳妥的做法每次启动前换一个随机端口比如用 export MASTER_PORT$((10000 $RANDOM % 1000))别用默认的 29500 —— 它太常见CI/本地多任务并行时极易冲突MASTER_ADDR 设成本机 localhost 却在多机训练中失败单机多卡能跑不代表多机通localhost 在每台机器上都指向自己跨机器根本连不上。实操建议立即学习“Python免费学习笔记深入”必须设为可被所有节点访问的真实 IP比如主节点网卡地址非 127.0.0.1、非 localhost、非 Docker 内网 IP运行前先手动 ping 测试ping codeMASTER_ADDR 从所有 worker 节点执行不通就别往下试如果走 SSH 登录训练注意云服务器安全组是否放行了 MASTER_PORT 端口TCPDocker 场景下避免用 --networkhost 外还设 localhost —— 容器内 localhost 不等于宿主机网络命名空间init_process_group 调用超时卡死日志停在 initializing process group这不是程序卡住是等待其他 rank 连接超时。PyTorch 默认等 300 秒期间只要有一个 rank 没 join全部挂起。稿定AI 拥有线稿上色优化、图片重绘、人物姿势检测、涂鸦完善等功能

5 大主流电商商品详情解析实战手册：淘宝 / 京东 / 拼多多 / 1688 / 唯品会核心字段提取 + 反爬应对 + 代码示例

在电商数据分析、竞品监控、智能选品等场景中，商品详情页的核心数据（价格、SKU、库存、供应商信息等）是关键决策依据。但不同平台的页面结构、数据加载方式及反爬机制差异显著，直接影响数据获取效率。本文针对淘宝、京东、拼多多、…...

2026/4/21 10:17:04 阅读更多 →

【笑小枫开源】基于魔珐星云的历史教学数字人，快来免费体验起来！

项目简介大家好！今天给大家带来一个非常有趣的开源项目——历史知识学习平台。这是一个基于具身智能体虚拟人的历史实时教育系统，通过集成魔珐星云数字人SDK和豆包大模型API，打造了一个高度拟真的虚拟历史老师，让历史学习变得生…...

2026/4/21 10:17:02 阅读更多 →

RTL编码（1）——从概念到实践：构建高效数字电路的基石

1. 什么是RTL编码？ 我第一次接触RTL编码时，脑子里全是问号：这到底是写代码还是画电路？后来才明白，RTL（Register Transfer Level）是数字电路设计中最关键的抽象层次。简单来说，RTL就是…...

2026/4/19 12:50:34 阅读更多 →

保姆级避坑指南：用MIM搞定MMSegmentation 2.0.0安装，告别版本兼容性报错

深度学习语义分割实战：MMSegmentation 2.0极简安装与避坑手册在计算机视觉领域，语义分割技术正以惊人的速度重塑着医疗影像分析、自动驾驶和工业质检等场景的应用边界。作为OpenMMLab生态中的重要成员，MMSegmentation 2.0凭借其模块化设计和…...

2026/4/26 0:05:40 阅读更多 →

Chrome-GPT：将大语言模型深度集成到浏览器的开发实践

1. 项目概述：当浏览器插件遇上大语言模型最近在折腾一个挺有意思的开源项目，叫“Chrome-GPT”。光看名字，你大概就能猜到它的核心玩法：把当下最火的大语言模型（LLM）能力，直接集成到我们每天都要…...

2026/4/26 0:05:44 阅读更多 →

别再用Node.js写MCP网关了！C++ 2024性能基准测试：相同硬件下吞吐量超Go 3.8倍，延迟降低62%

更多请点击： https://intelliparadigm.com 第一章：MCP协议核心原理与C网关设计全景概览 MCP（Modular Communication Protocol）是一种面向微服务间低延迟、高可靠通信的二进制协议，其核心在于“模块化帧结构”与“状态…...

2026/4/26 0:05:49 阅读更多 →

终极指南：如何通过Newtonsoft.Json配置实现高性能JSON序列化

终极指南：如何通过Newtonsoft.Json配置实现高性能JSON序列化【免费下载链接】Newtonsoft.Json Json.NET is a popular high-performance JSON framework for .NET 项目地址: https://gitcode.com/gh_mirrors/ne/Newtonsoft.Json Newtonsoft.Json&#xff08…...

2026/4/26 0:07:30 阅读更多 →