环境变量配置资源信息【免费下载链接】hccl集合通信库Huawei Collective Communication Library简称HCCL是基于昇腾AI处理器的高性能集合通信库为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl除了通过rank table文件配置资源信息的方式外开发者还可以通过本节所述环境变量组合的方式配置资源信息。环境变量配置资源信息的方式仅适用于TensorFlow框架网络的通信域初始化仅支持如下产品Atlas A2 训练系列产品/Atlas A2 推理系列产品Atlas 训练系列产品配置说明需要在执行训练的每个AI Server节点上分别配置如下环境变量进行资源信息的配置示例如下export CM_CHIEF_IP192.168.1.1 export CM_CHIEF_PORT6000 export CM_CHIEF_DEVICE0 export CM_WORKER_SIZE8 export CM_WORKER_IP192.168.0.1 export HCCL_SOCKET_FAMILYAF_INETCM_CHIEF_IPMaster节点的Host监听IP即与其他节点进行通信的IP地址要求为常规IPv4或IPv6格式。CM_CHIEF_PORTMaster节点的监听端口需要配置为整数取值范围“065520”请确保端口未被其他进程占用。CM_CHIEF_DEVICEMaster节点中统计Server端集群信息的Device逻辑ID。该环境变量需要配置为整数取值范围[0Server内的最大Device数量-1]。CM_WORKER_SIZE用于配置组网中参与集群训练的Device总数量需要配置为整数取值范围“0~32768”。CM_WORKER_IP用于配置当前节点与Master进行通信时所用的网卡IP要求为常规IPv4或IPv6格式。HCCL_SOCKET_FAMILY此环境变量可选用于控制Device侧通信网卡使用的IP协议版本。AF_INET代表使用IPv4协议AF_INET6代表使用IPv6协议缺省时优先使用IPv4协议。说明:如果环境变量“HCCL_SOCKET_FAMILY”指定的IP协议与实际获取到的网卡信息不匹配则以实际环境上的网卡信息为准。 例如环境变量“HCCL_SOCKET_FAMILY”指定为“AF_INET6”但Device侧只存在IPv4协议的网卡则实际会使用IPv4协议的网卡。通过以上环境变量的方式配置集群信息时环境中不能存在环境变量RANK_TABLE_FILE、RANK_ID、RANK_SIZE。针对Atlas A2 训练系列产品/Atlas A2 推理系列产品若业务为单卡多进程场景建议通过环境变量HCCL_NPU_SOCKET_PORT_RANGE配置HCCL在NPU侧使用的通信端口否则可能会导致端口冲突但需要注意多进程会对资源开销、通信性能产生一定的影响配置示例export HCCL_NPU_SOCKET_PORT_RANGEauto配置示例假设执行分布式训练的AI Server节点数量为2Device数量为16为例每个AI Server节点有8个Device。启动每个Device上的训练进程前在对应的shell窗口中配置如下环境变量进行资源信息的配置。节点0此节点为Master节点负责集群信息管理、资源分配与调度。export CM_CHIEF_IP192.168.1.1 export CM_CHIEF_PORT6000 export CM_CHIEF_DEVICE0 export CM_WORKER_SIZE16 export CM_WORKER_IP192.168.1.1节点1export CM_CHIEF_IP192.168.1.1 export CM_CHIEF_PORT6000 export CM_CHIEF_DEVICE0 export CM_WORKER_SIZE16 export CM_WORKER_IP192.168.2.1【免费下载链接】hccl集合通信库Huawei Collective Communication Library简称HCCL是基于昇腾AI处理器的高性能集合通信库为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考