CANN/HCCL NB集合通信算法详解

张

张建站

2026/5/9 21:29:11

10分钟阅读

NB【免费下载链接】hccl集合通信库Huawei Collective Communication Library简称HCCL是基于昇腾AI处理器的高性能集合通信库为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl算法描述集合通信中Ring算法通信步数为$O(N-1)$其中N表示参与集合通信的rank数量随着网络规模的增加通信开销也会显著增加。RHD算法虽然将通信步数减少到了$log_2⁡N$但在rank数量不是2的幂时需要进行数据合并操作导致通信数据量增加。而NB算法Nonuniform Bruck非均匀的数据块通信算法通过动态调整步长的多重环状结构实现不同rank数量下均保持通信步数为$⌈log_2⁡N⌉$同时避免了额外的通信数据量增长。rank size是2的幂时NB算法的通信过程如下图所示以rank size等于4为例。图 1rank size为4时NB算法通信过程 ![](https://raw.gitcode.com/cann/hccl/raw/20ed5a0bc0d136005da3f0581544829bd02123b8/docs/user_guide/coll_algo_intro/figures/nb_algo_4rank_flow.png rank-size为4时NB算法通信过程?utm_sourcegitcode_repo_files)rank size不是2的幂时NB算法的通信过程如下图所示以rank size等于5为例。图 2rank size为5时NB算法通信过程![](https://raw.gitcode.com/cann/hccl/raw/20ed5a0bc0d136005da3f0581544829bd02123b8/docs/user_guide/coll_algo_intro/figures/nb_algo_5rank_flow.png rank-size为5时NB算法通信过程?utm_sourcegitcode_repo_files)对于ReduceScatter和AllGather算子通信步数均为$⌈log_2⁡N⌉$。针对ReduceScatter算子每一步通信中每张卡向通信步长为$2^k(0 \leq k⌈log2(N)⌉)$的目标卡发送数据每步发送数据的份数为$⌊(N-12^k)/2^{k1}⌋$。对于AllGather算子每一步的通信步长递减而通信数据量递增。当卡数不是2的幂时最后一步的通信数据量为$N-2^{⌊log2(N)⌋}$。NB算法同样适用于“星型”和“胖树”拓扑算法的时间复杂度为$⌈log_2⁡N⌉$。耗时计算表 1NB算法中各操作耗时操作耗时ReduceScatter$\lceil log(p)\rceil\alpha \frac{p−1}{p}n\beta \frac{p−1}{p}n\gamma$AllGather$\lceil log(⁡p)\rceil\alpha \frac{p−1}{p}n\beta$AllReduce实现为ReduceScatter AllGather 耗时为$2\lceil log(⁡p)\rceil\alpha 2\frac{p−1}{p}n\beta \frac{p−1}{p}n\gamma$Scatter$\lceil log(⁡p)\rceil\alpha \frac{p−1}{p}n\beta$Broadcast实现为Scatter AllGather耗时为$2\lceil log(⁡p)\rceil\alpha 2\frac{p−1}{p}n\beta$【免费下载链接】hccl集合通信库Huawei Collective Communication Library简称HCCL是基于昇腾AI处理器的高性能集合通信库为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

从零构建智能对话机器人：基于LLaMA/Qwen的微调与工程实践

1. 项目概述：一个基于深度学习的智能对话机器人最近在开源社区里，我注意到一个挺有意思的项目叫 NeuralArchLabs/mikuBot 。从名字就能看出，这应该是一个融合了“神经网络架构”和“机器人”概念的智能对话系统。作为一个长期在自然语言处…...

2026/5/9 21:28:04 阅读更多 →

ClawSafe安全框架：模块化设计与自动化渗透测试实战解析

1. 项目概述：ClawSafe 是什么，以及它为何值得关注最近在 GitHub 上看到一个名为 ClawSafe 的项目，作者是 Ph4wkm00n。这个项目名本身就挺有意思，“Claw”是爪子，“Safe”是安全，组合起来给人一种“用爪子牢…...

2026/5/9 21:26:43 阅读更多 →

大普微继续大涨16%：市值2202亿第一季营收13亿，净利3.7亿

雷递网雷建平 5月8日深圳大普微电子股份有限公司（简称：“大普微”，证券代码：301666）今日股价继续大涨。截至今日收盘，大普微股价为504.81元，较前一交易日上涨16.78%；以收盘价计算&a…...

2026/5/9 21:23:40 阅读更多 →

LoopViT：结合循环机制的视觉Transformer优化架构

1. 项目概述在计算机视觉领域，Transformer架构近年来展现出惊人的潜力。LoopViT是我最近开发的一种新型视觉推理架构，它通过引入循环机制改进了传统视觉Transformer的计算效率和信息流模式。这个架构特别适合处理视频分析、医学影像分割等需要时序建模的…...

2026/5/8 5:06:09 阅读更多 →

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 还在为微信网页版频繁提示…...

2026/5/9 14:14:14 阅读更多 →

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间【免费下载链接】zhihuishu 智慧树刷课插件，自动播放下一集、1.5倍速度、无声项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台繁琐的视频学习流程而烦恼吗&am…...

2026/5/9 1:50:48 阅读更多 →