CANN NPU RMS Norm动态量化

张

张建站

2026/5/9 12:16:30

10分钟阅读

custom-npu_rms_norm_dynamic_quant【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer产品支持情况产品是否支持Atlas A3 推理系列产品√功能说明RmsNormDynamicQuantRmsNorm算子是大模型常用的归一化操作。DynamicQuant算子则是为输入张量进行对称动态量化的算子。RmsNormDynamicQuant算子将RmsNorm归一化输出给到DynamicQuant算子融合起来减少搬入搬出操作RmsNormDynamicQuant的具体计算公式如下$$ y \operatorname{RmsNorm}(x)\frac{x}{\operatorname{Rms}(\mathbf{x})}\cdot gammabeta, \quad \text { where } \operatorname{Rms}(\mathbf{x})\sqrt{\frac{1}{n} \sum_{i1}^n x_i^2epsilon} $$$$ input \begin{cases} y\cdot smoothScaleOptional \ \ smoothScaleOptional \ y !\ smoothScaleOptional \end{cases} $$$$ scaleOutrow_max(abs(input))/127 $$$$ yOutround(input1/scaleOut) $$公式中的row_max代表每行求最大值。函数原型custom.npu_rms_norm_dynamic_quant(Tensor x, Tensor gamma, *, Tensor? smooth_scaleNone, Tensor? betaNone, float epsilon1e-6) - (Tensor, Tensor)参数说明xTensor公式中的输入x必选参数不支持非连续数据格式支持ND数据类型支持float16、bfloat16。gammaTensor公式中的gamma必选参数不支持非连续数据格式支持ND数据类型支持float16、bfloat16要求是1D的Tensor数据类型同x保持一致shape同x最后一维一致。*代表其之前的参数是位置相关的必须按照顺序输入属于必选参数其之后的参数是键值对赋值与位置无关属于可选参数不传入会使用默认值。smooth_scaleTensor公式中的smoothScaleOptional可选参数不支持非连续数据格式支持ND数据类型支持float16、bfloat16要求是1D的Tensor。shape和数据类型同gamma保持一致。betaTensor公式中的beta表示标准化过程中的偏置项可选参数不支持非连续数据格式支持ND数据类型支持float16、bfloat16要求是1D的Tensor。shape和数据类型同gamma保持一致。。epsilonfloat公式中的epsilon表示用于防止除0错误可选参数默认值1e-6。返回值说明yTensor公式中的输出yOut表示量化后的输出tensor数据类型支持int8。数据格式支持NDshape需要与输入x保持一致。scaleTensor公式中的输出scaleOut表示量化scale参数数据类型支持float32。数据格式支持ND,shape需要与输入x除了最后一维后的shape一致或者与x除了最后一维的乘积一致。约束说明该接口支持推理场景下使用。该接口支持aclgraph入图。该接口与PyTorch配合使用时需要保证CANN相关包与PyTorch相关包的版本匹配。调用示例详见test_npu_rms_norm_dynamic_quant.py【免费下载链接】cann-recipes-infer本项目针对LLM与多模态模型推理业务中的典型模型、加速算法提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANN/metadef算子简化键生成

GenSimplifiedKey 【免费下载链接】metadef Ascend Metadata Definition 项目地址: https://gitcode.com/cann/metadef 函数功能注册算子的GenSimplifiedKey函数，以提供一个更加快速的二进制匹配key值。用户需要为算子编写一个GenSimplifiedKey类型的函数…...

2026/5/9 12:13:22 阅读更多 →

国产替代之NTMFS0D8N03CT1G与VBQA1301参数对比报告

N沟道功率MOSFET参数对比分析报告一、产品概述NTMFS0D8N03CT1G：安森美（onsemi）N沟道硅MOSFET，耐压30V，超低导通电阻（典型值0.62mΩ），采用先进的DFN5 5x6mm（SO8-FL&#x…...

2026/5/9 12:11:49 阅读更多 →

cann/torchtitan-npu 贡献指南

贡献指南【免费下载链接】torchtitan-npu Ascend Extension for torchtitan 项目地址: https://gitcode.com/cann/torchtitan-npu 感谢关注torchtitan-npu！我们欢迎任何形式的贡献，包括但不限于报告问题、提出建议、改进文档、提交代码。为了让您…...

2026/5/9 12:10:32 阅读更多 →

LoopViT：结合循环机制的视觉Transformer优化架构

1. 项目概述在计算机视觉领域，Transformer架构近年来展现出惊人的潜力。LoopViT是我最近开发的一种新型视觉推理架构，它通过引入循环机制改进了传统视觉Transformer的计算效率和信息流模式。这个架构特别适合处理视频分析、医学影像分割等需要时序建模的…...

2026/5/8 5:06:09 阅读更多 →

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 还在为微信网页版频繁提示…...

2026/5/8 5:15:02 阅读更多 →

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间【免费下载链接】zhihuishu 智慧树刷课插件，自动播放下一集、1.5倍速度、无声项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台繁琐的视频学习流程而烦恼吗&am…...

2026/5/9 1:50:48 阅读更多 →