CANN/catlass A8W4 MX量化矩阵乘法示例

张

张建站

2026/5/9 16:51:53

10分钟阅读

A8W4MxMatmul Example Readme【免费下载链接】catlass本项目是CANN的算子模板库提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass注意社区包暂不支持 950 能力后续支持的版本敬请期待功能介绍演示 Ascend 950 上的伪量化场景下的Mx Matmul矩阵乘法左矩阵 A与伪量化后的右矩阵 B 经 MX 缩放float8_e8m0后在 Cube 上完成乘加输出为 FP32。本示例中 A元素类型为float8_e4m3_tB元素类型为float4_e2m1x2_t缩放因子为float8_e8m0_t。未启用 BiasElementBias为void。默认布局为 ARowMajor、BColumnMajor、CRowMajor与gen_data.py在trans_a0, trans_b1时生成的数据一致。代码组织├── 59_ascend950_a8w4_mx_matmul │ ├── CMakeLists.txt # CMake编译文件 │ ├── README.md │ ├── gen_data.py │ └── a8w4_mx_matmul.cpp # 主文件使用示例获取代码之后编译相应的算子可执行文件可参考quickstart本用例为 Ascend9503510算子编译时需加-DCATLASS_ARCH3510。执行算子# 编译指定用例 bash scripts/build.sh 59_ascend950_a8w4_mx_matmul -DCATLASS_ARCH3510 # 生成测试样例在 examples/59_ascend950_a8w4_mx_matmul/data 下生成 input/ 与 golden/ python3 examples/59_ascend950_a8w4_mx_matmul/gen_data.py 128 128 128 0 1 # 输入参数分别对应 m, n, k, trans_a, trans_b # trans_a表示A矩阵是否转置0是不转置1是转置 # trans_b表示B矩阵是否转置0是不转置1是转置 # 执行测试样例 ./output/bin/59_ascend950_a8w4_mx_matmul 128 128 128 0 # 可执行文件名 |矩阵m轴|n轴|k轴|Device ID # Device ID可选默认为0执行结果如下说明精度比对成功。Compare success.使用说明1、gen_data.py的输入支持trans_a和trans_b但59_ascend950_a8w4_mx_matmul可执行文件不支持仅仅是trans_a为0及trans_b为1的example示例。若要对应转置情况请修改example示例中的layout因为layout隐式表征转置状态即layout::RowMajor表示不转置layout::ColumnMajor表示转置。其对应关系如下表trans_atrans_bLayoutALayoutB00layout::RowMajorlayout::RowMajor01layout::RowMajorlayout::ColumnMajor10layout::ColumnMajorlayout::RowMajor11layout::ColumnMajorlayout::ColumnMajor2、本example完成mx量化矩阵乘 C (MxScaleA x A) * (MxScaleB x B) Bias A、B支持数据类型为float8_e4m3和float4_e2m1B矩阵伪量化为float8_e4m3后参与cube计算 MxScaleA、MxScaleB支持数据类型为float8_e8m0其中对于MxScaleA、MxScaleB的数据排布要求如下当A为RowMajor时MxScaleA的shape为m, ceil(k/64), 2 当A为ColumnMajor时MxScaleA的shape为ceil(k/64), m, 2 当B为RowMajor时MxScaleB的shape为ceil(k/64), n, 2 当B为ColumnMajor时MxScaleB的shape为n, ceil(k/64), 2【免费下载链接】catlass本项目是CANN的算子模板库提供NPU上高性能矩阵乘及其相关融合类算子模板样例。项目地址: https://gitcode.com/cann/catlass创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANN/runtime流错误处理示例

1_stream_with_failure_mode 【免费下载链接】runtime 本项目提供CANN运行时组件和维测功能组件。项目地址: https://gitcode.com/cann/runtime 描述本样例展示Stream设置遇错即停并且模拟运行核函数时发生错误的场景。产品支持情况本样例支持以下产品&#xff1…...

2026/5/9 16:50:51 阅读更多 →

AI伦理实践：从算法公平到可信人工智能的技术实现

1. 人工智能伦理：从理论原则到美国实践的深度解析在过去的十年里，我亲眼见证了人工智能从实验室的奇思妙想，迅速渗透到我们社会运行的每一个毛细血管。从最初算法推荐你下一首想听的歌，到如今辅助医生诊断癌症、决定谁能获得贷款、…...

2026/5/9 16:50:34 阅读更多 →

观察不同时段调用Taotoken聚合API的延迟与成功率变化

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度观察不同时段调用Taotoken聚合API的延迟与成功率变化在将大模型能力集成到实际业务中时，服务的稳定性和响应速度是开发…...

2026/5/9 16:48:42 阅读更多 →

LoopViT：结合循环机制的视觉Transformer优化架构

1. 项目概述在计算机视觉领域，Transformer架构近年来展现出惊人的潜力。LoopViT是我最近开发的一种新型视觉推理架构，它通过引入循环机制改进了传统视觉Transformer的计算效率和信息流模式。这个架构特别适合处理视频分析、医学影像分割等需要时序建模的…...

2026/5/8 5:06:09 阅读更多 →

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 还在为微信网页版频繁提示…...

2026/5/9 14:14:14 阅读更多 →

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间【免费下载链接】zhihuishu 智慧树刷课插件，自动播放下一集、1.5倍速度、无声项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台繁琐的视频学习流程而烦恼吗&am…...

2026/5/9 1:50:48 阅读更多 →