CANN/cann-samples 性能优化实践
Performance【免费下载链接】cann-samples算子领域高性能实战演进样例与体系化调优知识库项目地址: https://gitcode.com/cann/cann-samples最佳实践, 从Baseline到极致性能的调优实践。grouped_matmul_story分组矩阵乘性能优化专题覆盖 grouped matmul 的 tiling、数据搬运与 kernel 实现并提供 MXFP4/MXFP8 可运行示例及数据校验流程。matmul_story矩阵乘性能优化专题覆盖 MatMul 与量化 MatMul如 MXFP4两类实践包含性能分析文档、分步教程baseline→SWAT→尾轮负载均衡→UnitFlag以及可运行的 recipe 示例A16W16、quant_matmul_mxfp4。rms_norm_quant_story以 Ascend 950PR/950DT 训练/推理系列产品为例介绍 RmsNormQuant 算子的完整性能优化实践。包括多核并行与数据预加载、内存带宽优化、核内流水线排布、硬件特性适配等优化策略从理论分析到代码实践的端到端调优指南。full_quant_fused_infer_attention_score_story围绕 FIAFused Infer Attention Score算子提供 per-block 全量化实现示例包含输入数据生成、算子执行与结果校验流程。moe_init_routing_story以 Ascend950PR/DT 训练/推理系列产品为例介绍 MoeInitRoutingV3 算子的完整性能优化实践。包括多核并行、内存带宽优化、核内流水线排布、SIMT编程、硬件特性适配等优化策略从理论分析到代码实践的端到端调优指南。moe_dispatch_and_combine_story围绕 moe dispatch/combine 通信算子给出性能优化实践包含构建运行命令、测试数据生成与精度校验流程。【免费下载链接】cann-samples算子领域高性能实战演进样例与体系化调优知识库项目地址: https://gitcode.com/cann/cann-samples创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考