00_basic_gemm:代码流程与 CUTLASS GEMM 默认配置深挖本文对应示例:examples/00_basic_gemm/basic_gemm.cu。目标是把“能跑起来的最小 CUTLASS GEMM”从调用流程讲到CUTLASS 内部默认配置链路(tile/warp/instruction shape、对齐、stage、epilogue、以及 column-major 输出如何处理)。1. 这个例子在算什么计算标准 GEMM:D=α⋅(A×B)+β⋅C矩阵尺寸:A: (M \times K)B: (K \times N)C/D: (M \times N)本例所有矩阵都是ColumnMajor(列主序)