CANN/pyasc向量乘加运算API
asc.language.basic.axpy【免费下载链接】pyasc本项目为Python用户提供算子编程接口支持在昇腾AI处理器上加速计算接口与Ascend C一一对应并遵守Python原生语法。项目地址: https://gitcode.com/cann/pyascasc.language.basic.axpy(dst: LocalTensor, src: LocalTensor, scalar: int | float, mask: int, repeat_times: int, repeat_params: UnaryRepeatParams, is_set_mask: bool True) → Noneasc.language.basic.axpy(dst: LocalTensor, src: LocalTensor, scalar: int | float, mask: List[int], repeat_times: int, repeat_params: UnaryRepeatParams, is_set_mask: bool True) → Noneasc.language.basic.axpy(dst: LocalTensor, src: LocalTensor, scalar: int | float, count: int) → None源操作数src中每个元素与标量求积后和目的操作数dst中的对应元素相加计算公式如下 dst[i] src[i] * scalar dst[i]对应的Ascend C函数原型tensor前n个数据计算template typename T, typename U __aicore__ inline void Axpy(const LocalTensorT dst, const LocalTensorU src, const U scalarValue, const int32_t count)tensor高维切分计算mask逐bit模式template typename T, typename U, bool isSetMask true __aicore__ inline void Axpy(const LocalTensorT dst, const LocalTensorU src, const U scalarValue, uint64_t mask[], const uint8_t repeatTime, const UnaryRepeatParams repeatParams)mask连续模式template typename T, typename U, bool isSetMask true __aicore__ inline void Axpy(const LocalTensorT dst, const LocalTensorU src, const U scalarValue, uint64_t mask, const uint8_t repeatTime, const UnaryRepeatParams repeatParams)参数说明is_set_mask是否在接口内部设置mask。True表示在接口内部设置mask。False表示在接口外部设置mask开发者需要使用set_vector_mask接口设置mask值。这种模式下本接口入参中的mask值必须设置为占位符MASK_PLACEHOLDER。dst目的操作数。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要32字节对齐。src: 源操作数。类型为LocalTensor支持的TPosition为VECIN/VECCALC/VECOUT。LocalTensor的起始地址需要32字节对齐。scalar源操作数scalar标量。scalar的数据类型需要和src保持一致。count参与计算的元素个数。mask 控制每次迭代内参与计算的元素。逐bit模式mask为数组形式。数组长度和数组元素的取值范围和操作数的数据类型有关。可以按位控制哪些元素参与计算bit位的值为1表示参与计算0表示不参与。操作数 16 位数组长度 2mask[0], mask[1] ∈ [0, 2⁶⁴-1]且不能同时为 0操作数 32 位数组长度 1mask[0] ∈ (0, 2⁶⁴-1]操作数 64 位数组长度 1mask[0] ∈ (0, 2³²-1]例如mask [8, 0]表示仅第 4 个元素参与计算连续模式mask为整数形式。表示前面连续多少个元素参与计算。取值范围和操作数的数据类型有关数据类型不同每次迭代内能够处理的元素个数最大值不同。操作数 16 位mask ∈ [1, 128]操作数 32 位mask ∈ [1, 64]操作数 64 位mask ∈ [1, 32]repeat_time重复迭代次数。矢量计算单元每次读取连续的256Bytes数据进行计算为完成对输入数据的处理 必须通过多次迭代repeat才能完成所有数据的读取与计算。repeat_time表示迭代的次数。repeat_params控制操作数地址步长的参数。UnaryRepeatParams类型包含操作数相邻迭代间相同data_block的地址步长操作数同一迭代内不同data_block的地址步长等参数。约束说明操作数地址对齐要求请参见 《Ascend C算子开发接口》 中的“通用说明和约束-通用地址对齐约束”。操作数地址重叠约束请参考 《Ascend C算子开发接口》 中的“通用说明和约束-通用地址重叠约束”。使用tensor高维切分计算接口时src和scalar的数据类型为half、dst的数据类型为float的情况下 一个迭代处理的源操作数元素个数需要和目的操作数保持一致所以每次迭代选取前4个data_block参与计算。 设置repeat_stride参数和mask参数以及地址重叠时需要考虑该限制。调用示例tensor高维切分计算样例-mask连续模式params asc.UnaryRepeatParams(1, 1, 8, 8) asc.axpy(dst, src, 2.0, mask128, repeat_time4, repeat_paramsparams)tensor高维切分计算样例-mask逐bit模式uint64_max 2**64 - 1 mask [uint64_max, uint64_max] params asc.UnaryRepeatParams(1, 1, 8, 8) asc.axpy(dst, src, 2.0, maskmask, repeat_time4, repeat_paramsparams)tensor前n个数据计算样例asc.axpy(dst, src, 2.0, count512)【免费下载链接】pyasc本项目为Python用户提供算子编程接口支持在昇腾AI处理器上加速计算接口与Ascend C一一对应并遵守Python原生语法。项目地址: https://gitcode.com/cann/pyasc创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考