CANN/ops-cv 3D网格采样反向传播

张

张建站

2026/5/9 20:21:33

10分钟阅读

aclnnGridSampler3DBackward【免费下载链接】ops-cv本项目是CANN提供的图像处理、目标检测相关的算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-cv 查看源码产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理系列产品√Atlas A2 训练系列产品/Atlas A2 推理系列产品√Atlas 200I/500 A2 推理产品×Atlas 推理系列产品×Atlas 训练系列产品√功能说明接口功能aclnnGridSampler3D的反向传播完成张量input与张量grid的梯度计算。计算公式计算流程根据grid存储的(x, y, z)值计算出映射到input上的坐标这些坐标和alignCorners、paddingMode有关。坐标根据输入的interpolationMode选择使用bilinear、nearest不同插值模式计算输出值。根据grad存储的梯度值乘上对应点的权重值计算出最终dx、dgrid的结果。其中grad、input、grid、dx、dgrid的尺寸如下$$ grad: (N, C, D_{out}, H_{out}, W_{out})\ input: (N, C, D_{in}, H_{in}, W_{in})\ grid: (N, D_{out}, H_{out}, W_{out}, 3)\ dx: (N, C, D_{in}, H_{in}, W_{in})\ dgrid: (N, D_{out}, H_{out}, W_{out}, 3) $$其中grad、input、grid、dx、dgrid中的N是一致的grad、input和dx中的C是一致的input和dx中的$D_{in}$、$H_{in}$、$W_{in}$是一致的grad、grid和dgrid中的$D_{out}$、$H_{out}$、$W_{out}$是一致的grid最后一维大小为3表示input像素位置信息为(x, y, z)会将x、y、z的取值范围归一化到[-1, 1]之间。对于超出范围的坐标会根据paddingMode进行不同处理paddingModezeros表示对越界位置用0填充。paddingModeborder表示对越界位置用边界值填充。paddingModereflection表示对越界位置用边界值的对称值填充。对input采样时会根据interpolationMode进行不同处理interpolationModebilinear表示取input中(x, y, z)周围八个坐标的加权平均值。interpolationModenearest表示取input中距离(x, y, z)最近的坐标值。函数原型每个算子分为两段式接口必须先调用“aclnnGridSampler3DBackwardGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器再调用“aclnnGridSampler3DBackward”接口执行计算。aclnnStatus aclnnGridSampler3DBackwardGetWorkspaceSize( const aclTensor* gradOutput, const aclTensor* input, const aclTensor* grid, int64_t interpolationMode, int64_t paddingMode, bool alignCorners, const aclBoolArray* outputMask, aclTensor* inputGrad, aclTensor* gridGrad, uint64_t* workspaceSize, aclOpExecutor** executor)aclnnStatus aclnnGridSampler3DBackward( void* workspace, uint64_t workspaceSize, aclOpExecutor* executor, aclrtStream stream)aclnnGridSampler3DBackwardGetWorkspaceSize参数说明参数名输入/输出描述使用说明数据类型数据格式维度(shape)非连续TensorgradOutputaclTensor*输入表示反向传播过程中上一层的输出梯度对应公式描述中的grad。支持空Tensor。数据类型与input的数据类型一致。当数据类型为DOUBLE时数据格式不支持NDHWC。BFLOAT16、FLOAT16、FLOAT32、DOUBLENCDHW、NDHWC5√inputaclTensor*输入表示反向传播的输入张量对应公式描述中的input。支持空Tensor。当数据类型为DOUBLE时数据格式不支持NDHWC。input和gradOutput的N轴和C轴的值保持一致且input的DHW值不可为0。BFLOAT16、FLOAT16、FLOAT32、DOUBLENCDHW、NDHWC5√gridaclTensor*输入表示采用像素位置的张量对应公式描述中的grid。支持空Tensor。数据类型与input的数据类型一致。grid和gradOutput的N轴、D轴、H轴、W轴的值保持一致C轴的值必须为3。BFLOAT16、FLOAT16、FLOAT32、DOUBLENDHWC5√interpolationModeint64_t输入表示插值模式对应公式描述中的interpolationMode。支持0bilinear双线性插值、1nearest最邻近插值两种模式。----paddingModeint64_t输入表示填充模式即当grid有超过[-11]范围的值则按照paddingMode定义的方式处理相应的输出。对应公式描述中的paddingMode。支持0zeros、1border、2reflection三种模式。----alignCornersbool输入表示设定特征图坐标与特征值的对应方式对应公式描述中的alignCorners。如果为True则将极值-1和1视为参考输入的角像素点的中心点。如果为False则视为参考输入的角像素点的角点。----outputMaskaclBoolArray*输入用于表示输出的掩码。outputMask[0]为True/False表示是否获取输出inputGradoutputMask[1]为True/False表示是否获取输出gridGrad。BOOLARRAY---inputGradaclTensor*输出表示反向传播的输出梯度对应公式描述中的dx。支持空Tensor。数据类型、数据格式和shape与input的数据类型、数据格式和shape保持一致。当数据类型DOUBLE时数据格式不支持NDHWC。BFLOAT16、FLOAT16、FLOAT32、DOUBLENCDHW、NDHWC5√gridGradaclTensor*输出表示grid梯度对应公式描述中的dgrid。支持空Tensor。数据类型、数据格式和shape与grid的数据类型、数据格式和shape保持一致。BFLOAT16、FLOAT16、FLOAT32、DOUBLENDHWC5√workspaceSizeuint64_t*输出返回需要在Device侧申请的workspace大小。-----executoraclOpExecutor**输出返回op执行器包含了算子计算流程。-----Atlas 训练系列产品参数gradOutput、input、grid、inputGrad、gridGrad的数据类型不支持BFLOAT16。返回值aclnnStatus返回状态码具体参见aclnn返回码。第一段接口完成入参校验出现以下场景时报错返回码错误码描述ACLNN_ERR_PARAM_NULLPTR161001传入的gradOutput、input、grid、inputGrad或gridGrad是空指针。ACLNN_ERR_PARAM_INVALID161002gradOutput、input、grid、inputGrad或gridGrad的数据类型不在支持的范围之内或数据类型不一致。interpolationMode和paddingMode的值不在支持范围内。gradOutput、input、grid、inputGrad、gridGrad的维度关系不匹配。aclnnGridSampler3DBackward参数说明参数名输入/输出描述workspace输入在Device侧申请的workspace内存地址。workspaceSize输入在Device侧申请的workspace大小由第一段接口aclnnGridSampler3DBackwardGetWorkspaceSize获取。executor输入op执行器包含了算子计算流程。stream输入指定执行任务的Stream。返回值aclnnStatus返回状态码具体参见aclnn返回码。约束说明确定性计算aclnnGridSampler3DBackward默认非确定性实现支持通过aclrtCtxSetSysParamOpt开启确定性。调用示例示例代码如下仅供参考具体编译和执行过程请参考编译与运行样例。#include iostream #include vector #include acl/acl.h #include aclnnop/aclnn_grid_sampler3d_backward.h #define CHECK_RET(cond, return_expr) \ do { \ if (!(cond)) { \ return_expr; \ } \ } while (0) #define LOG_PRINT(message, ...) \ do { \ printf(message, ##__VA_ARGS__); \ } while (0) int64_t GetShapeSize(const std::vectorint64_t shape) { int64_t shapeSize 1; for (auto i : shape) { shapeSize * i; } return shapeSize; } int Init(int32_t deviceId, aclrtStream* stream) { // 固定写法资源初始化 auto ret aclInit(nullptr); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclInit failed. ERROR: %d\n, ret); return ret); ret aclrtSetDevice(deviceId); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtSetDevice failed. ERROR: %d\n, ret); return ret); ret aclrtCreateStream(stream); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtCreateStream failed. ERROR: %d\n, ret); return ret); return 0; } template typename T int CreateAclTensor( const std::vectorT hostData, const std::vectorint64_t shape, void** deviceAddr, aclDataType dataType, aclTensor** tensor) { auto size GetShapeSize(shape) * sizeof(T); // 调用aclrtMalloc申请device侧内存 auto ret aclrtMalloc(deviceAddr, size, ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtMalloc failed. ERROR: %d\n, ret); return ret); // 调用aclrtMemcpy将host侧数据拷贝到device侧内存上 ret aclrtMemcpy(*deviceAddr, size, hostData.data(), size, ACL_MEMCPY_HOST_TO_DEVICE); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtMemcpy failed. ERROR: %d\n, ret); return ret); // 计算连续tensor的strides std::vectorint64_t strides(shape.size(), 1); for (int64_t i shape.size() - 2; i 0; i--) { strides[i] shape[i 1] * strides[i 1]; } // 调用aclCreateTensor接口创建aclTensor *tensor aclCreateTensor( shape.data(), shape.size(), dataType, strides.data(), 0, aclFormat::ACL_FORMAT_ND, shape.data(), shape.size(), *deviceAddr); return 0; } int main() { // 1. 固定写法device/stream初始化参考acl API手册 // 根据自己的实际device填写deviceId int32_t deviceId 0; aclrtStream stream; auto ret Init(deviceId, stream); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(Init acl failed. ERROR: %d\n, ret); return ret); // 2. 构造输入与输出需要根据API的接口自定义构造 int64_t interpolationMode 0; int64_t paddingMode 0; bool alignCorners false; aclBoolArray* outputMask nullptr; std::vectorint64_t gradOutputShape {1, 1, 1, 2, 2}; std::vectorint64_t inputShape {1, 1, 1, 3, 3}; std::vectorint64_t gridShape {1, 1, 2, 2, 3}; std::vectorint64_t inputGradShape {1, 1, 1, 3, 3}; std::vectorint64_t gridGradShape {1, 1, 2, 2, 3}; void* gradOutputDeviceAddr nullptr; void* inputDeviceAddr nullptr; void* gridDeviceAddr nullptr; void* inputGradDeviceAddr nullptr; void* gridGradDeviceAddr nullptr; aclTensor* gradOutput nullptr; aclTensor* input nullptr; aclTensor* grid nullptr; aclTensor* inputGrad nullptr; aclTensor* gridGrad nullptr; std::vectorfloat gradOutputHostData {1, 1, 1, 1}; std::vectorfloat inputHostData { 1, 2, 3, 4, 5, 6, 7, 8, 9, }; std::vectorfloat gridHostData {-1, -1, 0, -1, 1, -1, -1, 0, 0, 0, 1, 0}; std::vectorfloat inputGradHostData {0, 0, 0, 0, 0, 0, 0, 0, 0}; std::vectorfloat gridGradHostData {0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0}; bool maskValue[2] {true, true}; const uint64_t kNum 2U; outputMask aclCreateBoolArray((maskValue[0]), kNum); // 创建gradOutput aclTensor ret CreateAclTensor( gradOutputHostData, gradOutputShape, gradOutputDeviceAddr, aclDataType::ACL_FLOAT, gradOutput); CHECK_RET(ret ACL_SUCCESS, return ret); // 创建input aclTensor ret CreateAclTensor(inputHostData, inputShape, inputDeviceAddr, aclDataType::ACL_FLOAT, input); CHECK_RET(ret ACL_SUCCESS, return ret); // 创建grid aclTensor ret CreateAclTensor(gridHostData, gridShape, gridDeviceAddr, aclDataType::ACL_FLOAT, grid); CHECK_RET(ret ACL_SUCCESS, return ret); // 创建inputGrad aclTensor ret CreateAclTensor(inputGradHostData, inputGradShape, inputGradDeviceAddr, aclDataType::ACL_FLOAT, inputGrad); CHECK_RET(ret ACL_SUCCESS, return ret); // 创建gridGrad aclTensor ret CreateAclTensor(gridGradHostData, gridGradShape, gridGradDeviceAddr, aclDataType::ACL_FLOAT, gridGrad); CHECK_RET(ret ACL_SUCCESS, return ret); // 3. 调用CANN算子库API需要修改为具体的Api名称 uint64_t workspaceSize 0; aclOpExecutor* executor; // 调用aclnnGridSampler3DBackward第一段接口 ret aclnnGridSampler3DBackwardGetWorkspaceSize( gradOutput, input, grid, interpolationMode, paddingMode, alignCorners, outputMask, inputGrad, gridGrad, workspaceSize, executor); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclnnGridSampler3DBackwardGetWorkspaceSize failed. ERROR: %d\n, ret); return ret); // 根据第一段接口计算出的workspaceSize申请device内存 void* workspaceAddr nullptr; if (workspaceSize 0) { ret aclrtMalloc(workspaceAddr, workspaceSize, ACL_MEM_MALLOC_HUGE_FIRST); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(allocate workspace failed. ERROR: %d\n, ret); return ret); } // 调用aclnnGridSampler3DBackward第二段接口 ret aclnnGridSampler3DBackward(workspaceAddr, workspaceSize, executor, stream); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclnnGridSampler3DBackward failed. ERROR: %d\n, ret); return ret); // 4. 固定写法同步等待任务执行结束 ret aclrtSynchronizeStream(stream); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(aclrtSynchronizeStream failed. ERROR: %d\n, ret); return ret); // 5. 获取输出的值将device侧内存上的结果拷贝至host侧需要根据具体API的接口定义修改 auto inputGradSize GetShapeSize(inputGradShape); std::vectorfloat inputGradResultData(inputGradSize, 0); ret aclrtMemcpy( inputGradResultData.data(), inputGradResultData.size() * sizeof(inputGradResultData[0]), inputGradDeviceAddr, inputGradSize * sizeof(inputGradResultData[0]), ACL_MEMCPY_DEVICE_TO_HOST); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(copy inputGradResultData from device to host failed. ERROR: %d\n, ret); return ret); for (int64_t i 0; i inputGradSize; i) { LOG_PRINT(inputGradResultData[%ld] is: %f\n, i, inputGradResultData[i]); } auto gridGradSize GetShapeSize(gridGradShape); std::vectorfloat gridGradResultData(gridGradSize, 0); ret aclrtMemcpy( gridGradResultData.data(), gridGradResultData.size() * sizeof(gridGradResultData[0]), gridGradDeviceAddr, gridGradSize * sizeof(gridGradResultData[0]), ACL_MEMCPY_DEVICE_TO_HOST); CHECK_RET(ret ACL_SUCCESS, LOG_PRINT(copy gridGradResultData from device to host failed. ERROR: %d\n, ret); return ret); for (int64_t i 0; i gridGradSize; i) { LOG_PRINT(gridGradResultData[%ld] is: %f\n, i, gridGradResultData[i]); } // 6. 释放aclTensor和aclBoolArray需要根据具体API的接口定义修改 aclDestroyTensor(gradOutput); aclDestroyTensor(input); aclDestroyTensor(grid); aclDestroyTensor(inputGrad); aclDestroyTensor(gridGrad); aclDestroyBoolArray(outputMask); // 7. 释放device资源需要根据具体API的接口定义修改 aclrtFree(gradOutputDeviceAddr); aclrtFree(inputDeviceAddr); aclrtFree(gridDeviceAddr); aclrtFree(inputGradDeviceAddr); aclrtFree(gridGradDeviceAddr); if (workspaceSize 0) { aclrtFree(workspaceAddr); } aclrtDestroyStream(stream); aclrtResetDevice(deviceId); aclFinalize(); return 0; }【免费下载链接】ops-cv本项目是CANN提供的图像处理、目标检测相关的算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-cv创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANN驱动DCMI获取设备IP

dcmi_get_device_ip 【免费下载链接】driver 本项目是CANN提供的驱动模块，实现基础驱动和资源管理及调度等功能，使能昇腾芯片。项目地址: https://gitcode.com/cann/driver 函数原型 int dcmi_get_device_ip(int card_id, int device_id, enum …...

2026/5/9 20:19:03 阅读更多 →

RedwoodJS打包优化终极指南：Vite构建与代码压缩技巧 [特殊字符]

RedwoodJS打包优化终极指南：Vite构建与代码压缩技巧 🚀 【免费下载链接】redwood RedwoodGraphQL 项目地址: https://gitcode.com/gh_mirrors/re/redwood RedwoodJS是一个现代化的全栈React框架，从v8版本开始全面采用Vite作为默认构建…...

2026/5/9 20:18:24 阅读更多 →

大模型应用开发：从API调用到边缘推理的实战指南

时至今日，大模型技术在应用开发方面俨然已成为基础设施了，不管是刚刚起步筹备的团队，亦是已经成熟稳定的企业，大家都在绞尽脑汁地探查该怎么把大模型所具备的能力融入到自身的产品当中，然而，当真正着手开展…...

2026/5/9 20:15:33 阅读更多 →

LoopViT：结合循环机制的视觉Transformer优化架构

1. 项目概述在计算机视觉领域，Transformer架构近年来展现出惊人的潜力。LoopViT是我最近开发的一种新型视觉推理架构，它通过引入循环机制改进了传统视觉Transformer的计算效率和信息流模式。这个架构特别适合处理视频分析、医学影像分割等需要时序建模的…...

2026/5/8 5:06:09 阅读更多 →

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 还在为微信网页版频繁提示…...

2026/5/9 14:14:14 阅读更多 →

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间【免费下载链接】zhihuishu 智慧树刷课插件，自动播放下一集、1.5倍速度、无声项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台繁琐的视频学习流程而烦恼吗&am…...

2026/5/9 1:50:48 阅读更多 →