CANN/ops-nn GeluMul算子

张

张建站

2026/5/9 13:26:46

10分钟阅读

GeluMul【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atlas A3 推理系列产品√Atlas A2 训练系列产品/Atlas A2 推理系列产品√Atlas 200I/500 A2 推理产品×Atlas 推理系列产品×Atlas 训练系列产品×Kirin X90 处理器系列产品√Kirin 9030 处理器系列产品√功能说明接口功能将输入Tensor按照最后一个维度分为左右两个Tensorx1和x2对左边的x1进行GELU计算将计算结果与x2相乘。计算公式给定输入张量input最后一维的长度为2d函数GeluMul进行以下计算将input分割为两部分$$ x_1 \text{input}[..., :d], \quad x_2 \text{input}[..., d:] $$对x1应用GELU激活函数tanh模式公式如下$$ \text{GELU}(x) 0.5 \cdot x \cdot \left( 1 \tanh\left( \sqrt{\frac{2}{\pi}} \cdot \left( x 0.044715 x^3 \right) \right) \right) $$“none”对应的erf模式公式如下$$ \text{GELU}(x) 0.5 \cdot x \left( 1 \text{erf}\left( \frac{x}{\sqrt{2}} \right) \right) $$因此计算$$ x_1 \text{GELU}(x_1) $$最终输出是x1和x2的逐元素乘积$$ \text{out} x_1 \times x_2 $$参数说明参数名输入/输出/属性描述数据类型数据格式input输入公式中的输入input。BFLOAT16、FLOAT16、FLOATNDapproximateOptional可选属性GELU计算的模式只支持“none”和“tanh”分别对应GELU的erf模式和tanh模式输入为空指针时为“none”。STRING-out输出公式中的out。BFLOAT16、FLOAT16、FLOATNDKirin X90/Kirin 9030处理器系列产品不支持BFLOAT16。约束说明典型场景尾轴为16的倍数当尾轴为非32B对齐时建议走小算子拼接逻辑。调用说明调用方式调用样例说明aclnn调用test_aclnn_gelu_mul通过aclnnGeluMul接口方式调用GeluMul算子。图模式调用-通过算子IR构图方式调用GeluMul算子。【免费下载链接】ops-nn本项目是CANN提供的神经网络类计算算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-nn创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

CANN/pypto hypot函数

pypto.hypot 【免费下载链接】pypto PyPTO（发音: pai p-t-o）：Parallel Tensor/Tile Operation编程范式。项目地址: https://gitcode.com/cann/pypto 产品支持情况产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/At…...

2026/5/9 13:24:17 阅读更多 →

AI赋能运筹学：从智能预测优化到算法自动配置的实践指南

1. 从专家经验到数据驱动：AI如何重塑运筹学在供应链网络设计、航班调度或是投资组合优化中，我们常常面临一个核心挑战：如何在众多约束条件下，找到那个“最好”的决策方案。这就是运筹学的用武之地。传统上，这依赖于领域…...

2026/5/9 13:21:31 阅读更多 →

CANN/ops-transformer FFA算子设计

1 计算过程【免费下载链接】ops-transformer 本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-transformer 按照FusedFloydAttention正向计算流程实现，整体计算流程如下&#x…...

2026/5/9 13:20:32 阅读更多 →

LoopViT：结合循环机制的视觉Transformer优化架构

1. 项目概述在计算机视觉领域，Transformer架构近年来展现出惊人的潜力。LoopViT是我最近开发的一种新型视觉推理架构，它通过引入循环机制改进了传统视觉Transformer的计算效率和信息流模式。这个架构特别适合处理视频分析、医学影像分割等需要时序建模的…...

2026/5/8 5:06:09 阅读更多 →

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 还在为微信网页版频繁提示…...

2026/5/9 14:14:14 阅读更多 →

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间【免费下载链接】zhihuishu 智慧树刷课插件，自动播放下一集、1.5倍速度、无声项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台繁琐的视频学习流程而烦恼吗&am…...

2026/5/9 1:50:48 阅读更多 →