CANN TensorFlow内存管理

张

张建站

2026/5/9 19:55:41

10分钟阅读

内存管理【免费下载链接】tensorflowAscend TensorFlow Adapter项目地址: https://gitcode.com/cann/tensorflowmemory_config用于配置系统内存使用方式用户在创建NPURunConfig之前可以实例化一个MemoryConfig类进行功能配置。MemoryConfig类的构造函数请参见MemoryConfig构造函数。external_weight同一个session内同时加载多个模型时如果多个模型间的权重能够复用建议通过此配置项将网络中Const/Constant节点的权重外置实现多个模型间的权重复用从而减少权重的内存占用。False默认值权重不外置保存在图中。True权重外置将网络中所有Const/Constant节点的权重文件落盘并将Const/Constant类型转换为FileConstant。权重文件以“weight_hash值”命名。若环境中未配置环境变量ASCEND_WORK_PATH则权重文件落盘至当前执行目录“tmp_weight_pid_sessionid”下。若环境中配置了环境变量ASCEND_WORK_PATH则权重文件会落盘至${ASCEND_WORK_PATH}/tmp_weight_pid_sessionid目录下关于ASCEND_WORK_PATH的详细说明可参见[《]环境变量参考](https://hiascend.com/document/redirect/CannCommunityEnvRef)》中的“安装配置相关”章节。模型卸载时会自动删除“tmp_weight_pid_sessionid”目录。说明一般场景下不需要配置此参数针对模型加载环境有内存限制的场景可以将权重外置。配置示例config NPURunConfig(external_weightTrue)input_fusion_sizeHost侧输入数据搬运到Device侧时将用户离散多个输入数据合并拷贝的阈值。单位为Byte最小值为0 Byte最大值为33554432 Byte32MB默认值为131072 Byte128KB。若输入数据大小****阈值则合并输入然后从Host搬运到Device。若输入数据大小****阈值或者阈值0功能关闭则不合并直接从Host搬运到Device。例如用户有10个输入有2个输入数据大小为100KB2个输入数据大小为50KB其余输入大于100KB若设置“input_fusion_size”设置为100KB则上述4个输入合并为300KB执行搬运其他6个输入直接从Host搬运到Device。“input_fusion_size”设置为0KB则该功能关闭不进行输入合并即10个输入直接从Host搬运到Device。说明该参数仅针对静态shape图生效。配置示例config NPURunConfig(input_fusion_size25600)input_batch_cpyHost侧输入数据搬运到Device时是否开启批量内存拷贝功能。True开启批量内存拷贝功能。该配置仅在用户输入个数大于1时生效。False默认值关闭批量内存拷贝功能。说明该参数仅支持以下产品Ascend 950PR/Ascend 950DTAtlas A3 训练系列产品/Atlas A3 推理系列产品Atlas A2 训练系列产品/Atlas A2 推理系列产品该参数可以提升Host到Device的数据搬运性能适用于需要频繁搬运数据且PCIe带宽利用率较低的场景。通过该参数使能批量拷贝功能后可提升带宽利用率。若网络初始输入个数仅有1个即使配置了批量拷贝功能也不会生效。当同时配置了“input_fusion_size”参数以启用合并拷贝功能和“input_batch_cpy”参数以启用批量拷贝功能时合并拷贝的阈值可能会影响批量拷贝功能。例如如果用户有5个输入其中有4个输入数据小于合并拷贝阈值满足数据合并条件那么这4个输入会执行合并拷贝剩余的1个输入由于不满足批量拷贝的输入个数则不会执行批量拷贝。配置示例config NPURunConfig(input_batch_cpyTrue)【免费下载链接】tensorflowAscend TensorFlow Adapter项目地址: https://gitcode.com/cann/tensorflow创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

AI专著写作全攻略：优质工具助力，快速打造20万字专著！

学术专著创作困境与AI写作工具的出现对于许多学者来说，撰写学术专著面临的最大挑战，往往是“有限的精力”与“无限的需求”之间的冲突。专著的创作周期通常需要3到5年，甚至更久，而研究者们在日常工作中还需兼顾教学、科研项目和…...

2026/5/9 19:54:36 阅读更多 →

生成式AI图像偏见：技术根源、分类与缓解策略

1. 项目概述：当AI开始“画画”，它看到了谁？生成式AI图像模型，比如大家熟知的Stable Diffusion、DALL-E或者Midjourney，已经从一个极客玩具变成了设计师、营销人员和内容创作者的日常工具。只需要输入一段文字描述&…...

2026/5/9 19:51:10 阅读更多 →

CANN/cann-bench UnsortedSegmentSum 算子 API 描述

UnsortedSegmentSum 算子 API 描述【免费下载链接】cann-bench 评测AI在处理CANN领域代码任务的能力，涵盖算子生成、算子优化等领域，支撑模型选型、训练效果评估，统一量化评估标准，识别Agent能力短板，构建CANN领域评测…...

2026/5/9 19:50:42 阅读更多 →

LoopViT：结合循环机制的视觉Transformer优化架构

1. 项目概述在计算机视觉领域，Transformer架构近年来展现出惊人的潜力。LoopViT是我最近开发的一种新型视觉推理架构，它通过引入循环机制改进了传统视觉Transformer的计算效率和信息流模式。这个架构特别适合处理视频分析、医学影像分割等需要时序建模的…...

2026/5/8 5:06:09 阅读更多 →

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 还在为微信网页版频繁提示…...

2026/5/9 14:14:14 阅读更多 →

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间【免费下载链接】zhihuishu 智慧树刷课插件，自动播放下一集、1.5倍速度、无声项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台繁琐的视频学习流程而烦恼吗&am…...

2026/5/9 1:50:48 阅读更多 →