YOLOv11最新创新改进系列：多模态融合RGB+红外线（IR），融合BoTNet模块，ResNet的最后三个的卷积层替换成MHSA层，融合CNN+自然语言处理技术的优势，提升检测效果！

张

张建站

2026/5/8 15:29:09

10分钟阅读

YOLOv11最新创新改进系列多模态融合RGB红外线IR融合BoTNet模块ResNet的最后三个的卷积层替换成MHSA层融合CNN自然语言处理技术的优势提升检测效果购买相关资料后畅享一对一答疑畅享超多免费持续更新且可大幅度提升文章档次的纯干货工具自己排列组合2-4种后考虑位置不同后可排列组合上千万种专注AI学术关注B站博主Ai学术叫叫兽数据集准备我给大家配置了默认的M3FD.yaml,大家可以直接在代码中使用然后按照自己的数据进行简单的替换就行非常简单# Ultralytics YOLO , AGPL-3.0 license# M3FD dataset# Example usage: yolo train dataM3FD.yaml# Train/val/test sets as dir: path/to/imgspath:# dataset root dirtrain:images/train# train visible images (relative to path)train2:imagesTR/train# train infrared images (relative to path)val:images/val# val visible images (relative to path)val2:imagesIR/val# val infrared images (relative to path)test:# test images (optional)#image_weights: Truenc:6# Classesnames:0:People1:Car2:Bus3:Motorcycle4:Lamp5:Truck其中ImagesIR 为红外线图像Image为可见光RGB图像详细的改进教程以及源码戳这戳这戳这B站AI学术叫叫兽源码在相簿的链接中动态中也有链接感谢支持祝科研遥遥领先改进一、 BoTNet简介论文地址https://arxiv.org/abs/2101.11605BoTNet是一种简单但功能强大的主干网络该架构将注意力模块纳入了包括图像分类目标检测实例分割等多种计算机视觉任务。通过仅将ResNet的最后三个的卷积层替换成MHSA层并不进行其他改变在墓边检测方面显著改善了极限同时减少了参数两从而使得延迟最小化。Transformer中的MHSA和BoTNet中的MHSA的区别归一化Transformer使用 Layer Normalization而BoTNet使用 Batch Normalization。非线性激活Transformer仅仅使用一个非线性激活在FPN block模块中BoTNet使用了3个非线性激活。输出投影Transformer中的MHSA包含一个输出投影BoTNet则没有。优化器Transformer使用Adam优化器训练BoTNet使用sgd momentum二、改进教程2.1 修改YAML文件2.2 新建.py2.3 修改tasks.py三、验证是否成功即可执行命令python train.py改完收工关注B站AI学术叫叫兽从此走上科研快速路遥遥领先同行写在最后学术因方向、个人实验和写作能力以及具体创新内容的不同而无法做到一通百通关注UPAi学术叫叫兽在所有B站资料中留下联系方式以便在科研之余为家人们答疑解惑本up主获得过国奖发表多篇SCI擅长目标检测领域拥有多项竞赛经历拥有软件著作权核心期刊等经历。因为经历过所以更懂小白的痛苦因为经历过所以更具有指向性的指导祝所有科研工作者都能够在自己的领域上更上一层楼以下为给大家庭小伙伴们免费更新过的绘图代码均配有详细教程超小白也可一键操作! 后续更多提升文章档次的资料的更新请大家庭的小伙伴关注UPAi学术叫叫兽

基于MLX框架与Qwen2.5模型实现PDF到播客的本地AI流水线

1. 项目概述：用MLX框架复现NotebookLlama，实现PDF到播客的AI流水线如果你对AI应用开发感兴趣，尤其是想在苹果芯片（M系列）的Mac上跑起来，那你肯定绕不开Meta开源的LLaMA模型。但直接上手LLaMA，环…...

2026/5/8 15:29:03 阅读更多 →

第5天：分支结构

Python学习100天（从入门到精通系列文章）文章目录 Python学习100天（从入门到精通系列文章）前言一、什么是分支结构二、使用 if 和 else 构造分支结构 2.1 简单 if 语句 2.2 if-else 语句 2.3 if-elif-else 多分支三、使用 match 和 case 构造分支结构 3.1 基本用法 3.2…...

2026/5/8 15:28:38 阅读更多 →

如何在Windows系统上实现专业级字体渲染优化指南

如何在Windows系统上实现专业级字体渲染优化指南【免费下载链接】mactype Better font rendering for Windows. 项目地址: https://gitcode.com/gh_mirrors/ma/mactype Windows字体渲染引擎在显示效果上存在固有局限，特别是在高分辨率屏幕和现代显示设备上&…...

2026/5/8 15:27:43 阅读更多 →

LoopViT：结合循环机制的视觉Transformer优化架构

1. 项目概述在计算机视觉领域，Transformer架构近年来展现出惊人的潜力。LoopViT是我最近开发的一种新型视觉推理架构，它通过引入循环机制改进了传统视觉Transformer的计算效率和信息流模式。这个架构特别适合处理视频分析、医学影像分割等需要时序建模的…...

2026/5/8 5:06:09 阅读更多 →

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天

实战指南：深度解锁微信网页版，让浏览器也能畅快聊天【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 还在为微信网页版频繁提示…...

2026/5/8 5:15:02 阅读更多 →

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间

智慧树学习效率提升指南：如何用自动化工具节省80%学习时间【免费下载链接】zhihuishu 智慧树刷课插件，自动播放下一集、1.5倍速度、无声项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台繁琐的视频学习流程而烦恼吗&am…...

2026/5/7 9:19:11 阅读更多 →