让模型学会取舍！RedundancyLens重塑多模态大模型的效率边界

张

张建站

2026/7/5 8:48:48

10分钟阅读

当前多模态大语言模型MLLM主要有两种架构范式Decoder-only架构如LLaVA、InternVL2将视觉token与文本token拼接统一通过自注意力机制处理性能优异但计算成本高Cross-attention架构如Flamingo通过交叉注意力引入视觉信息跳过视觉token的自注意力和FFN计算效率高但性能相对较弱图1. 比较纯解码器架构Decoder-Only与基于交叉注意力机制的架构Cross-Attention-Based视觉标记的自注意力与 FFN 操作主导了纯解码器层的计算过程核心问题Decoder-only架构中视觉token的处理自注意力 FFN消耗了绝大部分计算资源通常超过90%但这些计算是否存在冗余以及这种冗余是否可以被有效利用从而提升模型的效率一、研究内容与创新点1. 研究目标利用“训练无关”的方法分析已训练好的decoder-only MLLMs中视觉tokens的冗余。发现存在哪些结构化、集中的冗余为未来的模型设计提供思路。提出一种“无需训练”的推理加速方案通过动态减弱或跳过部分视觉token的计算提高推理速度。2. 关键技术方法在论文中合合信息技术团队提出了一套面向视觉 Token 的动态计算削减方法通过在模型结构层面引入可选择、可跳过的计算机制在几乎不影响模型性能的前提下大幅降低推理计算量。核心思路并不是“压缩模型”或“重新训练”而是在推理阶段根据实际输入内容动态决定“哪些计算是值得做的”。主要包括两项关键技术Probe-Activated Dynamic FFN对 FFN 中的参数进行动态激活Hollow Attention对视觉 Token 的注意力计算进行结构性稀疏化通过 Layer Ranking Algorithm层级排名算法决定“在哪些层优先减计算”实现整体最优2.1 用动态模块替代原有 FFN 与 Attention传统 Transformer 中每一层、每一个 Token 都会执行完整计算但在视觉任务中大量视觉 Token 在很多层并不真正“重要”这就带来了明显的计算冗余。本文通过两个结构改造让模型具备**“按需计算”的能力**图2。2.1.1 Probe-Activated Dynamic FFN在标准 FFN 中每一层都会对所有视觉 Tokens执行完整的两次线性变换W1 → 激活 → W2无论这些 Token 是否真正影响最终结果。这在高分辨率视觉输入下计算成本非常高。其中W1将输入视觉 Token 映射到中间隐藏空间W2将隐藏表示再映射回输出空间:。在 Probe-Activated Dynamic FFN 中并不是每次都使用完整的 W1 和 W2而是通过少量 Token 探测找出当前输入最重要的隐藏维度只激活 W1 和 W2 中对应的子矩阵其余参数在本次推理中完全跳过。核心思想不是所有参数在当前输入下都同样重要。通过对少量视觉 Token 做“快速探测Probe”估计哪些 FFN 参数真正有贡献推理时只激活这部分参数其余直接跳过。具体流程如图1a中表述采样子集从整个视觉token序列中随机采样一部分M个比全部N个少得多用这部分样本来估算视觉tokens的下游表现。参数选择计算这部分样本的隐藏表示H_sample然后取其绝对值的均值来衡量每个参数的重要性。Top-K筛选根据重要性指标从中选出前K个最重要的参数对应的索引S。激活参数子集只保留选中的参数W1和W2的子集对视觉tokens进行线性变换跳过不重要的参数显著减少计算。优势无需额外训练完全训练无关training-free在推理时动态选择参数有效降低视觉tokens的处理成本。2.1.2 Hollow Attention背景全局自注意力计算消耗巨大许多视觉tokens之间的全局交互在某些层是冗余的。核心思想引入稀疏注意Sparse Attention只计算局部Attention舍弃无用的全局Attention提升效率。具体模式如图1b中表述局部注意Visual tokens之间只计算局部范围内的注意如范围RA256 tokens避免全局交互。保留文本视觉交互仍然保持文本 tokens 与 visual tokens 之间的交互确保关键跨模态信息传递。实现方式通过设计“空洞”注意Hollow Attention在视觉tokens间显示空洞提高局部关注减少不必要的全局关注计算。优势显著减少视觉tokens之间的无用交互计算节省很大一部分资源。图2. 所提出的视觉标记计算简化方法示意图(a)探测器激活动态FFN (Probe-Activated Dynamic FFN) 与(b)空洞注意力机制(Hollow Attention)2.2 Layer Ranking Algorithm层级排名算法核心问题即使有了动态 FFN 和 Hollow Attention并不是每一层都同样适合减计算。有些层对模型性能极其关键而有些层本身就存在大量冗余。目标识别哪些模型层的视觉token处理冗余较多可以优先减少这些层的计算从而高效节省资源。基本思想为每一层的视觉token处理赋予“重要性”等级rank根据此排名决定哪些层可以进行计算削减。具体做法:特征提取利用层级中的某些特征或指标如激活值的绝对值、梯度、输出的差异等作为评估标准。重要性排序计算每一层的指标值将层按照重要性进行排序高排名意味着对模型性能影响大低排名则意味着冗余较多可以优先削减。优先削减在减小计算量时先对较低排名冗余多、影响较小的层进行削减以最大化保持模型性能。实现流程采样在验证集上执行少量推理估算每一层对模型性能的重要性。排名算法利用预定义的指标如层激活的均值、重要性分数自动或基于搜索的方式为每层赋予分数。优化策略结合“Position-based”优先削减后面层或者“Search-only”全局搜索两种策略动态选择适合的层进行削减。作用通过排名决定层的削减顺序保证在减少计算的同时不大幅度影响整体性能。特别适用于分层策略的优化使得优势最大化兼顾效率和性能。二、实验验证在多个先进模型如InternVL2-8B、Qwen2-VL-7B等上验证发现1.在大约一半的层应用计算缩减时模型的性能既能保持不变又能提升速度。图3展示了在InternVL2-8B和Qwen2-VL-7B两个模型中分别对层的自注意力和FFN操作进行逐步减少的效果。结果显示当对大约一半的层进行操作减少时模型的性能基本保持不变甚至在某些任务中表现优于未减速的模型。而当减少超过一半层次的操作时模型性能明显下降尤其是FFN的减少对性能影响更为显著。图3. 在不同层比例下应用自注意力机制或 FFN 减少的影响2.减少对文本token的处理会大幅影响性能因此重点在于筛选出冗余集中的视觉层。在图4中通过将操作减少应用于视觉令牌与全部令牌的比较发现仅减少视觉token部分就能基本保持模型性能而减少全部token则会导致性能迅速下降。这说明视觉token在多模态任务中的处理存在一定的冗余可以通过有选择地减少计算量实现效果保持甚至提升。图4. 基于InternVL2-8B在ChartQA上的评估结果对视觉标记蓝线与所有标记红线所应用的削减效果进行性能比较3.通过结合现有的视觉Token压缩技术效果更佳形成互补。Table 1这组实验主要比较了不同模型加速策略在计算量FLOPs显著降低时是否还能保持模型性能。其中FLOPs 剩余比例FLOPs Ratio表示模型加速后实际参与计算的浮点运算量占原始模型的百分比——数值越低代表加速效果越强。实验中对比了三类方法VTW、FastV通过“减少视觉 Token 数量”来加速、Ours通过“减少每个视觉 Token 内部的计算量”来加速并在多个视觉理解与多模态任务上系统评估它们的性能变化。结果表示在 FLOPs 降低约 50% 的情况下模型性能基本保持不变甚至在部分任务中略有提升并且可以与现有 Token 压缩方法无缝结合。Tabel 1. 加速 MLLM 推理的无训练方法对比三、主要结论在多模态模型中处理图像的视觉部分其实存在很多“冗余”也就是说模型在某些层次处理大量视觉信息其实并不是必要的。这种冗余导致模型运算速度慢、资源消耗大但实际上许多视觉信息可以省略而不影响理解。为此合合信息技术团队提出了一种新的方法通过动态调整模型内部的计算方式有效减少了每个视觉信息的计算量从而显著加快了模型的运行速度同时保持甚至提升了其识别能力。该方法完全训练无关training-free只作用于推理阶段非常适合对响应速度和算力资源敏感的真实应用场景同时还可能改善或者持平性能。此外这种方法与现有的压缩技术减少visual tokens是互补的可联合使用。这一研究的意义在于让多模态模型变得更快、更节能也更易于在实际应用中部署比如手机或者实时系统为智能科技的发展提供了新的思路。四、产品应用在产品应用层面该方法同时适用于 ToB 与 ToC 场景为多模态模型的大规模落地提供了更现实的路径。在 ToB 侧如企业级文档扫描与识别、合同与票据 OCR、表单信息抽取、智能审核与质检系统等场景中模型往往需要在高并发、有限算力或本地化部署条件下稳定运行。通过在推理阶段动态减少每个视觉信息的计算量系统可以在保持高准确率的同时显著降低算力与能耗成本从而提升整体服务效率。在 ToC 侧该方法同样适用于手机端拍照识别、即时翻译、智能搜索、辅助阅读等应用使模型在移动设备或实时交互场景中运行得更快、更省电、响应更流畅。整体而言这一技术让多模态能力不再局限于高算力环境而是真正具备了在不同产品形态和终端条件下广泛应用的可行性。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

Wan2.2-I2V-A14BAPI服务教程：Python调用/Postman测试/API文档集成

Wan2.2-I2V-A14B API服务教程：Python调用/Postman测试/API文档集成 1. 准备工作与环境配置在开始调用Wan2.2-I2V-A14B的API服务之前，我们需要确保环境已经正确配置。这个私有部署镜像已经针对RTX 4090D 24GB显存进行了深度优化，内置了完整…...

2026/6/16 8:42:41 阅读更多 →

下篇：那个听声辨位的侦探后来破了大案——AI中隐马尔可夫模型的类型与作用，以及它为什么还在被使用

我们说了隐马尔可夫模型是一个“只能听声、不能见人”的侦探，靠着一串声音推理出隔壁房间在发生什么。现在的问题是：它到底有哪些具体的“形态”？不同类型的隐马尔可夫模型分别擅长什么？这个“老古董”在今天还能干什么&#xff1…...

2026/6/16 8:42:42 阅读更多 →

从零开始：Jumpserver堡垒机在混合云环境下的部署与实战

1. 为什么混合云环境需要Jumpserver堡垒机当企业IT架构从单一私有云扩展到混合云模式时，运维团队会突然面临一堆头疼问题。我去年帮一家电商客户做架构升级时就深有体会——他们同时使用阿里云ECS、自建OpenStack私有云和腾讯云TKE容器服务，运维人员每天…...

2026/6/16 8:42:43 阅读更多 →

2026年AI论文助手推荐：从开题到答辩的一站式智能解决方案

一、传统论文写作的痛点写论文是一场持久战。从选题到答辩，中间要经历开题报告、文献综述、论文撰写、查重降重、格式排版等多个环节。每个环节都可能成为绊脚石：选题不知道怎么选、文献看不完、写不出来、查重过不了、格式调不对…… 2026年&#xf…...

2026/7/5 0:03:29 阅读更多 →

EM3080-W条码扫描模块与PIC32MX695F512L集成指南

1. EM3080-W条形码扫描模块解析EM3080-W是新大陆自动识别技术有限公司推出的一款高性能条码解码芯片，专为嵌入式系统设计。这款芯片在工业级应用中表现出色，具有低功耗、高解码成功率的特点，特别适合集成到各种便携式和固定式扫描设备中。1.1…...

2026/7/5 0:05:34 阅读更多 →

工业级传感器控制系统硬件选型与配置实战

1. 工业级传感器控制系统的硬件选型逻辑在工业自动化领域，构建一个稳定可靠的传感器/执行器控制系统需要精心设计的硬件架构。AD74115H、ADP1034和PIC18F86K90这三款芯片的组合，恰好覆盖了信号采集、电源管理和主控计算这三个关键环节。AD74115H作为ADI公…...

2026/7/5 0:24:27 阅读更多 →

计算机Java毕设实战-美容美发门店收银台账管理系统的设计与实现基于 JavaWeb 的理发店技师排班管理系统【完整源码+LW+部署说明+演示视频，全bao一条龙等】

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…...

2026/7/5 0:32:10 阅读更多 →

更多精彩文章