看了最近的顶会感觉多模态方向真正能中的工作要么在核心方法上有新思路要么在模型架构上找到了更高效的范式要么戳了某个真实应用场景的痛点...但问题来了方向太多论文太密如何快速理清脉络、找到那个属于自己的切入点为了帮大家解决这个问题我把手头的资料系统整理了一遍。目前更新到160篇顶会相关论文包含CVPR/ICLR/ICML等七大会议330篇按四大路径分类的论文——核心技术、架构训练、应用领域、场景挑战每大类下面另做了细分拆解方便大家直接定位到自己关心的方向。除此之外我还整理了多模态开源数据集代码库拿来即用免去了各位找资源调代码的痛苦效率起飞以上全部资料可无偿获取如果感兴趣建议直接存一份~扫码添加小享回复“多模态合集”免费获取全部论文开源代码以下为部分论文简析【CVPR 2026】CaReFlow: Cyclic Adaptive Rectified Flow for Multimodal Fusion研究方法论文面向多模态情感计算提出循环自适应校正流 CaReFlow依托校正流实现多模态间一对多分布映射搭配自适应松弛对齐解决一对多映射方向模糊问题并通过循环校正流保留模态特有信息以此缩小模态差异、提升多模态融合效果。创新点首次将模态差异问题转化为分布映射任务把校正流用于多模态对齐用一对多映射让源模态数据感知目标模态全局分布缓解配对数据不足问题。设计自适应松弛对齐机制对同一样本的模态对严格校正对不同样本 / 类别的模态对放松约束解决一对多映射的方向模糊问题无需迭代训练即可实现精准对齐。引入循环校正流构建循环一致性约束确保转换后的特征能还原为原始特征避免模态特有信息丢失提升多模态表示的判别性。研究价值论文首次将校正流用于多模态情感计算的模态鸿沟消除提出CaReFlow框架通过一对多映射、自适应松弛对齐与循环一致性约束实现高效、精准且信息无损的模态分布对齐用简单融合方式即可在多任务上达到 SOTA为跨模态融合提供轻量化、高鲁棒的新范式。扫码添加小享回复“多模态合集”免费获取全部论文开源代码【ICML 2026】DCER: Robust Multimodal Fusion via Dual-Stage Compression and Energy-Based Reconstruction研究方法论文提出DCER多模态融合方法先对音频做小波变换、视频做二维 DCT 实现单模态频域降噪压缩再通过可学习查询 token 构建跨模态瓶颈强制多模态深度整合最后用基于能量函数的梯度下降重建缺失模态并实现不确定性量化。创新点提出双阶段压缩机制先通过小波变换、二维DCT对音频与视频进行单模态频域压缩去噪再用可学习查询token构建跨模态容量瓶颈避免模态特异性捷径学习。设计基于能量函数的重建方法通过梯度下降迭代恢复缺失模态特征能量值可直接作为内在不确定性指标与预测误差呈高相关。在多模态情感分析主流数据集上取得SOTA效果展现完整模态与高缺失率下的U型鲁棒特性且不依赖零掩码捷径真实提升模型抗噪与泛化能力。研究价值论文提出的 DCER 框架通过双阶段压缩与能量重建有效解决了多模态融合中输入噪声、模态缺失两大核心难题同时实现了内在不确定性量化在多模态情感分析数据集上达到 SOTA大幅提升了真实场景下多模态模型的鲁棒性与可靠性为实用化多模态系统提供了可落地的新思路。扫码添加小享回复“多模态合集”免费获取全部论文开源代码