点击下方卡片关注「3D视觉工坊」公众号选择星标干货第一时间送达本文经授权发布 | 来源3D视觉工坊「3D视觉从入门到精通」知识星球(点开有惊喜) 星球内有20多门3D视觉系统课程、300场顶会讲解、顶会论文最新解读、海量3D视觉行业源码、项目承接、求职招聘等。想要入门3D视觉、做项目、搞科研欢迎加入论文信息标题DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving作者Zhuolin He, Jing Li, Guanghao Li, Xiaolei Chen, Jiacheng Tang, Siyang Zhang, Zhounan Jin, Feipeng Cai, Bin Li, Jian Pu, Jia Cai, Xiangyang Xue机构Fudan University、Huawei、Yinwang Intelligent Technology、Shanghai Innovation Institute、CUHK原文链接https://arxiv.org/abs/2603.08254导读在自动驾驶领域中动态场景重建始终是一个艰巨的挑战。因为存在显著的时间变化、移动物体的干扰以及复杂的场景动态现有的前馈式3D模型虽然在静态场景重建方面表现良好但在处理动态场景时却力不从心。为了解决这些问题我们提出了DynamicVGGT这一统一的前馈框架它将VGGT从静态3D感知扩展到了动态4D重建领域。我们的目标是以动态且连贯的方式在前馈式3D模型中模拟点的运动轨迹。为此我们在共同的参考坐标系下同时预测当前和未来的点云分布从而使模型能够通过时间上的对应关系来隐式地学习点的动态特征。为了有效捕捉时间依赖性我们引入了“运动感知时间注意力”模块该模块能够识别运动的连续性。此外我们还设计了“动态3D高斯散布单元”该单元能够利用可学习的运动参数在场景变化的背景下预测点的高斯速度从而精确地描述点的动态运动。通过持续的3D高斯优化过程该模型能够不断完善对动态几何结构的描述。在自动驾驶数据集上的大量实验表明DynamicVGGT在重建精度上远远优于现有方法能够在复杂的驾驶环境下实现稳定可靠的4D动态场景重建。效果展示DynamicVGGT通过支持三维高斯重现和自适应建模将静态多视角的三维感知扩展到动态四维重建而无需显式相机外部对齐。DynamicVGGT相较于VGGT能够重建出更密集、更平滑且几何一致性更强的点图即使在视角较大或场景复杂度较高的情况下仍能保持时间连贯性。请放大查看以获取更佳视图。场景重建与新视图合成。给定输入帧0、2和4DynamicVGGT重建相应场景并为下一帧合成新视图。对于KITTI和Waymo都使用了多视角输入;对于Waymo由于视角重叠有限我们仅展示了前摄像头的结果。该模型能够在动态驾驶场景中实现高质量的重建和逼真的新视图生成。引言视觉几何学习是计算机视觉中的一个基本问题也是机器人和自动驾驶等众多应用的核心基础。近年来前馈3D模型通过从图像输入直接预测点云和三维高斯等几何表示在静态场景理解方面取得了显著进展。然而自动驾驶场景中的视觉几何学习面临的复杂性远高于静态场景。现实世界的驾驶环境本质上是动态的具有多样化的移动物体和变化的长时序依赖。尽管前馈架构在静态数据集上表现出强大的性能但在扩展到此类动态条件时它们难以同时保持几何精度和时间一致性。这激发了对一个能够联合建模几何与运动、实现时间一致性动态场景重建的统一前馈框架的需求。当前的3D基础模型通常在大规模、良好标注的数据集上训练能够在大多数场景中实现一致且准确的3D重建。然而将它们应用于现实世界的自动驾驶场景仍然极具挑战性。首先自动驾驶数据通常具有大规模、高噪声和深度稀疏的特点直接在此类数据上训练可能导致模型原有的密集预测能力下降。此外除了静态几何感知捕捉动态几何信息在自动驾驶中至关重要。尽管最近一些3D基础模型已开始探索动态场景建模但它们的输出表示仍主要基于静态点图缺乏能够直接支持下游自动驾驶任务的统一动态表示。为了解决这些问题我们提出了DynamicVGGT一个用于以端到端方式进行高保真动态场景重建的统一框架。DynamicVGGT引入了一种新颖的动态点图机制该机制专为两种不同的动态任务设计。具体来说我们引入了一个未来点预测头用于预测下一帧的点图并强制其与当前帧保持一致从而使模型能够隐式地学习逐点运动。另一方面我们引入了一个动态三维高斯泼溅头它利用从几何先验初始化的高斯原语来优化预测的几何结构。它进一步包含一个轻量级的运动感知编码器该编码器通过可学习的运动令牌编码运动流并受到场景流的监督。大量实验表明DynamicVGGT在多种驾驶数据集上实现了最先进的性能。主要贡献我们的主要贡献总结如下我们引入了一个运动感知的时间注意力模块该模块在不干扰VGGT空间注意力的前提下捕捉时间依赖关系从而保持稳定的训练和几何先验。我们通过引入一个未来点预测任务和一个动态三维高斯泼溅头将基于点的表示扩展为统一的动态点图。在此框架之上模型通过帧间点运动的隐式一致性和使用场景流对高斯运动的显式监督来学习逐点运动。我们采用了一种分阶段训练方案以减轻在真实世界驾驶数据上观察到的性能下降。在Waymo数据集上我们的模型相较于VGGT和StreamVGGT取得了显著提升准确度提高了0.5完整性提高了0.2。方法我们的框架建立在VGGT之上并将其从静态3D感知扩展到动态4D重建。关键思想是建立一个统一的几何表示即动态点图作为时序建模的核心。基于这一表述我们通过运动感知时间注意力模块引入时序推理通过未来点预测头预测未来几何并通过动态三维高斯泼溅头进一步优化动态几何。所提出架构的概览如图2所示。实验结果我们在KITTI和Waymo数据集上评估了点图重建如表1所示。我们报告了准确度、完整度和法向一致性。在KITTI数据集上该数据集使用每序列三连续帧的单目输入DynamicVGGT在大多数指标上取得了最佳结果准确度达到0.901法向一致性达到0.939。它始终优于VGGT和StreamVGGT证明了其在单目序列中捕捉动态几何和保持时间一致性的有效性。在Waymo数据集上该数据集提供来自三个摄像头、帧间隔为四的同步多视图图像我们的模型能够很好地泛化到大规模动态驾驶场景。它取得了4.021的准确度和0.603的法向一致性。这些结果证实即使在具有挑战性的现实世界运动和光照变化下所提出的动态公式也能有效增强跨视图一致性和场景完整性突显了我们的前馈框架在动态4D感知方面的可扩展性。我们进一步使用Waymo验证集评估DynamicVGGT在4D场景重建上的性能结果总结在表2中。我们比较了两类方法每场景优化方法和前馈模型。DynamicVGGT在动态区域实现了18.07的PSNR和0.376的SSIM在全帧评估中达到了24.07和0.676。尽管像STORM这样的方法利用多相机输入和几何先验获得了更高的分数PSNR达到21.26SSIM达到0.535但DynamicVGGT仅使用单目图像不依赖相机参数或特定场景优化就取得了有竞争力的结果。这些结果表明DynamicVGGT通过纯图像的自我监督能够有效地重建动态4D场景并具有强大的时间一致性和高视觉保真度。总结 未来工作我们提出了DynamicVGGT一个用于动态4D场景重建的统一前馈框架。通过将VGGT从静态几何感知扩展到时间动态我们的模型通过动态点图、运动感知时间注意力、未来点预测头和动态三维高斯头联合学习了几何和运动表示。这种设计使模型能够捕捉时间依赖关系通过连续高斯优化细化几何并保持前馈效率。实验结果表明DynamicVGGT在现实世界的自动驾驶数据集上提供了强大的时间一致性并同时提供了可靠的副产品包括相机姿态估计、深度预测和新视角合成。我们相信这一方向将推动前馈4D重建更接近自动驾驶的统一范式。对更多实验结果和文章细节感兴趣的读者可以阅读一下论文原文~本文仅做学术分享如有侵权请联系删文。3D视觉方向论文辅导来啦可辅导SCI期刊、CCF会议、本硕博毕设、核心期刊等。添加微信cv3d001备注姓名方向单位邀请入群。