Uni4D 摘要 本文提出了一种名为Uni4D的统一框架,用于从单个视频中重建动态场景的4D(时间+几何)模型。该方法通过结合多个预训练的视觉基础模型(如深度预测、运动跟踪和分割模型)以及多阶段优化策略,实现了动态场景的相机姿态估计、静态/动态几何重建和密集3D运动跟踪。实验结果表明,Uni4D在多个数据集上均取得了最先进的性能,且无需额外的训练或微调。 研究背景 动态场景的4D建模是计算机视觉中的一个长期挑战。尽管近年来出现了许多视觉基础模型(如深度预测、分割和运动跟踪模型),但这些模型大多针对单一任务优化,且缺乏对动态场景的整体建模能力。此外,高质量的4D数据获取复杂且资源密集,使得数据驱动的方法难以直接应用。因此,如何将这些预训练模型的能力整合到一个统一的框架中,成为解决动态4D建模的关键问题。 主要贡献 1. 提出了一种多阶段优化框架,通过分阶段的方式逐步优化相机姿态、静态几何和动态几何,解决了动态4D建模中变量多、约束复杂的问题。 2. 利用多个预训练的视觉基础模型(如UniDepthV2、CoTrackerV3和DEVA),无需额外训练或微调,显著降低了对4D数据的依赖。 3. 通过引入几何和运动的强先验知识,解决了动态场景中临时不一致的问题,生成了高质量的4D场景。 4. 在多个数据集(如Sintel、DAVIS、TUM-Dynamics和Bonn)上验证了Uni4D的有效性,证明其在相机姿态和几何重建方面优于现有方法。 研究方法 Uni4D框架的核心思想是将2D视频线索(如深度、运动和分割)视为4D世界的投影,并通过能量最小化的方式联合推断相机姿态、静态几何和动态几何。具体方法包括以下几个步骤: 1. 预训练视觉线索提取: • 使用UniDepthV2提供初始深度估计和相机内参。 • 使用CoTrackerV3提供密集像素跟踪,建立时间对应关系。 • 使用DEVA和Grounding-SAM提供动态对象分割。 2. 能量函数设计: • 静态束调整项:优化静态场景的3D结构与像素对应关系。 • 非刚性束调整项:优化动态点云与像素轨迹的对应关系。 • 相机运动先验:通过时间平滑性约束相机姿态。 • 动态运动先验:包括“尽可能刚性”(ARAP)和时间平滑性约束,减少动态结构估计的模糊性。 3. 多阶段优化: • 第一阶段:初始化相机参数,通过深度和运动线索建立2D-3D对应关系。 • 第二阶段:联合优化相机姿态和静态几何。 • 第三阶段:优化动态几何,冻结相机参数以避免不稳定性。 4. 融合与稠密化: • 通过深度插值和边缘过滤,将稀疏点云稠密化为全分辨率深度图。 实验结果 Uni4D在多个数据集上取得了显著的性能提升: • 相机姿态估计:在Sintel、TUM-Dynamics和Bonn数据集上,Uni4D的绝对平移误差(ATE)和相对平移/旋转误差(RPE)均优于基线方法。 • 视频深度估计:在Sintel、Bonn和KITTI数据集上,Uni4D的绝对相对误差(Abs Rel)和内点百分比(δ
Uni4D 摘要 本文提出了一种名为Uni4D的统一框架,用于从单个视频中重建动
成天评科技文化
2025-03-30 09:11:31
0
阅读:0