CVPR2024 | 3DGStream：快速训练，200 FPS实时渲染逼真场景！

点击下方卡片，关注“自动驾驶Daily”公众号

今天自动驾驶Daily为大家分享一篇CVPR2024最新工作3DGStream：快速训练，200 FPS实时渲染逼真场景！如果您有相关工作需要分享，请在文末联系我们！

>>点击进入→自动驾驶Daily技术交流群

论文作者|自动驾驶Daily

编辑 | 自动驾驶Daily

从多视角视频构建动态场景的照片逼真的自由视角视频（FVV）仍然是一项具有挑战性的工作。尽管当前的神经渲染技术取得了显著的进步，但这些方法通常需要完整的视频序列来进行离线训练，并且无法实时渲染。为了解决这些限制，本文引入了3DGStream，这是一种专为真实世界动态场景的高效FVV流式传输而设计的方法。提出的方法在12秒内实现了快速的动态全帧重建，并以200 FPS的速度实现了实时渲染。具体来说，我们使用3D高斯（3DG）来表示场景。与直接优化每帧3DG的简单方法不同，我们使用了一个紧凑的神经变换缓存（NTC）来对3DG的平移和旋转进行建模，显著减少了每个FVV帧所需的训练时间和存储。此外，还提出了一种自适应的3DG添加策略来处理动态场景中的新兴目标。实验表明，与现有技术相比，3DGStream在渲染速度、图像质量、训练时间和模型存储方面具有竞争力。

论文链接：https://arxiv.org/pdf/2403.01444.pdf

论文名称：3DGStream: On-the-fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos

代码链接：https://sjojok.github.io/3dgstream/

3DGStream能够以百万像素的分辨率实时渲染照片逼真的FVV，具有异常快速的每帧训练速度和有限的模型存储要求。如图1和图2所示，与每帧从头开始训练的静态重建方法和需要在完整视频序列上进行离线训练的动态重建方法相比，我们的方法在训练速度和渲染速度方面都很出色，在图像质量和模型存储方面保持了竞争优势。此外，我们的方法在所有相关方面都优于StreamRF，这是一种处理完全相同任务的最先进技术。

如下所示，给定一组多视角视频流，3DGStream旨在构建动态场景的高质量FVV流。最初，优化一组3DG来表示时间步长为0的场景。对于随后的每个时间步长i，使用时间步长i1中的3DG作为初始化，然后进行两阶段的训练过程：第1阶段：训练神经变换缓存（NTC）来对3DG的平移和旋转进行建模。训练结束后，NTC转换3DG，为下一个时间步长和当前时间步长的下一阶段做好准备。第二阶段：在潜在位置生成特定于帧的附加3DG，并通过周期性拆分和修剪对其进行优化。在两阶段过程结束后，变换后的3DG和附加的3DG都被用于在当前时间步长i进行渲染，只有变换后的3D被带入下一个时间步长。

论文在两个真实世界的动态场景数据集上进行了实验：N3DV数据集和Meet Room数据集。N3DV数据集上的定量比较。训练时间、所需存储和PSNR在每个场景的整个300帧上取平均值。

Meet Room dataset性能对比：

3DG-S在初始帧上的质量对于3DGStream至关重要。因此，我们继承了3DGS的局限性，例如对初始点云的高度依赖性。如图7所示，由于COLMAP无法重建远处的景观，在窗口之外存在明显的伪影。因此，我们的方法将直接受益于未来对3DG-S的增强。此外，为了高效的训练，我们限制了训练迭代次数。

3DGStream是一种高效的自由视点视频流的新方法。基于3DG-S，利用有效的神经变换缓存来捕捉目标的运动。此外，还提出了一种自适应3DG添加策略，以准确地对动态场景中的新兴目标进行建模。3DGStream的两级pipeline实现了视频流中动态场景的实时重建。在确保照片逼真的图像质量的同时，3DGStream以百万像素的分辨率和适度的存储空间实现了实时训练（每帧约10秒）和实时渲染（约200FPS）。大量实验证明了3DGStream的效率和有效性！

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

视频官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

近2700人的交流社区，涉及30+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

③【自动驾驶Daily】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、在线地图、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加自动驾驶之心小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④科研论文辅导来啦 ！

来源：专业技术网站

CVPR2024 | 3DGStream：快速训练，200 FPS实时渲染逼真场景！

请登录

前瞻技术信息服务平台

登录

前瞻技术信息服务平台

注册