CVPR 2024 | 3DSFLabelling：通过伪自动标注提升三维场景流估计

点击下方卡片，关注“自动驾驶Daily”公众号

戳我-> 领取近15个自动驾驶方向路线 >> 点击进入→ 自动驾驶Daily技术交流群

原标题：3DSFLabelling: Boosting 3D Scene Flow Estimation by Pseudo Auto-labelling

论文链接：https://arxiv.org/pdf/2402.18146.pdf

代码链接：https://github.com/jiangchaokang/3DSFLabelling

作者单位：鉴智机器人剑桥大学上海交通大学

从激光雷达点云中学习三维场景流面临着重大挑战，包括从合成数据集到真实场景的泛化能力差、真实世界三维标签稀缺以及在真实稀疏激光雷达点云上的性能表现差。本文从自动标注的角度提出了一种新颖的方法，旨在为现实世界的 LiDAR 点云生成大量 3D 场景流伪标签。具体来说，本文采用了刚体运动(rigid body motion)的假设来模拟自动驾驶场景中潜在的物体级别的刚性运动(object-level rigid movements)。通过为多个锚框更新不同的运动属性，获得整个场景的刚性运动分解。此外，本文还开发了一种用于全局和局部运动的新颖三维场景流数据增强方法。通过基于增强的运动参数完美合成目标点云，本文轻松获得了与真实场景高度一致的大量三维场景流标签。在包括 LiDAR KITTI、nuScenes 和 Argoverse 在内的多个真实世界数据集上，本文的方法在不需要手动标注的情况下，超越了所有之前的有监督和无监督方法。令人印象深刻的是，本文的方法在 LiDAR KITTI 数据集上的 EPE3D 指标上实现了十倍的降低，将误差从0.190米减少到了仅0.008米。

本文提出了一个新的框架，用于自动标注三维场景流伪标签，显著提高了当前场景流估计模型的准确性，并有效解决了自动驾驶中三维流标签的稀缺问题。

本文提出了一种具有多种运动属性的通用 3D box 优化方法。在此基础上，本文进一步引入了一个即插即用的三维场景流增强模块，该模块具有全局-局部运动和运动状态。这允许灵活调整自车运动和动态环境的运动，为场景流数据增强设定了新的基准。

本文的方法在 KITTI、nuScenes 和 Argoverse LiDAR 数据集上取得了最先进的性能。令人印象深刻的是，本文的方法超越了所有有监督和无监督的方法，而且不需要任何合成数据和手动场景流标签。

通过从连续帧的点云中推导每个点的运动场(motion filed)，三维场景流估计在各种应用中扮演着关键角色，包括运动预测[29, 44]、异常运动检测[15]、三维目标检测[8, 46]和动态点云累积[14]。随着对点云的深度学习技术[33, 34]的发展，许多工作[4, 9, 17, 24, 32, 35, 47]已经开发了基于学习的方法来估计三维点云中的每个点的运动。一些最先进的方法[4, 35, 47]已经将 KITTI Scene Flow 数据集（stereoKITTI）[26, 27]上的平均三维端点误差(average 3D EndPoint Error)（EPE3D）降低到几厘米。然而，由于场景流标签的稀缺，这些方法严重依赖于如 FlyingThings3D（FT3D）[25]这样的合成数据集进行网络训练。

在 stereoKITTI 数据集[26, 27]上进行评估时，PV-RAFT[43] 显示出平均 EPE3D 仅为0.056米。然而，在 Argoverse 数据集[3]上的评估中，EPE3D 指标惊人地超过了10米[23]。因此，在合成数据集[25]上学习三维场景流与现实世界应用之间存在很大差距。Jin等人[17]最近引入了一个新的合成数据集 GTA-SF，模拟自动驾驶的激光雷达扫描。他们提出了一个教师-学生域适应框架，以减少合成和真实数据集之间的差距，并提高三维场景流估计的某些性能。然而，由于理想的传感器模型和缺乏场景多样性，他们在真实世界激光雷达数据中的性能仍然较差。理想情况下，模型应该从自动驾驶领域的真实传感器数据中学习。然而，标记每个点的三维运动向量以进行三维场景流任务的成本极高。这推动了许多工作[6, 21, 24, 28, 35, 40]朝着无监督或自监督学习三维场景流发展。尽管这些方法已经取得了合理的准确性，但它们仍然落后于有监督的方法，这突显了真实传感器数据及其相应的三维场景流标签的重要性。

在这项工作中，本文解决了自动驾驶领域中的三个关键挑战：依赖仍然难以与现实世界场景泛化的合成数据集、实际驾驶场景中场景流标签的稀缺性，以及现有三维场景流估计网络在真实激光雷达数据上的性能不佳。受 RigidFlow[21] 和 RSF[5] 中刚体运动假设的启发，本文提出了一种新颖的场景流自动标注方法，该方法利用在自动驾驶场景中普遍存在的刚体运动特性（图1）。具体来说，本文利用三维锚框来分割点云中的三维物体。每个物体级别框的属性不仅包括位置和大小，还包括旋转、平移、运动状态和法向量属性。通过利用框参数和帧间关联的约束损失函数，本文优化框的属性，随后将这些参数与源点云结合产生真实的目标点云。重要的是，生成的目标点云与源点云保持一对一的对应关系，使得伪三维场景流标签的高效生成成为可能。

为了捕捉更多样化的运动模式，本文引入了一种新颖的三维场景流自动标注数据增强策略。利用每个框的属性，本文通过在这些属性上添加高斯噪声，模拟自车和周围环境的旋转、平移和运动状态。因此，本文获得了许多具有多样运动的三维场景流标签，这些标签与现实世界场景非常相似，为神经网络提供了丰富的真实训练数据，并显著提高了基于学习的方法的泛化能力。实验结果验证了本文的伪标签生成策略在不同模型[4, 32, 47]和数据集[2, 3, 26]（图2）中一致地实现了最先进的场景流估计结果。

图1. 提出的三维场景流伪自动标注(pseudo-auto-labelling)框架。给定点云和初始边界框，全局和局部运动参数将被迭代优化。通过随机调整这些运动参数，增强多样化的运动模式，从而为训练三维场景流估计模型创建了一套多样化且真实的运动标签集。

图2. 整合本文提出的伪自动标注方法后的准确度提升。在合成数据上训练的模型在基于激光雷达的自动驾驶三维场景流估计中表现不佳。本文提出的三维伪自动标注方法提高了准确度，在不同数据集[2, 3, 27]中的 EPE3D 均低于2厘米。

图3. 提出的三维场景流伪自动标注学习框架。输入包括三维锚框、一对点云及其对应的粗糙法向量。运动参数的优化主要更新边界框参数、全局运动参数、局部运动参数以及框的运动概率。框的属性参数通过从六个目标函数的反向优化进行更新。一旦优化完成，运动参数就会使用全局-局部数据增强模块模拟各种类型的运动。单一源帧点云和增强的运动参数一起生成多样化的三维场景流标签。这些标签用于指导监督神经网络学习点对点的运动。

图4. 提出的伪标签生成模块。

图5. 本文方法（GMSF [47]+3DSFlabelling）与基准方法在 LiDAR KITTI 和 Argoverse 数据集[3, 10]上的配准可视化结果。

图 6. 本文的方法（GMSF+3DSFlabelling）及基准方法在 nuScenes 数据集[2]上的错误可视化。使用三维端点误差 (EPE3D) 作为指标，本文将误差分为六个级别。将 GMSF [47] 与本文提出的 3DSFlabelling 相结合，本文成功地将大多数点的 EPE3D 保持在0.02米以内，明显优于其他方法。

本文将三维点云打包进具有不同运动属性的框中。通过优化每个框的运动参数，并将源点云扭曲(warping)到目标点云中，本文创建了伪三维场景流标签。本文还设计了一种全局-局部数据增强方法，引入了各种场景运动模式，显著增加了三维场景流标签的多样性和数量。在多个真实世界数据集上的测试表明，本文的三维场景流自动标注显著提升了现有模型的性能。重要的是，这种方法消除了三维场景流估计模型需要依赖手动标注的三维场景流标签的需求。

Jiang C, Wang G, Liu J, et al. 3DSFLabelling: Boosting 3D Scene Flow Estimation by Pseudo Auto-labelling[J]. arXiv preprint arXiv:2402.18146, 2024.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

视频官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

近2700人的交流社区，涉及30+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

③【自动驾驶Daily】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、在线地图、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加自动驾驶之心小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④科研论文辅导来啦 ！

来源：专业技术网站

CVPR 2024 | 3DSFLabelling：通过伪自动标注提升三维场景流估计

请登录

前瞻技术信息服务平台

登录

前瞻技术信息服务平台

注册