CVPR2024 | PaSCo:具有不确定性感知的3D全景场景补全(超过了所有基线)

点击下方卡片,关注“自动驾驶Daily”公众号

戳我-> 领取近15个自动驾驶方向路线

今天自动驾驶Daily为大家分享一篇城市三维全景场景补全相关的工作,已被CVPR2024收录!如果您有相关工作需要分享,请在文末联系我们!


>>点击进入→自动驾驶Daily技术交流群

原标题:PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty Awareness

论文链接:https://arxiv.org/pdf/2312.02158.pdf

代码链接:https://github.com/astra-vision/PaSCo

作者单位:Inria 慕尼黑工业大学

本文提出了全景场景补全(Panoptic Scene Completion)(PSC)任务,该任务在近期流行的语义场景补全(SSC)任务的基础上增加了实例级信息,以产生对3D场景更丰富的理解。本文的 PSC proposal 利用了一种混合掩码技术,对来自稀疏多尺度补全的非空体素进行处理。现有的 SSC 文献忽略了对机器人应用至关重要的不确定性,本文提出了一种高效的集成方法,以在 PSC 过程中估计体素级和实例级的不确定性。这是通过构建多输入多输出(MIMO)策略实现的,同时提高了性能,并且以很小的额外计算量获得了更好的不确定性。此外,本文还引入了一种聚合排列不变掩码(permutation-invariant mask)预测的技术。本文的实验表明,本文的方法在全景场景补全和不确定性估计方面都超过了所有基线,这些基线来自三个大型自动驾驶数据集。

本文提出了全景场景补全(PSC)这一新任务,它不仅涵盖了语义场景补全,还扩展到了对实例的推理。

本文提出的方法 PaSCo 采用了稀疏 CNN-Transformer 架构,包括多尺度稀疏生成解码器和Transformer预测,为在大规模点云场景中高效进行全景场景补全而优化。

通过适应 MIMO 设置并引入一种针对无序集合的新颖集成策略,本文的方法提升了全景场景补全的性能,并增强了不确定性感知,在三个数据集上均超越了所有基线。

全面理解场景在机器人技术、虚拟现实/增强现实和自动驾驶等多个领域中扮演着至关重要的角色。在这个领域中,一个基本挑战是从不完整的3D输入数据中同时估计完整的场景几何形状、语义和实例,这些数据往往因遮挡和真实场景的固有复杂性而稀疏、嘈杂和模糊。尽管存在这些挑战,但达到这种理解水平对于使机器能够以智能和安全的方式与环境互动至关重要。

语义场景补全(SSC)通过从稀疏观测中推断完整的场景几何形状和语义来解决3D场景理解问题。SSC领域已经取得了显著的进展,并且越来越受到欢迎。最初的方法[7, 9, 16, 44, 64]专注于室内场景,这些场景的输入点云密集、规则且规模较小。Semantic KITTI数据集的最近发布激发了人们对室外驾驶场景中SSC的兴趣[13, 61, 69, 70],由于输入点云的稀疏性、大规模和不同密度[62],这些场景呈现出独特的挑战。

尽管当前的SSC技术表现出色,但它们忽视了实例级信息和不确定性预测。缺乏实例级预测在需要识别和跟踪单个物体的应用中限制了它们的实用性,而缺乏不确定性估计则限制了它们在真实世界安全关键应用中的部署。

为了应对这些挑战,本文提出了一项新的任务,即全景场景补全(PSC),旨在从稀疏观测中全面预测场景的几何形状、语义和实例。本文提出了这项任务的第一种方法,名为 PaSCo,这是一种受 MIMO 启发[30]的集成方法,以最小的计算成本提升 PSC 性能和不确定性估计。它结合了多尺度生成稀疏网络和 transformer 解码器,实施了一种以掩码为中心的实例预测策略[11, 12]。因此,本文引入了一种新的集成技术,用于组合无序掩码集。通过广泛的评估,本文的方法在 PSC 方面展示了卓越的性能,并为预测不确定性提供了宝贵的洞察。

图1. PaSCo 输出。本文的方法从稀疏的输入点云推断全景场景补全(PSC),同时在体素和实例级别并行评估不确定性。

图2. PaSCo 概览。本文的方法旨在根据不完整的3D点云预测多种全景场景补全(PSC)的变体,同时通过掩码集成允许不确定性估计。对于 PSC,本文使用带有 transformer 解码器的稀疏3D生成 U-Net(第3.1节)。通过使用多个子网络实现不确定性感知,每个子网络都在输入数据源的不同增强版本上操作(第3.2节)。PaSCo 允许首次进行全景场景补全,同时提供了一种鲁棒的不确定性估计方法。为了清晰起见,实例级不确定性仅显示“ things ”类别。

图3. PSC 的架构。本文的架构建立在一个稀疏的生成 U-Net 基础上,该网络与 transformer 解码器结合使用,应用于经过筛选的非空体素以预测 PSC 。

图4. 全景场景补全的定性结果。本文报告了表1中所有基准的 PSC 输出。PaSCo 展示了更好的实例分离,具有更强的实例形状和场景结构,且孔洞更少。

图5. SSCBench-KITTI360 和 Semantic KITTI 上定性不确定性比较。请注意,“ins. unc.” 仅显示了“ thing ”类的示例,以便更清晰的可视化。PaSCo(M=1) 在体素和实例不确定性方面都倾向于过度自信。相比之下,PaSCo 提供了更直观的不确定性估计,例如,在分割边界处,在幻觉景观(hallucinated scenery)区域,以及在输入点密度低的区域。

图6. 超出分布范围的影响。本文在 Robo3D [38] 的损坏数据上评估不确定性,如x轴所示。每个柱形图报告了每种损坏的平均指标,其误差线表示每种强度下的最小和最大指标。在实例级不确定性(左图)上,PaSCo 在所有损坏情况下都大幅超过所有方法,在体素级不确定性(右图)上,在8种条件中的7种(除了‘cross-talk’)上表现更好。

图7. 集成学习与子网络比较。本文比较了本文的集成方法和平均单个子网络的方法,跨不同数量的子网络(x轴)。误差线显示了子网络间的标准偏差。在 M=3 时性能达到峰值,此时本文的集成通过更多的子网络补偿了每个子网络容量的减少。

本文首先研究全景场景补全(PSC),旨在从稀疏观测中补全场景几何形状、语义和实例级信息。为了解决这一任务,本文引入了一种高效的集成方法,并辅以一种旨在组合无序集合预测的新技术,从而提高了整体预测的准确性和在不确定性方面的可靠性。

Cao A Q, Dai A, de Charette R. PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty Awareness[J]. 2023.

投稿作者为 自动驾驶之心知识星球 特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2700人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

③【自动驾驶Daily】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、在线地图、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加自动驾驶之心小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

④科研论文辅导来啦

来源专业技术网站

收藏: