ICRA2024 | 用于3D检测的深度自适应LiDAR-Radar融合













点击下方卡片,关注“自动驾驶Daily”公众号

ADAS巨卷干货,即可获取 >> 点击进入→

原标题:LiRaFusion: Deep Adaptive LiDAR-Radar Fusion for 3D Object Detection

论文链接:https://arxiv.org/pdf/2402.11735.pdf

代码链接:https://github.com/Song-Jingyu/LiRaFusion

作者单位:福特汽车公司 密歇根大学

本文提出了 LiRaFusion 来解决 LiDAR-Radar 融合的三维目标检测问题,以填补现有 LiDAR-Radar 检测器的性能差距。为了提高从这两种模态提取特征的能力,本文设计了一个早期融合模块,用于联合体素特征编码,以及一个中间融合模块,通过门控网络(gated network)自适应地融合特征图。本文在 nuScenes 上进行了广泛的评估,以证明 LiRaFusion 有效地利用了 LiDAR 和 radar 的互补信息,并且相比现有方法取得了显著的改进。

(i)一种新颖的联合特征提取器,用于有效的 LiDAR-Radar 融合;(ii)首次将自适应门控网络引入 LiDAR-Radar 融合的目标检测中,并考虑到从鸟瞰图(BEV)特征空间的新颖改进;(iii)在开源数据集和检测器上进行了广泛的评估,证明了相比现有的 LiDAR-Radar 融合方法有所提高。由于大多数现有的检测器遵循 backbone-neck-head 设计[10]、[21]、[24],LiRaFusion 可以直接作为 backbone 集成到现有方法中,以实现更多模态配置,通过将其扩展到 LiDAR-camera-radar 融合来进行验证。

自动驾驶车辆(AVs)需要准确地感知周围环境,以便在各种场景和环境条件下[1]-[5]实现有效和安全的规划和控制。感知任务的一个重要部分是精确定位周围环境中的物体。这些物体的常见表示方法是一组具有位置、大小和类别的三维边界框[6]、[7]。尽管自动驾驶车辆上有各种各样的传感器配置组合,但许多目标检测算法依赖于 LiDAR 和 Camera,因为它们能提供密集的信息返回(dense returns)[1]、[2]、[8]-[11]。

然而, LiDAR 系统和 Camera 对不同的天气和光照条件非常敏感,因此在这些场景中自动驾驶车辆的感知能力可能会大幅下降。为了解决这个问题,最近的研究集中在利用 radar 系统上,这些系统具有汽车级的设计(automotive-grade design),确保在各种条件下都能保持稳定的性能[12]-[15]。radars 的额外优势包括它们的低成本、远距离检测范围以及多普勒效应信息(即,捕获目标的速度)。因此,设计一个能够有效利用 radar 进行三维目标检测的模型具有重大意义[2]、[13]、[14]。

现有的带 radar 的检测器可以分为单模态方法[16]和基于融合的方法[13]、[15]。最近的研究[17]、[18]在 Oxford Radar RobotCar dataset [19]上融合 LiDAR 和 radars 时取得了令人印象深刻的检测准确性,该数据集具有高分辨率的 radar 数据。然而,这个数据集使用的是 spinning radar,缺乏多普勒信息,并且成本增加[12]。在流行的3D目标检测数据集中[6]、[8]、[12]、[20],nuScenes[7]因为它的大规模和包含 radars 的完整传感器套件而脱颖而出。nuScenes 将 radar 数据表示为物体列表(object lists),这是一种常见的表示方法,也可以解释为具有额外来自 radar 机载信号处理的特征属性的非常稀疏的点云[12]、[13]。这个数据集的常见挑战是 radar 数据的稀疏性和噪声。因此,单模态 radar 检测器未能实现可靠的性能。一些基于融合的检测器[21]、[22]在添加 radar 到 LiDAR-only 或 LiDAR-Camera融合检测器时性能下降,而一些检测器[13]、[15]、[23]为了提高性能不得不强制实施严格限制,如仅限制检测特定类别或限制检测范围。本文的工作旨在通过改进 LiDAR 和 radar 融合架构的设计来填补当前文献中的空白,利用它们共享的点云表示。

本文的方法 LiRaFusion 的目标是为 LiDAR 和 radar 数据的3D目标检测实现更有效的特征提取和融合(见图2)。LiRaFusion 的输入是一个 LiDAR 点云和一个 radar 点云。一个流将这两个点云堆叠起来,作为提出的早期融合模块的输入。早期融合模块使用提出的联合特征编码器和一个通用的稀疏3D卷积编码器来处理更密集的点云。其输出随后被输入到一个通用的 LiDAR backbone 中,以获得特征图。在这项工作中,本文遵循[21]、[24]的做法使用了 VoxelNet。另一个流使用 PointPillars [43] backbone 来处理 radar points ,利用了 pillars 结构,因为 radar points 的高度测量存在噪声[12]、[13]。输出是一个 radar 特征图。这两个流的输出特征图可以被视为两个专家(experts),它们随后通过提出的门控网络在中间融合模块中进一步融合。中间融合模块学习这两个特征图的自适应权重,然后将加权特征图拼接在一起。拼接的特征图被传入特征金字塔网络(FPN)[44]的颈部和检测器头部,以生成预测。本文的主要贡献是早期融合和中间融合模块的新颖架构。LiRaFusion 是一个增强的 LR 特征提取 backbone ,因此它也可以扩展到 LCR 配置。各个模块的技术细节将在以下小节中讨论。

图1:本文提出了 LiRaFusion,以高效利用 LiDAR 和 radar 的互补信息进行三维目标检测。

图2:LiRaFusion 架构概览。本文的主要贡献,如粗体文字所示,主要包括一个联合体素特征编码器,用于从堆叠的点云中提取每个体素的特征,以及一个门控网络,用于学习每个输入特征图的权重以便适应性地融合它们。

图3:网络架构早期融合模块。本文通过将加载的 LiDAR 和 radar points 通过零填充到相同的维数,然后堆叠起来,再输入到所提出的联合体素特征编码器中。

图4:中间融合模块的网络架构。在这个模块中,通过对拼接的 LiDAR-Radar 特征图进行逐通道卷积和应用 Sigmoid 函数,网络分别为 LiDAR 和 radar 生成自适应权重。然后,输入的 LiDAR 和 radar 特征图与权重进行逐元素乘法,之后被拼接为融合的 LiDAR-Radar 特征图。

图5:示例边界框预测及相应的权重图。本文展示了两个帧,在这些帧中,LiRaFusion 正确地检测到了一个被基线 LO 检测器遗漏的汽车(用红色圆圈高亮显示)。本文还展示了一个放大视图,在该视图中,本文用 magenta 标记 radar points ,用灰色或红色标记 LiDAR points(如果它们位于边界框内)。本文用蓝色显示真实边界框,用绿色显示预测。在权重图的可视化中,带箭头的黑色边界框表示自车。没有箭头的框表示被高亮显示的遗漏的汽车目标。

本文提出了一种新颖的 LiDAR-Radar 融合网络 LiRaFusion,以促进3D目标检测的跨模态特征提取。本文设计了一个联合体素特征编码器,以在早期阶段提取体素特征编码。本文提出了一个自适应门控网络,通过学习模态自适应权重图进一步融合 LiDAR 和 radar 的特征图。实验结果表明,在 nuScenes 基准测试中,LiRaFusion 比现有的 LiDAR-Radar 检测器取得了一致的改进。未来的工作包括将LiRaFusion 应用到现有的 LiDAR-Camera 检测器上,以进一步提高现有 LCR 检测器的性能,同时也将 LiRaFusion 扩展到其他场景理解任务。

Song J, Zhao L, Skinner K A. LiRaFusion: Deep Adaptive LiDAR-Radar Fusion for 3D Object Detection[J]. arXiv preprint arXiv:2402.11735, 2024.

投稿作者为 特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2700人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

③【自动驾驶Daily】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、在线地图、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加自动驾驶之心小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

④科研论文辅导来啦


来源专业技术网站

收藏: