MapQR:一种在线矢量化地图的端到端方法(上海交大&港中文)

点击下方卡片,关注“自动驾驶Daily”公众号

ADAS巨卷干货,即可获取

今天自动驾驶Daily为大家分享一篇在线矢量化地图的端到端方法,如果您有相关工作需要分享,请在文末联系我们!


>>点击进入→

原标题:Leveraging Enhanced Queries of Point Sets for Vectorized Map Construction

论文链接:https://arxiv.org/pdf/2402.17430.pdf

代码链接:https://github.com/HXMap/MapQR

作者单位:上海交通大学 香港中文大学 Huixi Technology

在自动驾驶领域,高精地图在定位和规划中扮演着至关重要的角色。最近,一些方法在类似DETR的框架中促进了端到端在线地图构建。然而,探索查询机制的潜在能力却鲜有人关注。本文介绍了 MapQR,这是一种端到端的方法,强调增强查询能力以构建在线矢量化地图。尽管地图构建本质上是一个点集预测任务,但 MapQR 使用实例查询而不是点查询。这些实例查询被分散(scattered)用于点集的预测,随后被聚集(gathered)用于最终的匹配。这种查询设计,称为 scatter-and-gather query ,共享同一地图元素中的内容信息,并避免了点查询中内容信息可能的不一致性。本文进一步利用先验信息来通过添加从参考点嵌入的位置信息来增强实例查询。结合一个简单而有效的BEV编码器的改进,所提出的 MapQR 在 nuScenes 和 Argoverse 2 上都实现了最佳的平均精度(mAP)并保持了良好的效率。此外,将本文的查询设计集成到其他模型中可以显著提升它们的性能。

本文提出了一种基于新颖的 scatter-and-gather query 的在线端到端地图构建方法。这种查询设计,结合了兼容的位置嵌入,对于在类DETR架构中基于点集的实例检测是有益的。

所提出的在线地图构建方法在现有在线地图构建基准测试上的表现优于先前的技术。

将本文的核心设计融入到其他最先进的在线地图构建方法中,也带来了显著的准确性提升。

高精地图对于自动驾驶至关重要,它们精确地矢量化了地图元素的细节,如行人过街道、车道分隔线、道路边界等。作为自动驾驶系统的基本组成部分,这些系统捕捉必要的道路拓扑结构和交通规则,以支持车辆的导航和规划。传统基于SLAM的HD地图构建[24, 35]面临着复杂的流程、高成本和明显的定位错误等挑战。手动标注进一步加剧了劳动力和时间的需求。这些限制促使人们转向利用车载传感器的在线学习方法。

许多现有的研究[13, 36]将地图构建定义为在鸟瞰图(BEV)空间中的语义分割任务,生成栅格化地图。尽管它们取得了很大的成功,但由于需要大量的后处理来获取矢量化信息,它们面临着局限性。为了克服基于分割的方法的限制,新的方法出现了,这些方法预测点集来构建地图,利用类DETR结构进行端到端地图构建[6, 15, 16, 18, 23, 31]。

detection transformer (DETR) [2]是一种 transformer- based 目标检测架构[26],其中可学习的物体查询被用来从图像特征中探测所需信息。虽然这些可学习查询的作用仍在研究之中,但普遍的共识是一个查询包括语义内容部分和位置部分。因此,相应的对象可以在图像中被识别和定位[12, 17, 20, 34]。在Conditional DETR[20]和DAB-DETR[17]中,位置部分是从参考点或框坐标中明确编码的,这样就不会与内容部分耦合,有助于分别促进两部分的学习过程。这些论文[17, 20]启发本文为在线地图构建任务中的点集预测设计一个合适的查询。

类DETR的目标检测方法通过一组可学习的查询为每个物体预测一个四维的边界框信息。正如在DAB-DETR[17]中所证实的,解码器中的每个查询由解码器嵌入(内容信息)和可学习查询(位置信息)组成。相比之下,高清地图构建通常为每个地图元素预测一个点集。在许多最先进(SOTA)方法[6, 15, 16]中,点查询被用来从BEV特征中探测信息,每一个都预测一个点的位置。这些预测的点然后被组合起来形成检测到的地图元素。虽然信息在自注意力模块中已经被交换和增强,但对于一个点查询来说,包含整个地图元素的所有内容信息仍然是困难的。此外,同一地图元素内的点查询甚至可能包含不同的语义内容信息。本文称这种现象为内容冲突(content conflicts)。因此,以前基于点查询的地图构建方法在学习所需的内容信息方面存在困难。此外,当前的SOTA方法忽略了位置信息,仅使用随机初始化的可学习查询。

为了解决上述问题,本文提出使用实例查询而不是点查询,并添加位置嵌入,如图1所示。本文不是从每个点查询单独预测一个位置,而是从每个实例查询同时预测n个点的位置,以确保同一地图元素中内容信息的一致性。为了从BEV特征的特定位置探测信息,本文像在Conditional DETR[20]中那样,从参考点生成位置嵌入(即每个实例查询n个位置嵌入)。然后,n个不同的位置嵌入将被添加到每个实例查询中,这变成了n个分散的查询。因此,每个地图元素包含一组分散的查询,它们分享来自单个实例查询的相同内容部分和来自参考位置嵌入的不同位置部分。分散的查询集合被重新聚集为一个实例查询,以匹配一个地图元素。本文称这个查询为 scatter-and-gather query 。由于只有实例查询被用作 transformer 解码器的输入,它避免了同一地图元素中的内容冲突。它还允许所提出的解码器增加查询数量以实现更高的准确性,而不会显著增加计算负担和内存使用。查询设计是本文所提方法的基石,与BEV编码器的一个简单而有效的改进一起,构成了本文提出的 MapQR 。

本文进行了广泛的实验来展示所提出的 MapQR 方法的优越性。本文的方法在 nuScenes 和 Argoverse 2 地图构建任务中都表现出了优越的性能,同时保持了良好的效率。此外,本文将基础的 MapQR 设计集成到其他最先进模型中,显著提高了它们的最终性能。

图1. 总体架构的比较。左图:许多地图构建方法中使用的类DETR架构。右图:提出的带有 scatter-and-gather query 以及位置嵌入的架构。为了确保同一地图元素中内容的一致性,使用了实例查询的分散来共享内容信息。此外,参考点被用于这些查询的位置嵌入,使得可以利用先前信息。

图2. 本文方法的总体架构。它包含三个主要组件:用于提取图像特征的共享图像 backbone ,用于获得BEV特征的视图转换模块,以及用于生成预测的 transformer 解码器。backbone 和视图转换模块可以是任何流行的模块,无需额外适配。解码器是本文的关键设计,原则上它可以直接应用于其他类DETR的地图构建模型。

图3. 解码器的比较。左图:MapTR [15] 的解码器。右图:本文提出的 MapQR 的解码器。在这个例子中,一个实例包含了4个参考点。

图4. 与 SOTAs 在定性可视化上的比较。图片取自 nuScenes 数据集。橙色、蓝色和绿色分别代表车道分隔线、行人过街道和道路边界。本文提出的方法获得了更精确的地图。所有方法中都使用了 R50 backbone 和110个训练周期。

本文探索了在在线地图构建任务中获得更好性能的查询机制。受到类DETR架构的前沿研究[17, 20]的启发,本文为解码器设计了一种新颖的 scatter-and-gather query 。因此,在交叉注意力中,同一实例的每个点查询共享相同的内容信息,但具有不同的位置信息,这些信息是从不同的参考点嵌入的。本文证明,通过将 SOTA 方法与本文的解码器相结合,可以进一步提高它们的性能。凭借本文在 BEV 编码器中的改进,本文的新框架 MapQR 在 nuScenes 和 Argoverse 2 两个数据集上也取得了最佳结果。

@ARTICLE{2024arXiv240217430L, author = {{Liu}, Zihao and {Zhang}, Xiaoyu and {Liu}, Guangwei and {Zhao}, Ji and {Xu}, Ningyi}, title = "{Leveraging Enhanced Queries of Point Sets for Vectorized Map Construction}", journal = {arXiv e-prints}, keywords = {Computer Science - Computer Vision and Pattern Recognition}, year = 2024, month = feb, eid = {arXiv:2402.17430}, pages = {arXiv:2402.17430}, archivePrefix = {arXiv}, eprint = {2402.17430}, primaryClass = {cs.CV}, adsurl = {https://ui.adsabs.harvard.edu/abs/2024arXiv240217430L}, adsnote = {Provided by the SAO/NASA Astrophysics Data System} }


投稿作者为 特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2700人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

③【自动驾驶Daily】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、在线地图、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加自动驾驶之心小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

④科研论文辅导来啦

来源专业技术网站

收藏: