CVPR2024 | UniMODE:室内户外统一的单目3D目标检测方法

点击下方卡片,关注“自动驾驶Daily”公众号

ADAS巨卷干货,即可获取

今天自动驾驶Daily为大家分享一篇CVPR2024中稿的工作,UniMODE:室内户外统一的单目3D目标检测方法!如果您有相关工作需要分享,请在文末联系我们!


>>点击进入→

实现统一的单目3D目标检测,包括室内和室外场景,在机器人导航等应用中具有重要意义。然而,涉及各种数据场景来训练模型会带来挑战,因为它们具有显著不同的特性,例如不同的几何特性和异构的域分布。为了解决这些挑战,本文构建了一个基于鸟瞰图(BEV)检测范式的检测器,其中当使用多个数据场景来训练检测器时,显式特征投影有利于解决几何学习的模糊性。

然后,将经典的BEV检测架构分为两个阶段,并提出了一种不均匀的BEV网格设计来处理由上述挑战引起的收敛不稳定性。此外,还开发了一种稀疏BEV特征投影策略来降低计算成本,并开发了一个统一的域对齐方法来处理异构域。结合这些技术,得出了统一的检测器UniMODE,它在具有挑战性的Omni3D数据集(包括室内和室外场景的大型数据集)上比以前的最先进技术高出4.9%AP3D,揭示了BEV检测器首次成功推广到统一的3D目标检测。

论文名称:UniMODE: Unified Monocular 3D Object Detection

论文链接:https://arxiv.org/pdf/2402.18573.pdf 在统一检测设置中,UniMODE在AP3D(基于三维交集的平均精度)方面超过了SOTA检测器Cube RCNN,达到了令人4.9%。此外,当在室内和室外检测设置中单独评估时,UniMODE分别比Cube RCNN高11.9%和9.1%。这项工作代表了探索将BEV检测架构推广到统一检测、无缝集成室内和室外场景的开创性努力。它展示了BEV检测在广泛场景中的巨大潜力,并强调了这项技术的多功能性。

UniMODE的整体检测框架如下所示,本文提出的模块包括proposal head、稀疏BEV特征投影、不均匀BEV特征网格、域自适应层归一化和类对齐损失。

其中,domain head的作用是预测输入图像与哪个预定义的数据域最相关,并且由domain head产生的分类置信度随后被用于域对准。proposal head旨在估计6个Transformer解码器之前的粗略目标分布,并且估计的分布用作第二阶段检测的先验信息。这种设计减轻了不同训练领域之间的分布不匹配。proposal head输出被编码为M个proposal查询。此外,N个查询被随机初始化,并与用于第二阶段检测的proposal查询连接,导致第二阶段中的M+N个查询。

特征头和深度头负责将图像特征投影到BEV平面中并获得BEV特征。在这个投影过程中,开发了一种去除不必要投影点的技术,这将减少约82.6%的计算负担。此外,提出了不均匀的BEV特征,这意味着离相机更近的BEV网格具有更精确的分辨率,离相机更远的网格覆盖更宽的感知区域。这种设计很好地平衡了室内检测和室外检测之间的网格大小矛盾,没有额外的内存负担!

获得投影的BEV特征,采用BEV编码器对特征进行进一步细化,采用6个解码器生成第二阶段检测结果。如前所述,在此过程中使用M+N个查询。在6个解码器之后,通过查询FFN将查询解码为检测结果。在解码器部分,设计了统一的域对齐策略,以通过特征和损失角度对齐各种场景的数据。

投稿作者为 特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2700人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

③【自动驾驶Daily】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、在线地图、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加自动驾驶之心小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

④科研论文辅导来啦


来源专业技术网站

收藏: