直播回顾|智能驾驶感知新时代:BEV环视感知

您所在的位置:网站首页 bev感知 直播回顾|智能驾驶感知新时代:BEV环视感知

直播回顾|智能驾驶感知新时代:BEV环视感知

#直播回顾|智能驾驶感知新时代:BEV环视感知| 来源: 网络整理| 查看: 265

0 分享至

用微信扫码二维码

分享至好友和朋友圈

6月22日,上海人工智能实验室李弘扬博士、卢乐炜博士分享了以《智能驾驶新时代,BEV环视感知》为主题的直播Talk,深入讲解高能自动驾驶算法体系:BEV环视感知。

直播回顾视频:https://www.techbeat.net/talk-info?id=682

下面为大家带来新鲜出炉的内容总结图文回顾,错过直播的同学快上车

一、BEV感知:背景与动机

当前,工业界对相机 3D 感知有不同的探索路径,大体上可以分为 Image-view 和 BEV 方法两种。Image-view方案使用不同网络完成感知子任务,最后通过以规则为主的融合方法对不同网络的感知结果进行融合。区别于 Image view 方案,BEV 方案通常采用 Transformer 将 Image feature 转换至 BEV 视角进行相关感知任务。

与此同时,学术界也有许多相关工作旨在利用纯视觉输入来完成自动驾驶感知任务,例如3D目标检测或者构建语义地图。但目前可参考的公开研究方法中,存在一个共性问题:现阶段基于视觉的 3D 目标检测方法并没有充分利用时序信息。

时空融合的必要性

时序信息对于自动驾驶感知任务十分重要。一方面,时序信息可以作为空间信息的补充,更好地检测当前时刻被遮挡的物体,为定位物体的位置提供更多参考信息。另一方面,时序信息能够帮助判断物体的运动状态,在缺少时序信息的条件下,基于纯视觉的方法几乎无法有效判断物体的运动速度。

为什么要采用BEV环视感知方案?

从 HDMapNet,到 DETR3D和 BEVDet ,BEV 环视相机感知开始逐渐进入人们的视野。而近期BEVFormer 和 PersFormer 分别在 3D 物体感知和单相机 3D 车道线感知任务中发力,BEVFusion 更是将触手伸向 Sensor Fusion 层面,也即在 BEV 视角下,如何做到多模态数据的融合感知。

泛 BEV 感知发展一览

(从左到右:HDMapNet、DETR3D、PersFormer、BEVFusion)

BEV 环视感知的核心问题在于View Transformation,也即如何从Front View 转移到 BEV 时得到更有效的特征图?

这实际上是 2D 到 3D 空间的转换问题,在学术界目前主要有两种解决方法:3D-2D 转化,或2D-3D 转化。如果从图像生成 BEV,再利用 BEV 进行检测,容易产生复合错误。因为在3D空间的信息投射到2D上,会聚集到一个点,无法分辨出这个点属于3D空间的哪一个部分,也即无法从2D图像上定位深度信息。对此学术界提出了对应的解决方案:

1. 3D to 2D:根据 3D 到 2D 的投影,对 2D 局部特征进行采样,最后得出 3D 特征。

2. 2D to 3D:预测深度,主流方法有 LLS 深度分布预测(Lift,Splat,Shoot)及 Psuedo Lidar Family 稠密深度预测。

从图像生成BEV

二、开启智能驾驶感知新时代:BEVFormer

BEVFormer 是基于可变形注意力机制(Deformable Attention)实现的一种融合多视角相机(multi-camera)和时序特征的端到端框架,适用于多种自动驾驶感知任务,检测算法具有鲁棒性。BEVFormer 由三个关键模块构成:

1. BEV 询问向量 Q(BEV Queries Q):查询得到的 BEV 特征图

使用一组预先设定的可学习参数——询问向量Q,用来表征鸟瞰图特征,通过对空间信息和时序信息的轮番查询,能够将时空信息聚合在每个 BEV 询问向量的特征中。该 BEV 特征能够支持包括 3D 目标检测和地图语义分割在内的多种自动驾驶感知任务。

2. Spatial Cross-Attention:融合多视角特征

基于稀疏交叉注意力模型, 以投影点作为参考点,在周围进行特征采样,BEV 询问向量使用加权的采样特征进行更新,从而完成了空间的特征聚合。

3. Temporal Self-Attention:融合时序 BEV 特征

每一时刻生成的 BEV 特征都从上一时刻的 BEV 特征获取所需的时序信息,这样可以保证获取的时序特征是动态更新的。

BEVFormer 整体框驾图

每个 BEV 询问向量既能通过Spatial Cross-Attention 聚合空间特征,也能够通过 Temporal Self-Attention 聚合时序特征,这个过程会重复多次确保时空特征能够相互促进,进行更精准的特征融合。

BEVFormer 的有效性验证

BEVFormer 使得显式的 BEV 特征能够被用于 3D目标检测和地图语义分割任务上,具备很强的多任务学习能力和可迁移性。

在 nuScenes 上的实验结果同样验证了 BEVFormer 的有效性。在其他条件完全一致下,使用时序特征的 BEVFormer比不使用时序特征的 BEVFormer-S 在 NDS 指标上高 7 个点以上。我们得到以下几个结论:

1. 更好的骨干(Backbone)能够提供更好的检测结果;

2. 基于局部注意力机制(Local attention)比基于全局注意力机制(Global attention)效果更好。

基于局部的注意力机制与基于全局的注意力机制的性能对比

3. 在引入时序信息之后,基于纯视觉的模型对低可见度物体及位置感知更为敏感,且真正能够预测物体的移动速度,这对于自动驾驶任务来说意义重大。

4. 在多任务学习层面,模型同时实现 3D 目标检测检测和地图语义分割任务,提升了训练和推理的效率,并且基于同一个BEV特征,多种任务的感知结果一致性更强,不易出现分歧。

基于融合了时空特征的鸟瞰图特征,可以同时支持各种自动驾驶感知任务,不同任务使用共享的鸟瞰图特征可以生成一致的感知结果。

BEVFormer++:Waymo 纯视觉 3D 检测挑战赛中斩获第一

Waymo Open Dataset 是 Waymo 推出的用于自动驾驶的公开数据集,是 CVPR 挑战赛之一,同时也是自动驾驶领域中算法研发方面最著名的国际性大赛,一直以来都以数据来源真实的驾驶场景、数据规模庞大、任务难度高而著称。

2022 Waymo 挑战赛聚焦于计算机视觉算法在解决自动驾驶运动和感知问题方面的进展。凭借对视觉感知技术多年的沉淀积累,BEVFormer++ 在今年的纯视觉3D检测挑战赛中荣获第一。

BEVFormer++ 结合了时序信息、多检测头集成,和LET-IoU NMS等有效模块,能够在自动驾驶场景下对目标进行更加精准的检测,同时能够有效去除假阳结果。

值得一提的是,BEVFormer++ 相比基线方法获得了超过60%的性能提升,最终取得了56.2 LET-mAPL的成绩,在最终榜单上大幅领先其他参赛队伍。

本次参与Waymo挑战赛上的BevFormer++与 BEVFormer 相比有多种性能的提升,主要体现在以下五个方面:

1. View Transformation 优化

采用更大的骨干网络,在同等训练设置下深度预训练优于 ImageNet 预训练。同时在图像特征中引入了Coner Pooling 以增加特征感受野,从而提升 BEV 特征质量,并利用Derformable View Encoder 增强了特征的多尺度融合。

2. 时序特征优化

用 3x3 conv 代替时序注意力中的 Linear Offset 预测,提升了对于移动物体和相机参数不准等情况的鲁棒性。

3. BEV 下多种检测器应用

不同检测器的结构设计对于不同的数据各有优劣,因此在 BEV 特征上采用了三种不同种类的典型检测器,并将所有模型用于 Ensemble 最终以提升性能。

4. 多模型 Ensemble 策略能力提升

充分利用基于不同场景、不同类别数据下训练的 Expert Model,加上不同结构的模型和每个模型的 TTA (Test Time Augmentation), 利用遗传算法搜索得到最优 Ensemble 参数。

5. 基于 LET IoU 的 Assignment &NMS

在 Assignment 和 NMS 中用LET IoU 替代 LET-3D-AP,得到更偏向于径向分布的 BEV 特征点,更集中于图像上物体对应特征,从而使性能得到了提升,对于行人等小物体的去重效果也更好。

三、BEVFormer++的思考与讨论BEV 后续的发展

我们认为,未来 BEVFormer 还将持续以纯视觉为基础,继续提升物体环视检测性能,弥补纯视觉的 3D 检测与 Lidar 物体检测的性能差异。目前发现的潜力点集中在:提升 3D 检测性能的深度预训练、利用时序信息解决深度信息问题、以及能从根本上解决BEV检测性能的模型设计等。除了 BEV 感知本身,多模态信息融合也是一个关键。同时将 BEVFormer 部署到车端也是很有挑战性的工作。

四、Q&A

直播后李弘扬博士、卢乐炜博士团队和许多感兴趣的朋友展开了精彩的讨论,由于篇幅有限,这里我们截取一些大家比较感兴趣的问题和回答,希望能够为大家答疑解惑。

Q1: BEV 环视感知方案对远处的物体如何处理

A1:目前 BEVFormer 对比较远的物体采用忽略的策略,但根据算力水平不同,也可以对远处的物体采用更多的参考点,从而对性能有一个比较好的提升。

Q2: BEV 环视感知方案对推理芯片的算力要求

A2:考虑到常用研发环境,BEVFormer lite 版大概 需要6.5G 左右的显存。由于Transformer 本身结构比较大,加上引入了时序内容,效率约为2-5fps。

Q3:BEV 3D 数据如何获取?

A3:目前BEV 3D的数据是在激光雷达点云上标注的,需要雷达的数据和图像严格同步。

-The End-

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门技术社群以及将门创投基金。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

[email protected]

点击右上角,把文章分享到朋友圈

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/ 返回网易首页 下载网易新闻客户端


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3