无需雷达?实时!超准无人机仅靠视觉避障框架!

您所在的位置:网站首页 无人机视觉标定技巧 无需雷达?实时!超准无人机仅靠视觉避障框架!

无需雷达?实时!超准无人机仅靠视觉避障框架!

2024-07-11 14:54| 来源: 网络整理| 查看: 265

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

这篇文章致力于解决无人机避障中的距离估计问题,通过设计一个深度学习模型,能够从单个图像中准确地估计障碍物的距离。作者通过将距离估计问题转化为一个多类别分类任务,并使用AOT数据集进行训练,展示了模型在准确识别距离方面的优异表现。未来的工作将重点解决模型在实际飞行环境中的适应性问题,以及如何应对由于天气等因素引起的数据偏差。

下面一起来阅读一下这项工作~

论文题目:Ensuring UAV Safety: A Vision-only and Real-time Framework for Collision Avoidance Through Object Detection, Tracking, and Distance Estimation

作者:Vasileios Karampinis, Anastasios Arsenos等

作者机构:National Technical University Athens

论文链接:https://arxiv.org/pdf/2405.06749

在过去的二十年里,无人机(UAV)由于在军事和民用领域的不断应用而引起了越来越多的关注。高效地检测非合作空中车辆并准确估计碰撞对于实现完全自主飞行器和促进先进空中移动(AAM)至关重要。本文提出了一种利用光学传感器进行非合作空中车辆检测、跟踪和距离估计的深度学习框架。在实现这一全面感知框架时,深度信息的可用性对于使自主飞行器能够感知和绕过障碍物至关重要。在这项工作中,我们提出了一种使用单目摄像头输入实时估计检测到的空中物体距离信息的方法。为了训练我们的深度学习组件进行目标检测、跟踪和深度估计任务,我们利用了亚马逊空中物体跟踪(AOT)数据集。与之前将深度估计模块集成到目标检测器中的方法不同,我们的方法将问题定义为图像到图像的转换。我们采用一个独立的轻量级编码器-解码器网络进行高效且稳健的深度估计。简而言之,目标检测模块识别和定位障碍物,将此信息传递给跟踪模块以监视障碍物的移动,并传递给深度估计模块以计算距离。我们的方法在空中物体跟踪(AOT)数据集上进行评估,该数据集是迄今为止最大的(据我们所知)空对空空中物体数据集。

L1、Berhu 和多损失深度估计可视化效果。

每个分类区间的深度估计地面真实值和预测掩模。

利用AOT数据集中提供的距离信息(GPS),我们构建了一个适用于训练编码器-解码器深度神经网络进行深度估计的大型深度估计数据集。

我们设计了一个混合损失函数来训练上述深度估计模型。

我们将我们的深度估计模型集成到的检测和跟踪流水线中,并在大型空中物体跟踪数据集上评估其性能,取得了显著的准确性。

这篇文章的基本原理是利用深度学习技术,通过使用单目摄像头的输入来进行无人机的检测、跟踪和距离估计,从而实现对非合作空中车辆的冲突检测。文章提出了一种深度学习框架,利用光学传感器对非合作空中车辆进行检测、跟踪和距离估计。为了实现这一综合感知框架,深度信息的可用性对于使无人机能够感知和绕过障碍物至关重要。文章提出了一种方法,使用单目摄像头的输入实时估计检测到的空中对象的距离信息。为了训练深度学习组件进行对象检测、跟踪和深度估计任务,文章利用了亚马逊空中物体跟踪(AOT)数据集。与将深度估计模块集成到对象检测器中的先前方法不同,文章的方法将问题表述为图像到图像的转换。文章采用了一个单独的轻量级编码器-解码器网络,用于高效而稳健的深度估计。文章的整体思路是,对象检测模块识别和定位障碍物,将这些信息传递给跟踪模块监测障碍物的移动,并传递给深度估计模块计算距离。文章在AOT数据集上对其方法进行了评估,该数据集是迄今为止最大的空中物体跟踪数据集之一。

实验旨在通过深度学习模型解决无人机避障任务中的距离估计问题。具体来说,实验包括以下内容:

问题转换:将距离估计问题转化为一个多类别分类任务,其中不同的类别代表不同的距离范围。这种转换有助于提高模型的性能和稳定性。

数据准备:使用了AOT数据集进行模型训练和评估。该数据集包含无人机飞行中捕获的图像和相应的深度信息。

模型架构:采用了U-net卷积神经网络作为训练框架,包括编码器和解码器块。编码器用于提取特征,解码器用于恢复空间分辨率。

损失函数:为了减少插入的偏差,使用了多种损失函数,包括结构相似性指数、基于边缘的损失、L1和Berhu。

训练优化:采用Adam优化器和自适应学习率来提高训练的稳定性。还使用了L2正则化来减少模型的过拟合。

实验结果:实验结果表明,采用分类方法相对于传统的图像到图像回归问题更有益。模型在单个图像上准确地估计了距离值,支持无人机在飞行中进行安全导航。

在AOT数据集上训练的提议模型展示了从单个图像准确辨识距离值的有希望结果。这是对我们模型的认可和激励,使我们能够将模型暴露于属于不同领域的图像,并通过评估它们在之前未遇到的条件下执行可靠性的能力来测试它们的鲁棒性。此外,让我们的模型接受真实飞行测试对于评估模型适应恶劣天气条件的能力至关重要。真实飞行场景引发了监督环境无法解决的未预期的约束和复杂性。在真实飞行条件下评估模型的性能提供了一种令人放心的评估,这种评估可以洞察模型适应未预见条件的能力。将在基准数据集中训练的模型部署到现实环境中可能是一项具有挑战性的任务。这种现象的主要原因是模型暴露于可能由于不同的天气现象(如雨、雾、云)或硬件缺陷(如颜色量化、iso噪声等)导致的广泛数据差异。这些数据分歧可以被概念化为数据的潜在空间表示中发生的域转移。域转移任务包含了学习算法普遍承认的一个挑战,往往会导致当面对与训练过程中遇到的条件不同的条件时性能下降。解决这些挑战将是我们未来工作的重点。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

▲长按扫码添加助理

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。

▲长按扫码学习3D视觉精品课程



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3