红外视频图像行人检测算法综述

2024-01-28 11:46| 来源: 网络整理| 查看: 265

http://www.doc88.com/p-1137822192539.html 2018年西安邮电大学学报《改进的YOLOv3红外视频图像行人检测算法》

对于红外视频图像行人检测算法方面进行一个小小的认知和了解

说明：当下用红外视频做自动驾驶方面的比较多，auto-drive，所以数据集基本是车载的。还有双光结合的，这类数据集的较多。如在行人检测（3）——数据集中提到的：自动驾驶类的数据集

KAIST多光谱行人数据集：640×480，手动标记了所有的行人、骑自行车的人等SCUT南方科技大学红外行人数据集：FLIR-ADAS红外数据集 1.《改进的YOLOv3红外视频图像行人检测算法》

使用的数据集为CVC公司的CVC-09数据集，还有CVC-14的数据集。YOLOv3在检测红外视频图像行人时存在准确率低、漏检率高的问题。行人在红外图像中呈现宽高比相对固定的特点，利用k-means聚类方法选取目标候选框个数和宽高比维度，调整网络参数并提高输入图像分辨率，最后进行多尺度训练得到最优检测模型。在CV-09数据集上，改进后的网络的准确率达到90.63%，明显优于Faster-rcnn和YOLOv3。

常用的红外行人检测技术主要分为：

基于特征分类的方法——依赖于人工设计特征提取器，然后训练分类器进行行人检测，如HOG和SVM 人工设计的特征泛化能力差基于深度学习的方法——利用CNN从图像像素中学习行人特征，通过特征训练得到行人检测模型，如CNN、局域CNN和端到端的方法 CNN不需要人为选择行人特征，但针对不同场景检测需要单独训练模型局域CNN：将特征提取和分类融合进一个分类框架，提高了训练速度和检测的准确率，但由于加入了SVM而繁琐端到端，如SSD-single shot multibox detector，可以解决在特征提取过程中由于图像像素过多导致的维度灾难问题，但SSD对小尺寸和模糊目标的检测效果较差，且检测速度较慢YOLO-you look only once在检测速度上远超过SSD，在YOLO在检测相互重叠或者相邻很近的目标时漏检率过高，且泛化能力偏弱。 2. FLIR-ADAS数据集双光图像-红外图像带注释，可见光图像不带注释。车载数据。总共有14452张图像，其中10228张是短视频（帧率为2fps)，4224为144s的视频。少部分图像在目标稀少的地区是帧率1fps采集的。

FLIR Thermal Starter数据集提供了带注释的热图像和非带注释的RGB图像集，用于训练和验证目标检测神经网络。通过安装在车辆上的RGB和热像仪获取数据集。数据集总共包含14452张带注释的热图像，其中10228张图像是从短视频中采样的，4224张图像是从连续144秒视频中采样的。所有视频均于11月至5月在美国加利福尼亚州圣塔芭芭拉的街道和高速公路上拍摄。在白天和晚上，在一般晴朗的天空条件下拍摄视频。

用FLIR Tau2（13mm f / 1.0、45-degree HFOV垂直视角和37-degreeVFOV水平视角）获取热图像。 RGB图像是通过FLIR BlackFly在1280 X 512m（4-8 mm f / 1.4-16百万像素镜头，且FOV设置为与Tua2匹配）上获取的。两个摄像机均在默认模式下运行。摄像机位于一个彼此隔开1.9 +/- 0.1英寸的外壳中。使用FLIR专有软件通过USB3视频捕获图像。 10228张热图像中的大多数以每秒两张图像的速度采样（native视频是每秒30帧）。在对象较少的环境中采集的少数图像以每秒一帧的速率采样。

人类注释者标记并在五类对象周围放置边框。在可能的情况下，使用了coco编号方案来编号类别ID。类别ID也记录在“ catids.json”文件中，该文件同时出现在训练和验证文件夹中。

五类目标：人、自行车与摩托车、汽车（私家车和小型商业车）、狗、其他机动车（大卡车、船等）

注释使边界框尽可能紧密。紧凑的边框忽略目标的小部分（例如四肢）的紧定边界框比宽边界框更受青睐。个人附件未包含在人的边框中。发生遮挡时，仅注释对象的未遮挡部分。头和肩膀比人和狗的身体其他部位更受人欢迎。当遮挡只允许肢体的一部分或对象的其他较小部分可见时，则不会对其进行注释。车轮是“自行车”类别的重要组成部分。边界盒中未包括通常被骑手挡住的自行车零件，例如车把。骑自行车的人与自行车分开注释。当对象被遮挡分割时，将为对象的两个可见部分提供两个单独的注释。

注释仅针对热图像创建。热像仪和RGB热像仪在车辆上的位置不同，因此具有不同的观察几何形状，因此热注释不能代表RGB图像中对象的位置。

文件夹结构由三个文件夹组成，每个文件夹都有五个子文件夹。对于采样的图像，已通过两个子文件夹（标记为“ training”和“ validation”）创建了建议的训练和验证集。将整个视频分配到建议的训练或验证集中。

紧凑的边框比宽边界的边框更好

存在遮挡时，仅注释目标的未遮挡部分

存在遮挡时，人或狗的头和肩膀比身体的其他部位更重要。

严重遮挡时，如只剩下一部分肢体时，不进行标注。

骑自行车的人与自行车分开注释

目标被遮挡时，两个目标是分开标注的。

Baseline的accuracy对于Training和Validation数据是使用为512*512的图像设计的RefineDetect512的神经网络，且在MSCOCO数据集上预训练过的。(https://arxiv.org/pdf/1711.06897.pdf and https://github.com/sfzhang15/RefineDet)。base神经网络实在8-bit红外图像上训练的，training folder中有标记数据。Test data没有用于训练。实现了所有类别的 mAP IoU(0.5) of 0.587。使用的accuracy测试网址为如下，mAP分数如下。

文件结构中使用了以下子文件夹：

AnnotationsPreviewData：该文件夹包含“预览数据”中的8位热数据，该数据已处理为将批注文件夹中的批注边界框覆盖在其上。注释：此文件夹包含详细说明边界框和类别信息的json文件。此json文件为标准可可格式。与注释相关的json文件被格式化为python数据字典。字典中的第一个键是“注释”。键返回图像内的注释列表。批注列表中的每个项目均包括以像素为单位的批注区域，边框尺寸，批注ID的类别（请参见“ catids.json”），批注的ID号（在每张图片中，第一张图片都有ID）数字1，第二个具有ID号2，依此类推），与注释关联的图像ID，注释是否用于人群以及分段坐标。边界框尺寸将左上角像素设置为（0，0）。向下移动会增加y像素数。向右移动可增加x像素数。第二个键是“图像”。该键返回有关图像的基本元数据和相关注释。数据：由FLIR Tau2摄像机获取的14位640 X 512热图像，未应用自动增益控制（AGC）。图像采用16位.tiff格式。一个可以查看16位图像的工具集可从以下网址获得：https://imagej.netPreviewData：8位，应用AGC，.jpeg格式的图像，否则与“数据”文件夹中的图像相同。 RGB：8位RGB（三通道）图像。请注意，训练中的499张图像，验证中的109张图像和视频中的29张图像没有RGB对应图像。图像分辨率通常为1600 X 1800，但是某些图像的分辨率不同，包括480 X 720、1536 X 2048和1024 X 1280。 2.1jason格式注释

COCO数据集的标签文件.json解读、理解跟COCO数据集的标签文件很类似。COCO数据集标注信息

https://blog.csdn.net/fkk921912333/article/details/79129952?utm_medium=distribute.pc_relevant.none-task-blog-baidujs-1

image_idid是每张图像里面不止一个目标，这个是每一个目标的id。它有一个bbox表示它的位置，然后category_id为标记分类，person?car?等。image_id为帧号

2.2 jason格式为COCO数据集格式，标注读取和

https://blog.csdn.net/u012435142/article/details/102156018

【本文地址】

红外视频图像行人检测算法综述

红外视频图像行人检测算法综述

今日新闻

推荐新闻