|
|
基于可变形Transformer端到端森林火灾烟雾目标检测模型 | MDPI Forests |
|
论文标题:A Small-Target Forest Fire Smoke Detection Model Based on Deformable Transformer for End-to-End Object Detection
论文链接:https://www.mdpi.com/1999-4907/14/1/162?n1=27&_utm_from=baca40a8a2
期刊名:Forests
期刊主页:https://www.mdpi.com/journal/forests?n1=27&_utm_from=baca40a8a2
森林火灾持续危及人身安全和社会财产安全。为了减少森林火灾的发生,准确快速地检测森林火灾烟雾至关重要。传统的基于卷积神经网络(CNN)的森林火灾烟雾检测需要大量手工设计的组件,并且在复杂的森林场景中对细小且不显眼的烟雾检测能力较差。本篇由南京林业大学信息科学技术学院的刘云飞教授及其团队撰写并在Forests期刊发表的文章提出了一种改进的早期森林火灾烟雾检测模型,该模型基于可变形Transformer进行端到端目标检测(可变形DETR),适用于早期森林火灾烟雾检测,对不同尺度的烟雾目标均具有较高的检测精度。
1.传统监测为何总错过最佳时机
在以往的森林火灾烟雾探测研究中,人们采用了多种检测模型并取得了良好的效果。然而,由于背景复杂,烟雾特征提取困难,森林环境下早期森林火灾烟雾探测存在诸多问题。首先,森林图像通常不仅包含烟雾,还包含与烟雾特征相似的其他无关背景信息,例如云、湖面、雾等。自然环境中的光线变化也会造成干扰,导致部分图像特征发生变化,影响后续的特征提取和识别。其次,早期烟雾具有动态特性且形状模糊,难以准确检测。本文旨在通过多尺度上下文对比局部特征模块(MCCL)、密集金字塔池化模块(DPPM)和迭代边界框组合方法,提高特征提取和小目标检测能力,从而解决这一关键问题。
2.三大技术创新实现“显微级”捕捉
2.1可变形DETR架构
DETR(架构:CNN主干网络和一个编码器-解码器Transformer模型)一个作为一款真正的端到端检测器,在目标检测领域展现出了极具竞争力的性能。然而,DETR也存在自身的问题。首先,DETR需要更多的epoch才能收敛,这主要是因为训练注意模块时处理图像特征比较困难。其次,DETR很难检测到小物体。此外,Transformer编码器部分中的自注意模块无法处理高分辨率特征图。作者通过取代传统的Transformer注意模块,提出了一种改进的可变形DETR模型,可变形DETR使用多尺度可变形注意模块来处理特征图,并且可以通过自然地聚合多尺度特征来扩展特征图。

图1.可变形DETR的网络结构。
2.2多尺度特征增强模块(MCCL+DPPM)
来自CNN的上下文特征通常侧重于图像中占主导地位的目标,无法确保它们对不显眼目标识别有用。上下文对比局部特征(CCL)模块通过计算局部上下文信息的对比度很好地解决了这个问题。但早期的森林火灾烟雾通常被认为是低对比度的不显眼且模糊的物体,而CCL模块无法在此任务中获得令人满意的结果。为了有效地获取不显眼烟雾物体的更多多尺度特征,作者在模型中使用了多尺度上下文对比局部特征模块(MCCL模块)。结果显示,作者改进的可变形DETR模型专注于特征提取,以获得更高的烟雾检测精度。通过对比和消融实验,可以发现作者的模型相较于其他常见模型更适合早期森林火灾烟雾检测任务,如表1所示。MCCL模块为高层特征处理提供了细小且不显眼的烟雾物体的精确多尺度特征,并且该模块比CCL具有更多的空洞卷积块和更少的参数。而DPPM模块,与金字塔池化模块相比,它可以用更少的参数生成更多的特征。
表1.实验结果。在FFS数据集上,改进的模型与其他检测模型进行了比较
Model
|
Epoch
|
mAP
|
AP50
|
APS
|
APM
|
APL
|
mAR
|
ARS
|
ARM
|
ARL
|
Params
|
Speed
|
Faster R-CNN + FPN
|
100
|
37.4
|
80.0
|
24.2
|
34.3
|
49.7
|
47.2
|
28.3
|
43.3
|
54.0
|
42M
|
235 ms
|
YOLOv5s
|
100
|
42.7
|
82.2
|
29.6
|
41.1
|
56.0
|
48.7
|
34.9
|
56.1
|
62.3
|
7.2M
|
52 ms
|
DETR
|
500
|
44.2
|
84.8
|
27.4
|
40.8
|
60.2
|
53.6
|
33.8
|
51.0
|
62.4
|
40M
|
192 ms
|
DETR DC5
|
500
|
45.0
|
85.5
|
28.1
|
42.4
|
60.3
|
56.2
|
37.6
|
51.9
|
62.5
|
40M
|
441 ms
|
Deformable DETR (Baseline)
|
50
|
45.5
|
85.8
|
33.5
|
42.6
|
58.7
|
54.0
|
42.8
|
50.6
|
59.7
|
37M
|
245 ms
|
+ MCCL Module
|
50
|
48.4
|
86.9
|
38.6
|
46.1
|
60.2
|
57.7
|
44.0
|
59.3
|
62.8
|
37M
|
240 ms
|
++ iterative bounding box
combination method
|
50
|
49.7
|
88.4
|
36.9
|
48.7
|
62.3
|
60.1
|
44.2
|
59.1
|
65.3
|
37M
|
240 ms
|
DETR系列的主干设置为ResNet50,Faster R-CNN和YOLOv5s分别以ResNet101和C3+SPPF作为主干。训练周期设置为不同的值,以获得模型的最佳训练结果。加粗的数字表示比较中的最佳性能。+添加消融实验基于可变形DETR。
2.3迭代边界框优化算法
森林火灾烟雾易受复杂林区环境影响,特征易发生变化。早期烟雾通常呈现半透明状态,边界模糊。与一般目标检测不同,烟雾难以获得精确的边界框。这些不确定因素不可避免地会导致漏检和误检。考虑到理想目标是快速检测早期烟雾并获得图像中的准确位置,作者提出了一种基于NMS和迭代边界框细化的迭代边界框组合方法,以获得满意的结果并减少漏检和误检的发生。我们的算法生成彼此不重叠的边界框,并且整个烟雾物体都被边界框包围。

图2.使用迭代边界框组合方法前后的不同检测样本图。(a,c)原始检测结果;(a)包含一个漏检;(c)包含一个误检。(b,d)更新后的检测结果,其中边界框由我们的方法生成。(b,d)中的边界框均能准确覆盖整个烟雾
研究总结
“当AI学会捕捉风的形状,森林就有了数字护盾”。这项突破不仅意味着技术指标的提升,更承载着每年减少超百亿火灾损失的期待。

特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。