来源:Drones 发布时间:2026/1/14 15:57:46
选择字号:
西北工业大学——一种高效的无人机影像开放词汇目标检测方法 UAV-OVD | MDPI Drones

论文标题:UAV-OVD: Open-Vocabulary Object Detection in UAV Imagery via Multi-Level Text-Guided Decoding

论文链接:https://doi.org/10.3390/drones9070495

期刊名:Drones

期刊主页:https://www.mdpi.com/journal/drones

无人机影像中的目标检测因其在监测、灾害响应及环境保护等领域的广泛应用而备受关注。然而,现有方法大多基于封闭类别集假设,尽管已有部分研究开始探索开放词汇或开放世界检测,但其在无人机影像中的应用仍然有限。为解决这一问题,来自西北工业大学网络空间安全学院张号逵博士及其团队在 Drones 期刊发表了文章,提出了一种新型高效的检测模型——UAV-OVD,该工作对于无人机场景下的开放目标检测研究具有重要意义。

研究过程与结果

作者基于RT-DETR构建UAV-OVD,从三个互补角度进行了改进:首先,在训练层面,设计了区域–文本对比损失替代传统分类损失,使模型能够在超越固定类别集的条件下对齐视觉区域与文本语义;其次,在结构设计上,引入了多层次文本引导的融合解码器,在语言约束下整合多尺度视觉特征,从而提升整体检测性能并增强对小目标的表征与感知;最后,在数据层面,通过同义词扩展类别标签,丰富了监督信息,使检测更加灵活且语义表达更为充分。

UAV-OVD架构概览。该模型融合了三个核心组件:(1) 区域–文本对比损失函数,用于对齐视觉与语义特征并实现开放词汇检测;(2) 多层次文本引导融合解码器 (MTFD),旨在提升复杂航拍影像中小目标和密集目标的检测能力;(3) 类别扩展机制,在训练过程中引入同义词以增强语言泛化能力。

在两个主流基准数据集上的实验表明,UAV-OVD在mAP和Recall上均实现了显著提升。例如,在xView的零样本检测任务中,UAV-OVD分别取得9.9 mAP和67.3 Recall,较YOLO-World提升1.1 mAP和25.6 Recall;在速度上,UAV-OVD达到53.8 FPS,几乎是YOLO-World的两倍、DetrReg的五倍;除此之外,UAV-OVD在小目标检测的效果优于现有sota模型,充分展示了其在无人机影像开放词汇检测中实现实时应用的潜力。

UAV-OVD与YOLO-World-L的性能与特征图对比。(1) 篮球场类别 (新类别) 的检测结果;(2) (3) 车辆类别 (基类) 的检测结果。

DescReg、YOLO-World-L与UAV-OVD的推理速度 (FPS) 对比。

研究总结

本文提出了高效的无人机开放词汇检测器UAV-OVD,通过区域–文本对比损失、多层次文本引导融合解码器及同义词扩展策略,显著提升了小目标和新类别的检测性能,并在xView和DIOR上优于现有方法,验证了其实用性与鲁棒性。尽管如此,未来研究仍有诸多方向值得探索,例如使UAV-OVD更好地适应灾害响应、基础设施巡检和农业监测等多样化任务场景,将检测模块与机载导航和规划系统结合以实现感知—决策闭环,在动态环境中支持基于用户提示或上下文信息的实时词汇扩展,以及融合热成像、LiDAR和任务报告等多模态信息,以进一步提升在复杂或低能见度条件下的识别性能。这些拓展将有助于推动开放词汇检测从研究走向无人机自主系统的实际应用。

 
 
 
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
请投票!科学网2025年度十佳博文评选启动 轻干湿交替灌溉可改善稻米的食味品质
韦布望远镜探测到巨大星系爆发 一屋子流感病人为何却没人生病
>>更多
 
一周新闻排行
 
编辑部推荐博文