FCS|前沿研究：基于自然语言先验的单目标孪生网络跟踪算法研究—论文

来源：Frontiers of Computer Science 发布时间：2022/9/15 12:13:12

选择字号：小中大

FCS|前沿研究：基于自然语言先验的单目标孪生网络跟踪算法研究

论文标题：Siamese single object tracking algorithm with natural language prior（基于自然语言先验的单目标孪生网络跟踪算法研究）

期刊：Frontiers of Computer Science

作者：Qianli ZHOU, Rong WANG, Jinze LI, Naiqian TIAN, Wenjin ZHANG

发表时间：15 Oct 2021

DOI：10.1007/s11704-020-0027-8

微信链接：点击此处阅读微信文章

原文信息

标题：

Siamese single object tracking algorithm with natural language prior

原文链接：

https://journal.hep.com.cn/fcs/EN/10.1007/s11704-020-0027-8

引用格式：

Qianli ZHOU, Rong WANG, Jinze LI, Naiqian TIAN, Wenjin ZHANG. Siamese single object tracking algorithm with natural language prior. Front. Comput. Sci., 2021, 15(5): 155335

公众号推文链接：

基于自然语言先验的单目标孪生网络跟踪算法研究

01 导读

视觉跟踪长期以来一直被认为是计算机视觉的一个基本任务，并被广泛应用于许多应用。孪生跟踪器利用孪生网络进行模板匹配，实现了最先进的性能。然而，孪生追踪器并不能将目标与同一类别的干扰物区分开来，并且在复杂的环境中表现不稳定。本文发现，影响跟踪器的鲁棒性和稳定性有三个原因。首先，视觉跟踪器本质上很难区分类内实例，因此需要从其他独立来源进行监督。其次，本文发现当前孪生追踪器使用的最高分类分数来筛选候选区域是一个缺点。第三，孪生跟踪器没有利用视频的帧间相关性，而帧间相关性有助于提高跟踪的性能。此外，本文认为跟踪过程是用户有意的和目标驱动的，本文需要找到一种方法来反映它。

因此，本文为了解决上述问题，提出了一种具有自然语言先验的孪生单目标跟踪算法。首先使用先验语言来生成实例的注意力，而不是像素特征来辅助跟踪模型，它能够通过识别焦点和排除干扰物来满足用户的目的。此外，利用光流特性添加了时间监控模块，可以充分利用帧间的相关性，进一步提高算法性能。最后，利用基于IoU的细化算法来提高边框定位的精度。本文在语言跟踪的主流数据集上验证了本文所提出方法的有效性。

02 语言指导的时间跟踪网络

本文介绍了一个模块化的神经网络结构，取名为 LangTrack，由四个模块组成，包括视觉孪生跟踪模块（VTM）、语言引导模块（LGM）、时间监控模块（TSM）和集成鉴别模块（DIM）。

图1展示了该方法的整体架构。在初始输入方面，本文从视频第一帧的真实标记中获得视觉模板，并将其与后续帧一起输入到视觉跟踪模块中进行视觉特征提取。同时，该视觉模板是时间监督模块的输入，用以预测下一个搜索帧中的目标。此外，将目标的语言描述和搜索帧的查询输入语言指南模块中，以生成每个图像的全局上下文关注。最后，将上述三个分支的输出作为判别集成模块的输入，生成目标的最佳边框。

图1. 语言跟踪模型的架构概述，包括四个模块：视觉孪生跟踪模块（VTM）、语言指南模块（LGM）、时间监控模块（TSM）、鉴别集成模块（DIM）

每个模块的测试结果如图 2 所示。图中的语言描述是：在蓝色和红色跑步者之间的黄色跑步器。

图2. 红色的是VTM的50个候选区域，黄色的来自TSM，蓝色的来自LGM，绿色的是最终的结果

视觉孪生跟踪模块

视觉孪生跟踪模块是基于 SiamMask 算法。本文使用 ResNet-50 作为主干网络，从模板和搜索框架中提取深度视觉特征。一个 RPN 函数被用于候选区域的选择和回归。根据最高的分类得分来选择候选区域，然后对所选择的候选区域进行回归。本文采用同样的方法来挑出候选的边界框。

语言引导模块

受动态多模态网络（DMN）的启发，本文通过引用每一帧视频的表达式来训练模块对目标进行本地化，并使其适应跟踪任务。本文使用与 VTM 相同的主干网络 ResNet-50 来获得图像特征，并使用 SRU 来扫描句子以生成语言表示。隐藏状态由 SRU 作为每个单词的循环单元格产生，并与单词嵌入连接，以丰富语言表示

然后使用一组动态滤波器来产生响应，对被引用到表达式的元素产生强响应，对那些未被引用的元素产生弱响应。K 是过滤器的数量。动态滤波器的输出被定义为：

滤波器的每个输出与视觉特征图卷积，产生具有 K 个通道的。

进而以循环的方式连接对动态过滤器、语言表示、视觉特征和空间坐标表示的响应，并应用的卷积层来合并所有多模态信息，输出单个响应映射，定义为：

最后，利用双线性插值的上采样函数，得到一个与原帧大小相同的输出掩模来指导跟踪。由于掩模中每个像素的值范围为0~255，我们认为超过128像素的值为正的，其他的作为负样本来计算掩模的位置。因此，通过基于掩模计算最小封闭矩形，生成了一个边框。

时间监督模块

本文设计了时间监督模块来提取帧间特征。由于精度和速度的平衡，选择了简单的基于 LK 的中值流方法，而不是其他流网。该模块对边界框中的 100 个点进行采样，LK 光流算法计算相应的点坐标和下一帧的后向误差。该模块仅作为监督因素之一，因此其他模块可以抵消该算法的缺点。

集成鉴别模块

为了结合定位置信度和分类分数来重新排序候选区域，本文提出了一种基于 IoU 的细化算法，通过两步将三个分支的结果进行整合。首先，根据分类分数选择前 N 个提案，设置 N=50，然后计算 LGM 的候选框和所有 50 个候选框之间的，以及 TSM 的候选框和 50 个候选框之间的。本文得到的位置置信度得分如下：

根据每个的位置置信度对进行重新排序。其次，基于位置置信度得分，选择得分前 M 个候选边框来微调最佳的候选边框，在本文的实验中 M 设置为 20，使用剩余 M-1 个候选边框来微调，步骤如下：

其中表示基于 M-1 个候选边框的用于的优化变化，是边框的最终结果。最终，本文通过综合上述所有模块得到了边界框。

03 文章的主要贡献

本文引入语言描述监督信息和光流监督信息来解决单一孪生网络追踪器易受同类干扰物干扰的问题。为了将从视觉、语言和帧间特征中获得的三种预测结果整合起来，提出了一种受 IoUnet 启发，从候选边框中挑出最佳边框的方法。首先在语言引导和光流信息的监督信息下选择视觉孪生跟踪模块的最佳边框，然后利用剩余候选边框的加权平均来对最佳边框进行优化，以在其他邻近的高排名候选边框的基础上获得更高的精度。

04 实验

实验设置

实验选取的数据集为：OTB2013、OTB2015 和 LaSOT。选取的基准算法为 SiamFC，SiamRPN，DaSiamRPN，MDNet，ATOM，SiamRPN++ ，SiamMask ，DiMP，PrDiMP，Lang-tracker。对比测试考虑了在不同的阈值下每帧的平均成功率，然后对 OPE 和 AUC 等评价指标进行比较。本文所提出的语言模型使用 ReferIt，UNC，UNC+ 和 G-Ref 预训练。

表1. 在OTB2013和OTB2015上的对比实验结果

实验结果

实验结果表明，该算法在主流语言跟踪数据集上具有良好的性能。如表 1 所示，在 OTB2013 和 OTB2015 数据集上取得了比其他基准算法更高的成功率，但精确度并不是最高。结果显示，在 OTB2015 数据集上，所提出模型的精确度达到了 0.911，成功率为 0.722，同时本文的跟踪器以 8 帧/秒的速度运行，证明了所提出算法的有效性。

图3. 在 OTB2013 上的对比实验结果。左图为成功率对比图，右图为准确率对比图

Lang-tracker 算法是第一个使用语言引导进行跟踪任务的算法，其在 OTB2013 上达到 0.578 的成功率，不如本文提出的算法成功率高。此外，作为最近流行的跟踪器，SiamMask 在跟踪精度方面取得了 SOTA 的表现。本文使用 SiamMask 算法作为本文的视觉跟踪模块，也把它作为本文的对比基准算法。如图4所示：上述模型将 SiamMask 算法在 OTB2015 的跟踪精度从 0.840 提升到 0.911，成功率从 0.647 提升到 0.722，证明了本文方法的有效性。文本所提出跟踪器的运行速度是 8 帧/秒，比 SiamMask 运行速度慢的原因是，处理语言描述的语言模块消耗了更多的计算资源，导致了延迟。

图4. 在 OTB2015 上的对比实验结果。左图为成功率对比图，右图为准确率对比图

本文还在 LaSOT 数据集上测试了该模型，从图 3 和表 2 的结果可以看出，该模型具有不错的性能，特别是在成功率上，但根据比较研究，它并不是最好的跟踪器。本文将这归因于缺乏在高分辨率框架上进行的足够的训练。因此，它在包含高分辨率视频的 LaSOT 上的性能似乎不如在 OTB 数据集上的性能出色。

图5. 在 LaSOT 数据集上的对比实验结果。左图为成功率对比图，右图为准确率对比图

表2. 在 LaSOT 数据集上的对比实验结果

消融实验

最后，本文在 OTB2015 数据集上进行了消融实验，来测试不同的模块和方法对本文算法性能的影响。结果如表 3 和图 6 所示。

语言引导模块 。去掉语言引导模块后，本文算法在 OTB2013 上的精度和成功率下降到 0.705 和 0.511，在 OTB2015 上的精度和成功率下降到 0.701 和 0.529，甚至比 SiamMask 的结果更差，如图 4 所示。充分验证了语言引导模块在跟踪过程中降低干扰物影响、提高模型辨别能力方面的重要作用。结果低于 SiamMask 的原因是光流位置置信度并不总是稳定的，性能浮动导致结果恶化。

时间监督模块。如图 4 所示，增加光流信息对 OTB2015 上的结果有提高，而对 OTB2013 上的结果没有提高。原因可能是这个模块在更复杂的环境中比简单的模块更有效。因此，不应使用时间监督模块作为视觉跟踪模块的唯一的主要监督信息，它应该与语言引导模块一起使用。

基于IoU的边框细化。如图 4 所示，当不使用基于 ioU 的边框细化时，本算法在 OTB2015 和 OTB2013 上的性能分别略有下降。结果表明，边框细化过程可以提高跟踪的精度，但该方案并不总是最好的。

图6. 在 OTB2013 和 OTB2015 数据集上的消融实验结果。左图是成功率图，右图是精确率图，无光流表示没有时间监控模块，无细化表示没有基于 IoU 的细化算法。没有语言就表示没有语言引导模块

表3. 在 OTB2015 数据集上的消融实验结果

解读：徐宁东南大学

审核：张琨合肥工业大学

Frontiers of Computer Science

Frontiers of Computer Science （FCS）是由教育部主管、高等教育出版社和北京航空航天大学共同主办、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊，双月刊，全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华教授，共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库（CSCD）核心库等收录，为 CCF 推荐期刊；两次入选“中国科技期刊国际影响力提升计划”；入选“第4届中国国际化精品科技期刊”；入选“中国科技期刊卓越行动计划项目”。

《前沿》系列英文学术期刊

由教育部主管、高等教育出版社主办的《前沿》（Frontiers）系列英文学术期刊，于2006年正式创刊，以网络版和印刷版向全球发行。系列期刊包括基础科学、生命科学、工程技术和人文社会科学四个主题，是我国覆盖学科最广泛的英文学术期刊群，其中13种被SCI收录，其他也被A&HCI、Ei、MEDLINE或相应学科国际权威检索系统收录，具有一定的国际学术影响力。系列期刊采用在线优先出版方式，保证文章以最快速度发表。

中国学术前沿期刊网

http://journal.hep.com.cn

特别声明：本文转载仅仅是出于传播信息的需要，并不意味着代表本网站观点或证实其内容的真实性；如其他媒体、网站或个人从本网站转载使用，须保留本网站注明的“来源”，并自负版权等法律责任；作者如果不希望被转载或者联系转载稿费等事宜，请与我们接洽。

编辑部推荐博文
基金申请最后一周！短时间还能做哪些提升？科学网2026年2月十佳博文榜单公布！ SSB｜上交大：暗产色链霉菌OSK-123论文综合SCI，Accept很easy，录用率高达88% 长达十年的开放数据现状调研有何发现？科学家总结炎症性肠病的研究进展与前景更多>>