近日,中国科学院合肥物质科学研究院研究员王红强团队提出了一种基于非对称孪生Transformer的全局-局部对齐注意力模型(AST-GLAA),显著提升了可见光-X光跨模态包裹重识别任务的性能。研究成果发表于《IEEE信息取证与安全汇刊》。
可见光-X光跨模态包裹重识别是安检领域的核心技术,其难点在于两种模态图像存在显著的像素级差异,导致传统方法难以捕捉不同模态间的共性特征。
此次工作中,研究团队创新性地将非对称设计思想引入孪生Transformer架构,提出跨模态非对称孪生Transformer结构,通过在一侧分支嵌入LayerNorm层和模态感知编码,有效增强了模型对跨模态不变特征的提取能力。同时,团队设计了全局-局部跨模态对齐注意力模块,通过建模全局与局部特征的交互关系,在提升细粒度特征表征的同时,解决了跨模态图像空间错位问题。
该研究工作首次将Transformer架构引入跨模态包裹重识别任务,突破了现有方法依赖对称卷积网络的局限。实验表明,该模型在跨模态包裹重识别专用数据集上的关键指标较现有最优方法提升显著,为安检智能化提供了可靠技术支撑。
相关论文信息:https://doi.org/10.1109/TIFS.2025.3592540
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。