近日,电子科技大学生命科学与技术学院陈华富团队在《信息融合》发表了大脑视觉信息解码研究成果。
将图像和文本等多模态语义特征融合以增强视觉神经表示,在大脑视觉解码中已被证明有效。为了克服先前研究中未解决的对齐歧义问题,研究团队提出了多模态融合对齐神经表示模型(MFA-NRM)。该模型通过变分自编码器(VAE)和自注意力机制,将图像和文本特征整合到统一的潜在空间,促进与神经活动的稳健对齐,并引入提示技术提升了跨个体的泛化能力。
MFA-NRM模型由五个模块组成,包括图像编码器、文本编码器、提示编码器、多模态融合模块和大脑编码器。图像编码器提取视觉特征,文本编码器提取文本特征,提示编码器提取被试的先验提示特征。多模态融合模块将图像和文本特征融合,为解码过程提供更丰富的语义输入。
实验结果表明,MFA-NRM在识别和分类任务中均表现优异,尤其在多模态对齐方面显著优于单模态方法和其他多模态对齐方法,能够从大脑对多模态视觉刺激的反应中提取更丰富的语义,为视觉神经解码提供了新的思路。
该表征工作的价值体现在多个方面。其增强视觉神经解码,通过多模态融合方法,提升了视觉神经解码的准确性。同时进行了跨模态信息整合,有效融合图像和文本等模态数据,提升神经表示的语义丰富性。研究提高了脑机接口性能,为脑机接口提供更精确的神经表示,改善智能辅助设备的控制能力。此外,研究优化神经表示学习方法,帮助深入理解大脑信息处理机制。
相关论文信息:https://doi.org/10.1016/j.inffus.2025.103717
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。