近日,电子科技大学生命科学与技术学院视觉认知与类脑计算团队在《IEEE模式分析与机器智能汇刊》上发表研究论文。
面部表情作为非语言交流的关键方式之一,能够非自主或自主地映射人的情绪波动,并在瞬息间传递复杂信息。视频中的微表情与宏表情定位,作为情感分析的首要环节,旨在精确捕捉视频序列中面部表情的起始与终止帧,界定其时序区间,并区分微表情与宏表情,为后续情感识别、分析及交互提供坚实支撑。然而,当前微表情与宏表情定位面临多重挑战:微表情的非自主性导致数据采集成本高昂;其短暂、细微且局部化的特点,不仅考验标注可靠性,更推高了标注成本;加之光照、头部及脸部运动等因素,模型定位性能大打折扣,严重阻碍表情分析在交互场景的应用。
为了应对上述挑战,该工作提出了视频级弱监督学习策略,建立了仅依赖视频级(弱)标签的自动弱监督表情定位方法。该方法仅依赖视频是否包含表情的粗粒度信息,彻底摒弃时序标注需求,可大幅降低标注难度。面对监督信息匮乏,该研究从多维度挖掘信息,提出多重一致性协作机制,融合模态级显著、视频级分布、标签级时长及片段级特征等先验知识,提升定位精度。实验证明,该方法通过有效利用粗粒度标签和多重先验,实现了细粒度帧级别表情的精确定位。
相关论文信息:https://doi.org/10.1109/TPAMI.2025.3564951
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。