PDF
摘要
多模态情感分析方法旨在准确地识别、提取和推断不同模态所表达的情感极性.针对现有多模态情感分析方法中图像与文本的语义信息特征提取不完整,以及图文模态间特征信息交互融合不充分的问题.提出一种基于跨模态语义信息交互学习的多模态情感分析模型(a multimodal sentiment analysis approach based on interactive learning of cross-modal semantic information, MULTI-SMSI).首先,通过使用DeBERTa作为文本语义特征提取工具,能够充分利用其在大规模语料上预训练的能力,从而高效地获得高质量的语义表示,并采用ResNet50获取图像中的视觉语义特征.其次,引入跨模态多头交叉注意力机制(mulit-head cross attention),动态地分配隐藏状态下的图文模态间的注意力权重,使其在融合过程中准确地学习图文之间的语义相关性.同时,利用自注意力机制(self-attention)分别捕捉图文的全局特征,并将其进一步经过Transformer encoder捕捉图文序列内部关键的长程依赖关系,以获取更加丰富和准确的特征信息,提高模型的泛化能力.最后,在MVSA-Single和MVSA-Multiple数据集上的实验表明,该模型优于现有基准模型,证明了该模型的有效性.
关键词
多模态情感分析
/
跨模态多头交叉注意力机制
/
自注意力机制
/
交互学习
/
视觉语义
Key words
基于跨模态语义信息交互学习的多模态情感分析[J].
南京师范大学学报(工程技术版), 2025, 25(02): 43-53 DOI:CNKI:SUN:NJSE.0.2025-02-004