基于图文交互和深层特征融合的多模态讽刺检测方法

王素格; 李鹏帅; 李旸

doi:10.13451/j.sxu.ns.2024170

山西大学学报(自然科学版) ›› 2025, Vol. 48 ›› Issue (02) : 391 -399. DOI: 10.13451/j.sxu.ns.2024170

基于图文交互和深层特征融合的多模态讽刺检测方法

王素格, 李鹏帅, 李旸

作者信息 +

Author information +

文章历史 +

PDF (3041K)

摘要

多模态讽刺检测是在多模态场景下识别用户的讽刺言语。现有的多模态讽刺识别方法大多对编码之后的特征直接融合，并未关注图像和文本的深层特征以及图像和文本之间的交互。针对上述问题，本文提出基于图文交互和深层特征融合的多模态讽刺检测框架。首先，使用具有长文本能力的对比语言-图像预训练模型（Contrastive Language-Image Pre-training model with Long text capability,Long-CLIP），对图像和文本进行编码，获得图像和文本的特征表示，进一步引入跨模态注意力机制，建立图像和文本特征之间的交互表示；其次，利用多个卷积神经网络从不同角度分别获得图像和文本的深层特征表示，并利用Key＿less Attention机制融合图像和文本的深层特征；最后，通过多层感知机实现多模态讽刺检测。在公开的数据集MMSD2.0上进行实验，实验结果表明所提出的方法与现有的最先进的基线模型相比，Acc和F1分别提升0.33%和0.15%，表明了图文交互及深层特征可以提升多模态讽刺检测的性能。