基于预训练模型的图文混合会话信息分类研究

陈冬玮

doi:10.16009/j.issn.1009-5624.2026.09.010

信息记录材料 ›› 2026, Vol. 27 ›› Issue (9) : 29 -31. DOI: 10.16009/j.issn.1009-5624.2026.09.010

基于预训练模型的图文混合会话信息分类研究

陈冬玮

作者信息 +

Author information +

文章历史 +

PDF

摘要

针对图文混合会话信息分类中图文特征提取不充分、模态融合效果不佳导致分类准确性受限等问题，本文提出了一种基于预训练模型的图文混合会话信息分类方法。首先，采用语言预训练模型双向编码器表征法（BERT）和视觉预训练模型（ViT）分别对文本序列和图像进行编码，提取文本序列的词嵌入和图像数据的区域特征序列；其次，将这些特征输入对应预训练模型编码层训练，获取文本序列的上下文特征和图像的视觉特征；再次，利用注意力机制将原始特征映射至更高维空间实现特征扩维，从而丰富图文特征；同时引入多层语义决策级融合，通过加权融合规则实现图文特征的融合；最后，采用时序卷积神经网络构建分类模型，通过输入图文联合特征实现图文混合会话信息分类。在公开数据集上的性能验证结果表明：该方法能有效提升图文混合会话信息的分类性能，分类F₁值在0.8以上，具有良好的准确性与鲁棒性。