基于视频理解实现语义聚焦的视频摘要方法

任欣; 郝矿荣; 唐雪嵩; 宋佳乐

doi:10.19886/j.cnki.dhdz.2025.0070

东华大学学报（自然科学版） ›› 2025, Vol. 51 ›› Issue (06) : 19 -25. DOI: 10.19886/j.cnki.dhdz.2025.0070

基于视频理解实现语义聚焦的视频摘要方法

任欣, 郝矿荣, 唐雪嵩, 宋佳乐

作者信息 +

Author information +

文章历史 +

PDF

摘要

视频摘要旨在自动化地生成视频的关键片段。主流的监督学习方法集中于视觉特征的时空关系建模，视觉特征间缺乏逻辑关联，易导致关键内容的重要性判断错误。本文提出一种语义聚焦视频摘要模型，通过理解视频内容来增强视频内容之间语义上的逻辑关联，从而提高准确性。该模型引入视频理解过程，生成视频内容的文本描述，并对文本序列之间的关联进行建模，这有助于模型从语义内容的角度预测视频内容的重要性。引入帧级视觉特征和镜头类别特征，采用自适应融合方法，将文本序列特征与视觉特征相结合，使模型在不丢失基本视觉信息的同时，学习视频内容之间的语义关联，从而提高视频摘要的准确性。在TVSum和SumMe数据集上进行验证，结果表明，所提模型在上述数据集上均取得了优于现有最先进方法的结果。