基于视频理解实现语义聚焦的视频摘要方法

任欣, 郝矿荣, 唐雪嵩, 宋佳乐

东华大学学报(自然科学版) ›› 2025, Vol. 51 ›› Issue (06) : 19 -25.

PDF
东华大学学报(自然科学版) ›› 2025, Vol. 51 ›› Issue (06) : 19 -25. DOI: 10.19886/j.cnki.dhdz.2025.0070

基于视频理解实现语义聚焦的视频摘要方法

    任欣, 郝矿荣, 唐雪嵩, 宋佳乐
作者信息 +

Author information +
文章历史 +
PDF

摘要

视频摘要旨在自动化地生成视频的关键片段。主流的监督学习方法集中于视觉特征的时空关系建模,视觉特征间缺乏逻辑关联,易导致关键内容的重要性判断错误。本文提出一种语义聚焦视频摘要模型,通过理解视频内容来增强视频内容之间语义上的逻辑关联,从而提高准确性。该模型引入视频理解过程,生成视频内容的文本描述,并对文本序列之间的关联进行建模,这有助于模型从语义内容的角度预测视频内容的重要性。引入帧级视觉特征和镜头类别特征,采用自适应融合方法,将文本序列特征与视觉特征相结合,使模型在不丢失基本视觉信息的同时,学习视频内容之间的语义关联,从而提高视频摘要的准确性。在TVSum和SumMe数据集上进行验证,结果表明,所提模型在上述数据集上均取得了优于现有最先进方法的结果。

关键词

视频摘要 / 视频理解 / 视频字幕 / 特征融合 / 自适应注意力机制

Key words

引用本文

引用格式 ▾
基于视频理解实现语义聚焦的视频摘要方法[J]. 东华大学学报(自然科学版), 2025, 51(06): 19-25 DOI:10.19886/j.cnki.dhdz.2025.0070

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

130

访问

0

被引

详细

导航
相关文章

AI思维导图

/