基于增强对象学习和注意力网络的视频描述方法

蔡晓东 ,  龙顺宏 ,  梁焜峻

吉林大学学报(工学版) ›› 2026, Vol. 56 ›› Issue (02) : 516 -522.

PDF (2304KB)
吉林大学学报(工学版) ›› 2026, Vol. 56 ›› Issue (02) : 516 -522. DOI: 10.13229/j.cnki.jdxbgxb.20240251
计算机科学与技术

基于增强对象学习和注意力网络的视频描述方法

作者信息 +

Video captioning method based on enhanced object learning and attention networks

Author information +
文章历史 +
PDF (2358K)

摘要

在视频描述任务中,常见问题之一是对象描述不够具体,主要原因在于模型没有充分学习视频中的对象信息。同时,视频包含了丰富的特征信息,如对象信息、运动信息和上下文信息,这使得如何提升模型在生成描述时学习关键信息的能力成为一项具有挑战性的任务。为解决上述问题,本文提出了一种基于增强对象学习和注意力网络的方法。首先,设计了一种新的增强对象学习模块,旨在充分学习视频中的对象信息,从而实现对视频内容的准确描述;其次,构建了一种注意力网络,致力于有效关注不同类型的信息,以提升模型在生成描述时学习关键信息的能力。在MSVD和MSR-VTT数据集上的实验中,本文方法生成的描述展现出更高的具体性和准确性,同时在各项评价指标上均超过了目前的先进方法,有效验证了该方法的可行性。

Abstract

In video captioning tasks, one of the common problems is that the object caption is not specific enough, mainly because the model does not fully learn the information of the objects in the video. Meanwhile, videos contain abundant feature information, such as object information, motion information, and contextual information, making it a challenging task to enhance the model’s ability to learn key information when generating captions. To address the aforementioned problems, this paper proposes a method based on enhanced object learning and attention networks. Firstly, a new enhanced object learning module was designed to fully learn object information in videos, thereby achieving accurate caption of video content. Secondly, an attention network was constructed to dynamically adjust the weights of different types of information, thereby enhancing the model’s ability to learn key information when generating captions. In the experiments on the MSVD and MSR-VTT datasets, the caption generated by the method proposed in this paper showed a higher level of specificity and accuracy, and exceeded the current advanced methods in various evaluation indicators, effectively verifying the feasibility of the method.

Graphical abstract

关键词

深度学习 / 视频描述 / 增强对象学习 / 注意力网络

Key words

deep learning / video captioning / enhanced object learning / attention network

引用本文

引用格式 ▾
蔡晓东,龙顺宏,梁焜峻. 基于增强对象学习和注意力网络的视频描述方法[J]. 吉林大学学报(工学版), 2026, 56(02): 516-522 DOI:10.13229/j.cnki.jdxbgxb.20240251

登录浏览全文

4963

注册一个新账户 忘记密码

0 引 言

视频描述是将视频内容转换为文字形式,以传达视频所展现的对象、动作或事件。近年来,视频描述领域取得了显著进展,但仍面临挑战。首先,描述对象的多样性和复杂性导致其在被描述过程中有时过于模糊,缺乏清晰的指代。其次,不同类型特征之间的异构性和融合策略的选择是一个具有挑战性的难题。

在视频描述任务中,对象建模十分重要1。之前的许多研究工作23都使用预训练的对象检测模型来生成对象特征,然而,这些方法忽略了视频帧内和视频帧之间的对象之间的关系。特别是当存在多个对象时,模型难以准确描述这些对象的信息。为解决这一问题,一些研究团队45通过构建关系图以捕捉对象之间的动态关系,从而生成更为准确、丰富的描述。与此同时,Kanani等6使用全局对象信息提升了模型生成段落描述的性能。这些方法在实验中证明了充分学习对象信息及其交互关系的重要性。因此,受Transfomer7-12在视频描述领域取得的突出成绩的启发,本文设计一种新的增强对象学习模块(Enhanced object learning module, EOLM),该模块基于Transformer架构,引入门控机制,形成了Gated Transformer。EOLM利用注意力机制聚焦关键对象信息,并通过门控机制建模不同对象之间的关系,以获得精确的对象特征表示,从而实现对视频内容的准确描述。

此外,由于视频涵盖多种特征信息,因此采用单一类型特征的方法很难生成准确的视频描述13。在一些注重特征建模的视频描述生成任务中,简单的拼接方法虽然丰富了特征信息,但也带来了信息冗余和噪声干扰等问题。针对这一问题,一些研究方法1415利用门控机制实现了特征的融合,有效提升了特征的表达能力。在借鉴了文献[1617]的研究成果后,本文构建了一种有效的注意力网络(Attention networks, AN)。该网络通过注意力机制自适应地融合不同类型特征的特征,使模型能有效学习视频的关键信息,进而提升视频描述的质量。

1 EOLM-AN模型设计

EOLM-AN模型的整体框架如图1所示,由特征提取、特征学习、特征融合和特征解码等模块组成。首先,特征提取模块利用R-CNN、2D CNN和3D CNN对输入视频进行编码,分别得到对象特征O、上下文特征C和运动特征A;其次,特征学习模块进一步处理以上3种特征:通过增强对象学习模块捕获对象之间的长期依赖关系,得到更准确的对象特征Ho;同时,利用两个BiLSTM分别编码上下文特征C和运动特征A,得到HcHa。再次,特征融合模块利用注意力网络将特征学习模块输出的3种特征自适应地融合,得到融合特征H。最后,将融合特征H输入特征解码模块中的解码器以生成文本描述wt

1.1 EOLM设计

针对模型难以充分学习对象信息的问题,本文设计了一种基于Gated Transformer的增强对象学习模块(如图2所示),旨在进一步编码初始对象特征O,以实现对视频中对象信息的深层理解。

首先,增强对象学习模块使用编码器对初始对象特征O进行处理,计算公式为:

O'=GTransEncoder(O)

式中:GTransEncoder为Gated Transformer编码器,它能有效捕捉对象之间的关系和上下文信息。

具体来说,该编码器利用层范数和多头自注意力机制,根据不同对象之间的相关性自适应地进行加权处理,以产生更精确的特征表示H

H=MultiHeadAtt(LayerNorm(O))

其次,通过使用门控层、层范数和残差连接,对特征表示H和初始对象特征O进行处理,以得到隐藏状态H'

H'=Gating Layer(H,LayerNorm(O))+H

假设将输入视频的两个不同特征拼接得到的特征表示分别为xy,则相关的公式为:

r=sigmoid(Wr1x+Wr2y+br)
z=sigmoid(Wz1x+Wz2y+bz)
g=tanh(Wg1y+Wg2(rx))
H=(1-z)x+zg

式中:sigmoid为一种S型激活函数;tanh为双曲正切函数;为哈达玛积;Wr1Wr2Wz1Wz2Wg1Wg2为可学习的参数;brbz为可学习的偏置。

然后,通过使用前馈层、层范数和残差连接,对隐藏状态H'进一步编码,形成输出O'

O'=FeedForward(LayerNorm(H'))+H'

最后,将CA级联得到视频内容的特征V,并将其和O'馈送到Gated Transformer解码器,得到对象特征Ho

Ho=GTransDecoder(O',V)

1.2 AN设计

为了充分利用不同类型的特征,本文在解码器之前,构建了一种注意力网络。该结构能有效关注不同类型的特征,从而提升模型在生成描述时学习关键信息的能力。

图3所示,注意力网络的输入包括Ho={ot}t=1THc={ct}t=1THa={at}t=1T,其中T为视频帧数。该网络通过注意力机制关注了3种不同类型特征的关键信息,具体操作如下。

首先,为了使网络可以关注到每一种特征的关键信息,本文使用注意力机制分别处理特征向量HoHcHa,然后将它们级联以获得更丰富的特征表示Hx

Hx=[Att(Ho) ;Att(Hc) ;Att(Ha)]

式中:Att为注意力机制。

Att(Ho)为例,计算注意力权重β的过程为:

Att(Ho)={o¯t}t=1T
o¯t=i=1Nβt,ioi
βt,i=exp(β¯t,i)/i=1Nexp(β¯t,i)
β¯t,i=Wo1tanh(Wo2ht-1+Wo3oi+bo1)

式中:βt,i为对象特征Ho的第i个输入oit时刻的权重;ht-1为解码器在t-1时刻的隐藏状态;Wo1Wo2Wo3为可学习的参数;bo1为可学习的偏置。

另外,为了有针对性地学习不同类型特征之间的重要性权重,本文将HoHcHa级联,然后通过使用注意力机制和线性层对其进一步处理,得到Hy

Hy={Wy4(y¯t)}tT
y¯t=i=1Mγt,iyi
γt,i=exp(γ¯t,i)/i=1Mexp(γ¯t,i)
γ¯t,i=Wy1tanh(Wy2ht-1+Wy3yi+by1)

式中:γt,i为第i个输入yit时刻的权重;Wy1Wy2Wy3Wy4为可学习的参数;by1为可学习的偏置。

最后,为了可以综合利用两者的信息,以实现更优化的特征效果,本文将特征Hx与特征Hy融合得到特征Hz

Hz=Hx+Hy

2 实验结果与分析

2.1 实验数据

本文采用了具有代表性的MSVD和MSR-VTT数据集进行实验,以验证EOLM-AN模型在视频描述任务上的有效性。这两个数据集都是广泛应用的视频描述数据集,涵盖了各种不同的对象、动作和场景,并且每个视频都有多个人工描述。这为本文的研究提供了丰富多样的数据资源,能够确保对EOLM-AN模型在不同情境下的表现进行全面评估。

本文的实验对MSVD和MSR-VTT数据集样本进行了分组。MSVD数据集被划分为训练、验证和测试集,分别包含1 200、100和670个视频。MSR-VTT数据集也被划分为训练、验证和测试集,分别包含6 153、497和2 990个视频。

2.2 评价指标

本文实验采用了4个被广泛使用的视频描述任务评估指标,包括BLEU@4、METEOR、CIDEr和ROUGE-L。其中,BLEU@4用于衡量生成的描述与参考描述之间的相似性,METEOR适用于评估描述的多样性和准确性,CIDEr重点关注描述的细节和丰富性,而ROUGE-L考虑了召回率,能够评估描述的准确性。这些指标的综合运用能够全面评估EOLM-AN模型在视频描述任务上的性能表现。

2.3 实验平台与参数设置

本文在Ubuntu 20.04.6 LTS操作系统下进行了实验,使用了配备有Intel Core i9-10900X CPU @3.70 GHz×20和NVIDIA GeForce RTX2080Ti等硬件配置的计算机。实验中采用了PyTorch深度学习框架和Python编程语言进行模型的实现和验证。

针对MSVD数据集,实验采用了以下参数设置:增强对象学习模块的层数为2,BiLSTM的隐藏层维度为512,学习率为5e-5,dropout为0.2,batch size为32,epoch为30。

针对MSR-VTT数据集,实验采用了以下参数设置:增强对象学习模块的层数为3,BiLSTM的隐藏层维度为512,学习率为7e-5,dropout为0.1,batch size为64,epoch为25。

2.4 模型性能评估

为验证EOLM-AN模型的有效性,本文选择了几种具有代表性的视频描述方法进行了性能比较,包括DMRM、ORG-TRL、POS-CG、LSRT、MA-LSTM、VADD、SwinBERT、TextKG、MAN、ViT/L14和HMN。具体的实验结果如表1所示,其中B4、M、C和R分别为BLEU@4、METEOR、CIDEr和ROUGE-L的简写。

一方面,相较于DMRM和ORG-TRL模型,EOLM-AN模型更注重增强对象的学习,因此在生成描述时更能准确地反映视频内容,各项指标上都表现更优。与POS-CG、LSRT、MA-LSTM和VADD模型相比,EOLM-AN模型更注重不同类型特征之间的关系,并通过注意力网络更有效地捕捉关键的特征信息,从而提升了模型对特征信息的学习能力,进而在各项指标上都取得了显著的性能提升。与基准模型HMN相比,EOLM-AN模型在各项指标上均取得了显著提升,进一步证明了其在生成视频描述时充分学习对象信息、理解视频关键信息的能力,从而提高了描述的准确性和语义的丰富性。

另一方面,EOLM-AN模型在B4和R指标上优于SwinBERT、TextKG、MAN等先进的方法,这归因于EOLM-AN模型生成的描述准确性更高,参考描述之间更相似。但是,在M和C指标上,EOLM-AN模型低于SwinBERT和ViT/L14,这体现了EOLM-AN模型在生成描述的丰富性和多样性方面还有待提升。

2.5 消融实验

为验证本文所提出的EOLM和AN对模型性能的影响,本文在MSVD和MSR-VTT数据集上进行了消融实验,并将实验结果总结在表2中。

首先,本文对EOLM模块进行了单独验证,实验结果显示在表2的“EOLM”部分。相较于HMN模型,EOLM在B4和R指标上表现出更显著的提升。这表明EOLM在学习对象信息方面进行了优化,从而使其生成的描述不仅准确,且更符合参考文本的内容。

其次,本文对AN模块进行了单独验证,实验结果显示在表2的“AN”部分。与HMN模型相比,AN在所有评价指标上取得了显著的提升。这表明AN在探索特征信息方面做出的改进,使其能够更有效地学习视频的关键信息,并生成更流畅、更具语义丰富度的视频描述。

综上所述,EOLM和AN模块在视频描述生成任务上展现了卓越的优势,有效提升了模型的性能。

2.6 实例分析

为了直观展示本文所提出的EOLM-AN模型相较于基准模型HMN的改进效果,本文在MSVD和MSR-VTT数据集上选取了几个实例进行了可视化,并将结果展示在图4中,其中GT表示参考描述。

图4(a)~(d)中可以看出,EOLM-AN模型在生成视频描述方面表现出几个方面的优势。首先,在图4(a)(b)中,相较于HMN模型将视频中倒入锅里的液体和女孩手里所拿的东西识别为“water”和“ball”,EOLM-AN模型能准确识别为“oil”和“egg”。这表明EOLM-AN模型能更有效地学习视频中的对象信息,并生成更具体和准确的描述。其次,在图4(c)(d)中,HMN模型生成的描述是“a monkey is fighting(一只猴子在打架)”和“two girls are playing with toys(两个女孩在玩玩具)”,而EOLM-AN模型生成的描述是“a monkey is doing karate(一只猴子在练空手道)”和“a girl is painting eggs(一个女孩正在画鸡蛋)”。这表明EOLM-AN模型能更准确地理解视频内容,并生成更符合视频内容的语义描述。

从图4(e)(f)中可以观察到,EOLM-AN模型在处理长时间跨度视频时,能够捕捉到每个动作的一些特征。然而,由于缺乏足够的上下文信息,该模型无法准确理解这些动作之间的关系。因此,它只能生成局部动作的描述,比如“a man is slicing a lemon(一个男人正在切柠檬)”和“a person is folding a piece of paper(一个人正在折叠一张纸)”。这表明EOLM-AN模型没有实现对整个视频内容的整体理解。

3 结束语

本文提出了一种创新的视频描述方法,即基于增强对象学习和注意力网络的视频描述方法。首先,设计了一种新的增强对象学习模块,有效弥补了模型在学习对象信息方面的不足,从而显著提高了视频描述的准确性。其次,构建了一种注意力网络,能够自适应地关注不同类型的特征,有效增强了模型对关键信息的学习能力。在MSVD和MSR-VTT数据集上的实验中,相较于其他先进的方法,本文方法展现了优异的性能表现。未来的研究方向将继续聚焦视频描述任务,旨在探索更好的方法,以弥补模型在上下文建模方面的不足,进一步为该领域提供可行的方案。

参考文献

[1]

Zhang J, Peng Y. Video captioning with object-aware spatio-temporal correlation and aggregation[J]. IEEE Transactions on Image Processing, 2020, 29: 6209-6222.

[2]

Zanfir M, Marinoiu E, Sminchisescu C. Spatio-temporal attention models for grounded video captioning[C]∥Computer Vision-ACCV 2016: 13th Asian Conference on Computer Vision, Taipei, Taiwan, 2017: 104-119.

[3]

Yang Z, Han Y, Wang Z. Catching the temporal regions-of-interest for video captioning[C]∥Proceedings of the 25th ACM International Conference on Multimedia, Mountain View, USA, 2017: 146-153.

[4]

Zhang W, Wang X E, Tang S, et al. Relational graph learning for grounded video description generation[C]∥Proceedings of the 28th ACM International Conference on Multimedia, Seattle, USA, 2020: 3807-3828.

[5]

Zhang Z, Shi Y, Yuan C, et al. Object relational graph with teacher-recommended learning for video captioning[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 13278-13288.

[6]

Kanani C S, Saha S, Bhattacharyya P. Global object proposals for improving multi-sentence video descriptions[C]∥International Joint Conference on Neural Network, Montreal, Canada, 2021: 1-7.

[7]

Parisotto E, Song F, Rae J, et al. Stabilizing transformers for reinforcement learning[C]∥International Conference on Machine Learning, Vienna, Austria, 2020: 7487-7498.

[8]

Ye H, Li G, Qi Y, et al. Hierarchical modular network for video captioning[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 17939-17948.

[9]

Lin K, Li L, Lin C C, et al. SwinBERT: end-to-end transformers with sparse attention for video captioning[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 17949-17958.

[10]

Gu X, Chen G, Wang Y, et al. Text with knowledge graph augmented transformer for video captioning[C]∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Vancouver, USA, 2023: 18941-18951.

[11]

Jing S, Zhang H, Zeng P, et al. Memory-based augmentation network for video captioning[J]. IEEE Transactions on Multimedia, 2023, 26: 2367-2379.

[12]

Shen Y, Gu X, Xu K, et al. Accurate and fast compressed video captioning[C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision, Paris, France, 2023: 15558-15567.

[13]

Wang J, Jiang W, Ma L, et al. Bidirectional attentive fusion with context gating for dense video captioning[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 7190-7198.

[14]

Wang B, Ma L, Zhang W, et al. Controllable video captioning with pos sequence guidance based on gated fusion network[C]∥Proceedings of the IEEE/CVF International Conference on Computer Vision, Seoul, Korea, 2019: 2641-2650.

[15]

Li L, Gao X, Deng J, et al. Long short-term relation transformer with global gating for video captioning[J]. IEEE Transactions on Image Processing, 2022, 31: 2726-2738.

[16]

Xu J, Yao T, Zhang Y, et al. Learning multimodal attention LSTM networks for video captioning[C]∥Proceedings of the 25th ACM International Conference on Multimedia, Mountain View, USA, 2017: 537-545.

[17]

Sun Z, Chen S, Zhong L. Visual-aware attention dual-stream decoder for video captioning[C]∥IEEE International Conference on Multimedia and Expo, Taipei, Taiwan, 2022: 1-6.

基金资助

广西创新驱动发展专项项目(AA20302001)

AI Summary AI Mindmap
PDF (2304KB)

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/