融合注意力机制的多尺度段级动作分割细化框架

李成严; 王昊; 窦毅

doi:10.15938/j.jhust.2026.01.002

哈尔滨理工大学学报 ›› 2026, Vol. 31 ›› Issue (01) : 13 -23. DOI: 10.15938/j.jhust.2026.01.002

融合注意力机制的多尺度段级动作分割细化框架

李成严, 王昊, 窦毅

作者信息 +

Author information +

文章历史 +

PDF

摘要

动作分割是计算机视觉领域的重要任务，旨在预测未修剪视频中动作段落的标签与边界。针对现有“先预测后细化”研究中主干网络生成的高级视频表示常含噪声，及细化结果易出现过度分割和边缘模糊等问题，提出融合注意力机制的多尺度段级动作分割细化框架(MSRF-AS)。结合多头注意力编码、掩码矩阵，提升段落表示的准确性;利用膨胀Transformer技术优化时间感受野;通过段落边界回归精准定位动作段落起止帧。采用50Salads、GTEA、Breakfast数据集验证框架性能。实验结果表明:所提出方法的性能在公开数据集上优于现有方法。