基于注意力-残差双特征流卷积神经网络的深度图帧内编码单元快速划分算法

贾克斌; 吴岳珩

北京工业大学学报 ›› 2025, Vol. 51 ›› Issue (05) : 539 -551.

贾克斌, 吴岳珩

作者信息 +

Author information +

文章历史 +

PDF

摘要

针对三维高效视频编码(three-dimensional high efficiency video coding, 3D-HEVC)深度图编码单元(coding unit, CU)划分复杂度高的问题，提出一种基于卷积神经网络(convolutional neural networks, CNN)的算法来实现快速深度图帧内编码。首先，提出一种具有3个分支的注意力-残差双特征流卷积神经网络(attention-residual bi-feature stream convolutional neural networks, ARBS-CNN)模型，其中基于残差模块(residual module, RM)和特征蒸馏(feature distill, FD)模块的2个分支用于提取全局图像特征，基于动态模块(dynamic module, DM)和卷积-卷积块注意力模块(convolutional-convolutional block attention module, Conv-CBAM)的分支用于提取局部图像特征；然后，将提取到的特征进行整合并输出，得到对深度图CU划分结构的预测；最后，将ARBS-CNN嵌入到3D-HEVC测试平台中，利用预测结果加速深度图帧内编码。与原始算法相比，提出的算法能在维持率失真性能几乎不受影响的条件下，平均减少74.2%的编码时间。实验结果表明，该算法能够在保持率失真性能的条件下，有效降低3D-HEVC的编码复杂度。