PDF
摘要
针对三维高效视频编码(three-dimensional high efficiency video coding, 3D-HEVC)深度图编码单元(coding unit, CU)划分复杂度高的问题,提出一种基于卷积神经网络(convolutional neural networks, CNN)的算法来实现快速深度图帧内编码。首先,提出一种具有3个分支的注意力-残差双特征流卷积神经网络(attention-residual bi-feature stream convolutional neural networks, ARBS-CNN)模型,其中基于残差模块(residual module, RM)和特征蒸馏(feature distill, FD)模块的2个分支用于提取全局图像特征,基于动态模块(dynamic module, DM)和卷积-卷积块注意力模块(convolutional-convolutional block attention module, Conv-CBAM)的分支用于提取局部图像特征;然后,将提取到的特征进行整合并输出,得到对深度图CU划分结构的预测;最后,将ARBS-CNN嵌入到3D-HEVC测试平台中,利用预测结果加速深度图帧内编码。与原始算法相比,提出的算法能在维持率失真性能几乎不受影响的条件下,平均减少74.2%的编码时间。实验结果表明,该算法能够在保持率失真性能的条件下,有效降低3D-HEVC的编码复杂度。
关键词
三维高效视频编码(three-dimensional high efficiency video coding, 3D-HEVC)
/
深度图
/
卷积神经网络(convolutional neural networks, CNN)
/
编码单元(coding unit, CU)划分
/
帧内编码
/
双特征流
Key words
贾克斌, 吴岳珩
基于注意力-残差双特征流卷积神经网络的深度图帧内编码单元快速划分算法[J].
北京工业大学学报, 2025, 51(05): 539-551 DOI: