面向目标检测和人眼视觉的视频编码优化

刘宇洋 ,  毛敏 ,  张昆 ,  徐煜 ,  孙悦

信阳师范大学学报(自然科学版) ›› 2025, Vol. 38 ›› Issue (02) : 159 -166.

PDF (1001KB)
信阳师范大学学报(自然科学版) ›› 2025, Vol. 38 ›› Issue (02) : 159 -166. DOI: 10.3969/j.issn.2097-583X.2025.02.006
计算机算法与应用

面向目标检测和人眼视觉的视频编码优化

作者信息 +

Optimization of video coding for object detection and perceptual quality

Author information +
文章历史 +
PDF (1024K)

摘要

为了降低视频编码失真对目标检测性能的影响,提出了一种面向目标检测和人眼视觉的视频编码优化方法。首先,调整I帧的量化参数,提升率-编码失真性能;其次,将目标检测算法引入到视频编码器中提取编码帧中的目标区域信息;接着,采用深度网络模型提取当前编码单元的特征,并采用余弦距离计算特征失真;然后,通过改进的VGG网络模型预测编码单元的量化参数;最后,将特征失真引入到率失真优化问题中,通过计算码率-编码失真-特征失真代价函数选择编码单元的最优编码参数。实验结果表明,与最新视频编码标准参考软件VTM-23.0相比,对于目标检测性能,所提算法平均可取得10.5%的BD-rate节省;对于人眼视觉,所提算法平均可取得2.2%的BD-rate节省。

Abstract

In order to reduce the impact of video coding distortion on object detection, an optimization method of ideo coding for object detection and perceptual quality was proposed. Firstly, the quantization parameter of I frame was refined to improve the video coding performance in terms of rate-compression-distortion. Secondly, the object detection algorithm was introduced into video codec to predict the object area of current coding frame. Thirdly, a commonly used deep neural network was utilized to extract the feature of current coding unit, which was used to calculate feature distortion. Then, a modified VGG model was proposed to predict the quantization parameter of current coding unit. Finally, the feature distortion and compression distortion were considered as joint distortion in rate-distortion optimization problem, in which the optimal coding parameters were decided. Experimental results showed that, compared with VTM-23.0, the proposed method could achieve about 10.5% BD-rate savings on object detection accuracy and about 2.2% BD-rate savings on compression distortion, respectively.

Graphical abstract

关键词

视频编码 / 目标检测 / 率失真优化 / 人眼视觉质量 / 量化

Key words

video coding / object detection / rate distortion optimization / perceptual quality / quantization

引用本文

引用格式 ▾
刘宇洋,毛敏,张昆,徐煜,孙悦. 面向目标检测和人眼视觉的视频编码优化[J]. 信阳师范大学学报(自然科学版), 2025, 38(02): 159-166 DOI:10.3969/j.issn.2097-583X.2025.02.006

登录浏览全文

4963

注册一个新账户 忘记密码

0 引言

近年来,随着人工智能技术的迅猛发展,智能应用已频繁出现在人们的日常生活中,并日渐改变人们的生活方式,使得人们的生活日渐智能化。智能监控、智能交通、智能制造等领域的飞速发展使得人力、物力成本大大降低。然而,智能应用会产生大量的视频数据,这些视频数据体量巨大,为存储和传输带来巨大压力。虽然目前已有多种通用视频编码标准,如H.264/AVC、H.265/HEVC、H.266/VVC1、AVS32等,但这些视频编码标准主要面向人眼观看,通过最小化码率与像素失真代价函数(率失真代价函数)选择最优编码参数,实现率失真代价最小。然而,传统率失真代价最小,即在给定码率下使得像素失真最小,并不能保证视频压缩失真对智能应用的影响最小。因此,将视频压缩失真对智能应用的影响考虑到视频编码过程中,是现有视频编码面临的新挑战,即面向机器视觉的视频编码。

面向机器视觉的视频编码是当前视频编码领域的研究热点。该方面的研究工作可分为两类:一类为仅面向机器视觉任务的视频编码3-5,一类为面向人机混合视觉的视频编码。本文工作属于第二类,既要支持机器智能视觉任务,还要满足人眼视觉观看需求。由于机器视觉任务多种多样,目前面向机器视觉的编码研究工作主要集中在目标检测、人脸识别、图像分割等常见的机器视觉任务6-8

目前,已有较多的面向人机混合视觉的图像编码研究工作,JPEG标准组织已颁布JPEGAI标准9。针对面向人机混合视觉的视频编码,提出了一种联合编码框架,该编码框架将生成两个码流,其中一个码流服务于机器视觉,另一个服务于人眼视觉。一些研究团队基于该框架提出了新的编码方案。XIA等10针对人体姿态检测任务,将视频分两路处理,其中关键帧用传统编码器,其余帧则提取关键点特征。解码端则结合重建的关键帧和非关键帧的特征点信息,利用生成对抗网络重建非关键帧。CHOI等11提出了一种基于深度网络模型的可分级编码方案,对视频关键帧采用帧内编码作为基本层,用来服务于机器任务,非关键帧采用帧间预测编码作为增强层,用来服务于人眼视觉观看。YANG等12分析了不同机器视觉任务所提特征的相似性,探索低码率下的多机器视觉任务特征表示,提出了一种低码率下支持多种视觉任务的编码方案,通过设计的超先验字典对神经网络特征进行压缩,进而提升特征的压缩效率。

上述研究工作均采用基于双码流输出的编码方案,还有一些研究工作致力于采用基于单码流输出的编码方案。SHENG等13提出了一种基于深度网络模型的多功能视频编码框架,该框架通过深度网络模型对当前帧提取特征实现紧凑表示,在解码端重建出中间层特征,进而利用中间层进行跨域的运动估计及运动补偿,取得了较好的性能。LIU等14基于混合视频编码框架,提出了一种面向内容分析的视频编码优化方法,通过构建码率与分析失准的关联模型,实现了码率、压缩失真与分析失准的联合优化,提升了性能。

与文献[14]相同,基于混合视频编码框架,提出了基于目标区域的视频编码优化方法,同时采用单码流输出方式满足人眼观看和机器分析需求。为了获取每帧中目标信息,将YOLOv5引入到传统视频编码器中,根据检测到的目标区域调整目标区域的编码参数。实验结果表明,与VVC编码参考软件VTM-23.0相比,所提方法平均可取得10.5%的BD-rate节省,即在相同目标检测性能下,所提方法的码率比VTM平均可节省10.5%。

1 算法框架

基于混合视频编码框架,提出如图1所示算法流程。首先,根据当前编码帧的类别调整量化参数(Quantization parameter, QP)。若当前帧为I帧,则采用传统率失真优化(Rate-distortion optimization, RDO)技术选择编码参数;若当前帧为P/B帧,则采用码率-联合失真优化(Rate joint distortion optimization,RJDO)选择编码参数,在RJDO过程中,为了获取目标区域信息,将目标检测算法引入到视频编码器中,进而检测出当前帧目标区域的坐标位置、宽度、高度等信息。然后,调整目标区域的QP。

1.1 混合视频编码框架

混合视频编码框架的编码过程包括预测、变换、量化、熵编码等4个模块,如图2所示。首先,在编码过程中,视频编码器对每帧图像进行块划分,得到固定尺寸的图像块,即编码单元(Coding Unit, CU);其次,对CU中的像素值进行预测并得到其预测值;再次,将二者相减即可得到残差,进而对残差进行变换、量化。最后,经过熵编码输出码流。视频重建过程即为编码过程的逆过程,在解码端接收到码流后,首先进行熵解码,得到量化系数;然后,经反量化、反变换得到预测残差,加上预测值即可重建当前块。

在编码过程中,视频压缩失真由量化过程造成。一般而言,量化参数越大,量化误差越大,进而使得压缩失真越大。同时,在量化参数较大时,高频部分的变换系数将被量化为零,当前编码块消耗的比特也随之减少。由此可得,量化参数的选择至关重要,不仅与压缩失真关联,同时还与比特消耗有关。

1.2 率失真优化

率失真优化理论来源于信息论中的香农定理,是视频编码的核心。其中“率”为码率,反映视频编码所消耗的比特大小;“失真”为压缩失真,反映了压缩前后视频的差异大小。在视频编码中,率失真优化可具体描述为在码率容限下选出最优的编码参数使得压缩失真最小。由于可选的视频编码参数集为离散的,所以视频编码中的率失真优化问题的实质为一个多元离散变量优化问题,即寻找最优的编码参数集使得率失真代价最小。RDO具体可表示为:

minS* D(Si)  s.t. RRT,Si{S1,,Sn},

式中:D为编码失真,R为码率,RT 为码率容限,{S1,…,Sn }为可选编码参数集,其中包含了编码块划分、量化参数选择、变换核选择等。

为了求解式(1)所示有约束优化问题,视频编码器采用拉格朗日乘子法将其转化为无约束优化问题,具体可描述为:

minS* J=D(S)+λR,

式中:λ为拉格朗日乘子,J为率失真代价。率失真优化问题是视频编码优化中的经典问题。显然,在传统视频编码的率失真优化问题中,“失真”仅代表了压缩失真,无法反映压缩失真引起的目标检测失真,因此将目标检测失真引入到传统的率失真优化问题中,综合考量码率、压缩失真、目标检测失真的联合优化问题(RJDO)。RJDO具体可描述为:

minS* J=DC(S)+αDA(S)  s.t. RRT

式中:α为权重因子,DC为编码失真,DA为目标检测失真,即视频压缩前后运行同一视频目标检测算法的差异。

1.3 特征失真度量

为了在编码过程中获得目标信息,本文将目标检测算法引入到编码器中。如今主流的YOLO、Faster R-CNN15、DeTR16等目标检测算法采用卷积神经网络提取图像特征,已取得了良好的检测性能。考虑到编码时间,选择YOLOv5引入到视频编码器中。同时,目标检测的性能评价也有许多研究工作17。采用常用的目标检测评价指标即可衡量视频编码前后目标检测算法的差异。然而,衡量目标检测算法性能需要重建整幅图像,因此在当前帧编码未完成前无法获得当前编码帧的目标检测算法性能。为了解决该问题,采用CU级别的特征失真代替整帧图像的目标检测失真。

不同目标检测算法采用特征提取方法不同,为了降低不同目标检测算法之间的特征差异,采用卷积神经网络提取编码单元的特征。当前常用的卷积神经网络主要有VGG、ResNet、GoolgeNet等,采用VGG模型提取特征,为了输出VGG提取的特征,去除VGG-16最后的最大池化层和全连接层。特征失真度量过程如图3所示。

原始图像块和重建块分别输入到CNN网络中,CNN网络输出特征分别记为OfRf,通过计算二者的余弦距离作为原始图像块和重建块的特征失真。由于编码过程划分的图像块尺寸不同,最大编码块尺寸为128×128,最小编码块尺寸为4×4,并且在编码过程中还会产生矩形编码块。为了避免因编码块过小导致CNN模型难以提取特征的问题,当编码块的宽或高小于16时,将用大尺寸编码块的特征失真预测该编码块的特征失真,具体可表示为:

DAL=WL×HLWH×WHDAH,

式中:WHHHWLHL分别为大尺寸编码块和小尺寸编码块的宽和高,DAHDAL分别为大尺寸编码块和小尺寸编码块的特征失真。当对小尺寸编码块进行特征失真预测时,将大尺寸编码块与当前编码块的面积比作为权重,以此降低编码块尺寸对特征失真的影响。

为了降低有损压缩对目标检测性能的影响,从全局率失真优化的角度,考虑了帧级和块级压缩失真在编码中的传播过程,提出了帧级和块级的自适应量化参数选择方法。

1.4 帧级量化参数自适应选择

在帧间预测过程中,视频编码器采用运动估计在重建帧中寻找与当前CU相似的区域,进而降低视频的时域冗余。因此,后续编码帧在帧间预测时将重建帧作为参考帧,虽然可以提升预测效率,但会造成重建帧的压缩失真在后续编码帧中传播。在现有编码结构中,尤其在低延迟编码配置18下,I帧大概率会被后续多个编码帧参考,因此I帧的重建质量对后续编码帧的编码性能影响很大。图4展示了对I帧设置不同的QP偏置时的编码性能。其中横坐标为QP偏置,纵坐标为编码性能(BD-rate),BD-rate为负值时表示编码性能有增益,BD-rate为正值时表示编码性能有损失。

图4可以看出,当QP偏置为-2时,测试序列的编码增益最高。同时,考虑到不同初始QP下,I帧的编码质量对后续编码帧的影响也会随之发生变化。因此,根据初始QP调整I帧的QP偏置,具体调整方法如下:

ΔQPI=4,3,QPInitial[52,63],QPInitial[38,51],2,1,QPInitial[22,37],QPInitial[0,21],

式中:∆QPI为I帧的QP偏置,QPInitial为编码器初始QP。同时,现有编码器会根据编码配置,分别对P/B帧的QP进行调整,已有大量实验结果表明其有效性,因此采用现有视频编码器中P/B帧的QP调整方法。

1.5 块级量化参数自适应选择

考虑到目标区域的压缩失真对目标检测性能至关重要,而背景区域的压缩失真对目标检测性能的影响较小,提出了基于目标区域的块级量化参数自适应选择方法,具体算法流程如图5所示。

对于当前编码帧,根据目标检测结果判断当前CU是否包含有目标区域。若当前CU为背景区域(图5中背景块),则采用文献[19]中的全局率失真优化方法调整当前编码块的QP和式(2)中的λ;若当前编码块包含目标区域(图5中目标块),则采用深度网络预测模型得到QP。

图5中的深度网络预测模型的骨干网采用VGG-16模型,用于提取当前编码块的特征。具体网络模型如图6所示。另外,考虑到与当前CU相邻的重建块的编码信息与当前CU的QP有一定相关性,将当前CU的上部和左侧重建块的QP (QPU,QPL)、压缩失真(DUDL)和比特消耗(RURL)融入VGG-16末端的Flatten层,构成一个1×1×2054的张量,最终经全连接层输出1×1×64的张量,代表QP从0至64的置信度。最终取置信度最大的作为当前CU的QP。整体网络简称为VGG-QP,详细的网络模型及参数如图6所示。

1.6 模型训练

为了训练VGG-QP,在PET200920和MOT1621上一共选择10段视频进行压缩,在视频编码过程中采用MQP方法18,获得不同编码块的最优QP,最终获得100万个尺寸为64×64图像块在不同码率约束下的最优QP。同时记录在取得最优QP下,当前块的上方和左侧块的QP及比特消耗,即QPU、QPLDUDLRURL。其中MQP算法流程如表1所示。

VGG-QP的损失函数为:

L=1Ni=1NpiQPi-QPp2,

式中:pi 为置信度,QP i 和QPp分别为最优QP和预测值,N为在QP可选范围中取为64。在训练过程中,学习率设为0.01。

2 实验数据集及参数设置

2.1 实验数据集

实验视频片段来源于数据集PETS2009和MOT16,一共选取6段视频,涵盖室内和室外场景,具体信息如表2所示。

2.2 参数选择与环境配置

实验以VVC参考软件VTM-23.022为算法实现平台,采用低延迟编码配置在4个QP测试点{22,27,32,37}下对实验数据进行压缩。实验的系统环境及硬件配置为:Windows 10操作系统,64 GB内存,CPU型号为Intel Core i9 3.7 GHz,GPU型号为NIVIDA GeForce GTX 3090 24GB。

3 实验结果与分析

所提算法面向人机混合的视频编码,为了验证算法有效性,实验结果分别展示编码后目标检测性能和人眼视觉质量,两者同时用BD-rate衡量,即对比在相同的目标检测性能或人眼视觉质量下的比特消耗,BD-rate为负值说明算法有增益。其中目标检测性能采用IoU(Intersection over union)为50%条件下的mAP度量,人眼视觉质量采用PSNR度量。

3.1 目标检测性能对比

为了验证本文算法的有效性,将VTM-23.0作为基准,选择文献[14]作为对比算法,目标检测算法选择YOLOv5,具体实验结果如表3所示。从表3中可以看出,本文所提算法与VTM-23.0相比,平均可取得10.5%的BD-rate节省。即在相同的目标检测性能下,与VTM-23.0相比,本文所提算法平均可取得10.5%的码率节省。同时,从表3中可以看出,与VTM-23.0相比,文献[14]平均可取得9.5%的BD-rate节省。

另外,从表3可以看出,所提算法在Clip1—4上的编码性能优于Clip5—6的。其原因在于,视频序列Clip1—4的尺寸为1080 P(1920×1080),视频序列Clip5—6的尺寸为720 P(1280×720)。由于视频序列Clip5—6的尺寸较小,在编码过程中会产生较多尺寸较小的编码块,进而造成VGG16-QP带来较大的预测误差,从而降低编码性能。

图7展示了VTM-23.0、文献[14]和本文所提方法在Clip1和Clip2上的码率-目标检测性能曲线。从图7中可以看出,在Clip1上,本文所提算法在QP为22和27时的性能优于其他两种方法;在Clip2上,本文所提方法在低码率和高码率下都有较好的性能。

同时,为了验证算法的鲁棒性,分别测试了DETR、Faster R-CNN和Mask R-CNN等其他3种目标检测算法的率失真性能。实验结果如表4所示,可以看出本文所提算法在其他3种目标检测算法上仍可取得编码增益。对于DETR,本文所提算法平均可取得8.3%的BD-rate节省,Faster R-CNN和Mask R-CNN分别可取得3.8%和4.6%的BD-rate节省。

3.2 人眼视觉质量对比

表5展示了本文算法和文献[14]相对于VTM-23.0的编码性能。从表5中可以看出,与VTM-23.0相比,本文所提算法平均可取得-2.2% BD-rate节省,文献[14]平均可取得-1.6% BD-rate节省。

同时,从表5中可以看出,Clip1—4的编码性能优于Clip5—6,其原因在于Clip1—4的尺寸更大,其背景区域相对占比更多,使得文献[14]中的全局率失真优化方法能够有效地去除时域冗余,提升编码性能。

4 结束语

提出了一种面向目标检测和人眼视觉的视频编码优化方法,包括帧级和块级的量化参数自适应选择方法两个方面。帧级量化参数自适应选择方法考虑I帧的编码失真在后续编码帧的传播问题,通过调整I帧的量化参数提升了率-编码失真性能;块级量化参数自适应选择方法考虑包含目标区域的编码单元对目标检测性能的影响,通过基于VGG改进模型预测量化参数,然后度量编码前后的特征失真构建计算码率-编码失真-特征失真代价,选择最优的编码参数。实验结果表明,所提算法可有效降低压缩失真对目标检测性能影响,同时可有效提升编码性能。考虑到当前算法仅针对目标检测任务,难以兼容到其他计算机视觉任务中,后续研究工作将侧重增强算法的适用性,实现兼容多计算机视觉任务的视频编码优化算法。

参考文献

[1]

BROSS BWANG YekuiYE Yanet al. Overview of the versatile video coding (VVC) standard and its applications[J]. IEEE Transactions on Circuits and Systems for Video Technology202131(10): 3736-3764.

[2]

ZHENG XiaozhenLIAO QingminWANG Yueminget al. Performance evaluation for AVS3 video coding standard[C]//2020 IEEE International Conference on Multimedia & Expo Workshops (ICMEW), London, 2020: 1-6.

[3]

DUAN LingyuLOU YihangBAI Yanet al. Compact descriptors for video analysis: The emerging MPEG standard[J]. IEEE MultiMedia201926(2): 44-54.

[4]

DUAN LingyuLIU JiayingYANG Wenhanet al. Video coding for machines: A paradigm of collaborative compression and intelligent analytics[J]. IEEE Transactions on Image Processing202029: 8680-8695.

[5]

LI XinSHI JunCHEN Zhibo. Task-driven semantic coding via reinforcement learning[J]. IEEE Transactions on Image Processing202130: 6307-6320.

[6]

李然, 郝培男, 孙逢圆. 基于上下文立方匹配的双向运动估计视频帧率上转换算法[J]. 信阳师范学院学报(自然科学版)202235(4): 638-644.

[7]

LI RanHAO PeinanSUN Fengyuan. A bidirectional motion estimation based frame rate up-conversion using context cube matching[J]. Journal of Xinyang Normal University (Natural Science Edition)202235(4): 638-644.

[8]

李艳灵, 王莎莎, 杨志鹏. 一种改进的多任务级联卷积神经网络人脸检测算法[J]. 信阳师范学院学报(自然科学版)202235(4): 651-655.

[9]

LI YanlingWANG ShashaYANG Zhipeng. An improved multi-task cascade convolution neural network face detection algorithm[J]. Journal of Xinyang Normal University (Natural Science Edition)202235(4): 651-655.

[10]

肖立志, 张争. 基于递归卷积神经网络的行人检测方法[J]. 信阳师范学院学报(自然科学版)202134(4): 655-660.

[11]

XIAO LizhiZHANG Zheng. Pedestrian detection method based on recurrent convolutional neural networks[J]. Journal of Xinyang Normal University (Natural Science Edition)202134(4): 655-660.

[12]

ASCENSO JALSHINA EEBRAHIMI T. The JPEG AI standard: Providing efficient human and machine visual data consumption[J]. IEEE MultiMedia202330(1): 100-111.

[13]

XIA SifengLIANG KunchangaiYANG Wenhanet al. An emerging coding paradigm Vcm: A scalable coding approach beyond feature and signal[C]//2020 IEEE International Conference on Multimedia and Expo (ICME), London, 2020: 1-6.

[14]

CHOI HBAJIĆ I V. Scalable video coding for humans and machines[C]//2022 IEEE 24th International Workshop on Multimedia Signal Processing (MMSP), Shanghai, 2022: 1-6.

[15]

YANG WenhanHUANG HaofengHU Yueyuet al. Video coding for machines: Compact visual representation compression for intelligent collaborative analytics[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence202446(7): 5174-5191.

[16]

SHENG XihuaLI LiLIU Donget al. VNVC: A versatile neural video coding framework for efficient human-machine vision[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence202446(7): 4579-4596.

[17]

LIU YuyangZHU CeMAO Minet al. Video analytical coding: When video coding meets video analysis[J]. Signal Processing: Image Communication201867: 48-57.

[18]

REN ShaoqingHE KaimingGIRSHICK Ret al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence201739(6): 1137-1149.

[19]

CARION NMASSA FSYNNAEVE Get al. End-to-end object detection with transformers[C]//Computer Vision‑ECCV 2020, Cham, 2020: 213-229.

[20]

PADILLA RNETTO S LSILVA E A BDA. A survey on performance metrics for object-detection algorithms[C]//2020 International Conference on Systems, Signals and Image Processing (IWSSIP), Niteroi, 2020: 237-242.

[21]

BROSS BCHEN JLIU Set al. Versatile video coding [S]. ITU-T/ISO/IEC Joint Video Exploration Team(JVET), 19th Meeting by Teleconference, 2020.

[22]

LI ShuaiZHU CeGAO Yanboet al. Lagrangian multiplier adaptation for rate-distortion optimization with inter-frame dependency[J]. IEEE Transactions on Circuits and Systems for Video Technology201626(1): 117-129.

[23]

FERRYMAN JSHAHROKNI A. PETS2009: Dataset and challenge[C]//2009 Twelfth IEEE International Workshop on Performance Evaluation of Tracking and Surveillance, Snowbird, 2009: 1-6.

[24]

MILAN ALEAL-TAIXE LREID Iet al. MOT16: A benchmark for multi-object tracking[EB/OL]. (2016-05-03) [2023-10-22].

[25]

VVCSoftware_VTM. VTM-23.0[EB/OL]. (2019-04-02) [2023-10-22].

[26]

HE KaimingGKIOXARI GDOLLÁR Pet al. Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision (ICCV), Venice, 2017: 2980-2988.

基金资助

河南省科技攻关项目(242102221046)

河南省高等学校重点科研项目(22A510009)

信阳师范大学青年科研基金(2023-QN-053)

AI Summary AI Mindmap
PDF (1001KB)

529

访问

0

被引

详细

导航
相关文章

AI思维导图

/