医学图像压缩与视觉任务联合优化方法

姚超; 高梓轩; 陈俊如; 卢奕鹏

doi:10.12068/j.issn.1005-3026.2026.20259020

东北大学学报(自然科学版) ›› 2026, Vol. 47 ›› Issue (01) : 11 -19. DOI: 10.12068/j.issn.1005-3026.2026.20259020

智慧医疗专栏

医学图像压缩与视觉任务联合优化方法

姚超 ¹ ,
高梓轩 ² ,
陈俊如 ³ ,
卢奕鹏 ⁴

作者信息 +

Joint Optimization Approach for Medical Image Compression and Vision Tasks

Author information +

文章历史 +

PDF (2152K)

摘要

针对医学图像处理中依赖独立编码组件无法实现数据压缩与机器视觉任务联合优化的问题，本文构建了一种端到端的机器视觉任务驱动的医学图像压缩网络（machine vision task-driven medical image compression network，MVMICNet）模型，端到端地实现数据压缩与医学图像分析的和谐统一.为了保持医学图像压缩前后机器视觉任务的性能，设计了任务感知的改进码率-准确率损失函数，通过引入任务相关的损失项，在优化过程中动态平衡码率、重建图像失真与机器视觉任务精度三者之间的关系；同时，MVMICNet模型采用分阶段训练的模式，针对机器视觉任务的不同特性进行特定的优化，确保了模型能够精准捕获对诊断至关重要的特征信息，实现了压缩效率与任务性能的同步提升，从而在复杂的医学应用场景中展现出更优越的鲁棒性；最终，本文在语义分割和目标检测任务中验证了该框架的有效性.

Abstract

In medical image processing， the reliance on independent encoding components makes it impossible to achieve joint optimization of data compression and machine vision tasks. To address this issue， an end-to-end machine vision task-driven medical image compression network （MVMICNet） was proposed， achieving harmonious unification of data compression and medical image analysis in an end-to-end manner. To maintain the performance of machine vision tasks before and after medical image compression， a task-aware improved code rate-accuracy loss function was designed. By introducing task-related loss terms， it dynamically balanced the relationship among code rate， reconstructed image distortion， and machine vision task accuracy during the optimization process. Furthermore， the MVMICNet model adopted a stage-wise training approach， specifically optimizing for the different characteristics of machine vision tasks to ensure that the model can accurately capture the feature information crucial for diagnosis. This has achieved a simultaneous improvement in compression efficiency and task performance， thus demonstrating superior robustness in complex medical application scenarios. Finally， the effectiveness of the framework was verified in semantic segmentation and object detection tasks.

Graphical abstract

关键词

医学图像压缩 / 语义分割 / 目标检测 / 卷积神经网络（CNN） / 任务驱动优化

Key words

medical image compression / semantic segmentation / object detection / convolutional neural network （CNN） / task-driven optimization

引用本文

引用格式 ▾

[Author(id=1261764496562245876, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, orderNo=0, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=yaochao@ustb.edu.cn, emailSecond=null, emailThird=null, correspondingAuthor=1, authorType=1, ext={EN=AuthorExt(id=1261764496625160439, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, authorId=1261764496562245876, language=EN, stringName=Chao YAO, firstName=Chao, middleName=null, lastName=YAO, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=¹, address=^1.School of Computer & Communication Engineering，University of Science and Technology Beijing，Beijing 100083，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1261764496671297785, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, authorId=1261764496562245876, language=CN, stringName=姚超, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=¹, address=^1.北京科技大学计算机与通信工程学院，北京 100083, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1261764496260255968, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, xref=1., ext=[AuthorCompanyExt(id=1261764496277033186, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, companyId=1261764496260255968, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=^1.School of Computer & Communication Engineering，University of Science and Technology Beijing，Beijing 100083，China), AuthorCompanyExt(id=1261764496289616099, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, companyId=1261764496260255968, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=^1.北京科技大学计算机与通信工程学院，北京 100083)])]), Author(id=1261764496717435132, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, orderNo=1, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1261764496776155391, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, authorId=1261764496717435132, language=EN, stringName=Zi-xuan GAO, firstName=Zi-xuan, middleName=null, lastName=GAO, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=², address=^2.School of Computer Science & Technology，Beijing Jiaotong University，Beijing 100044，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1261764496826487041, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, authorId=1261764496717435132, language=CN, stringName=高梓轩, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=², address=^2.北京交通大学计算机科学与技术学院，北京 100044, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1261764496335753445, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, xref=2., ext=[AuthorCompanyExt(id=1261764496352530662, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, companyId=1261764496335753445, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=^2.School of Computer Science & Technology，Beijing Jiaotong University，Beijing 100044，China), AuthorCompanyExt(id=1261764496365113576, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, companyId=1261764496335753445, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=^2.北京交通大学计算机科学与技术学院，北京 100044)])]), Author(id=1261764496872624388, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, orderNo=2, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1261764496935538951, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, authorId=1261764496872624388, language=EN, stringName=Jun-ru CHEN, firstName=Jun-ru, middleName=null, lastName=CHEN, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=³, address=^3.School of Integrated Circuit Science and Engineering，Wuxi University，Wuxi 214105，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1261764496981676297, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, authorId=1261764496872624388, language=CN, stringName=陈俊如, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=³, address=^3.无锡学院集成电路科学与工程学院，江苏无锡 214105, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1261764496411250922, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, xref=3., ext=[AuthorCompanyExt(id=1261764496428028139, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, companyId=1261764496411250922, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=^3.School of Integrated Circuit Science and Engineering，Wuxi University，Wuxi 214105，China), AuthorCompanyExt(id=1261764496440611052, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, companyId=1261764496411250922, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=^3.无锡学院集成电路科学与工程学院，江苏无锡 214105)])]), Author(id=1261764497027813645, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, orderNo=3, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1261764497090728213, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, authorId=1261764497027813645, language=EN, stringName=Yi-peng LU, firstName=Yi-peng, middleName=null, lastName=LU, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=⁴, address=^4.School of Integrated Circuits，Peking University，Beijing 100871，China. cn, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1261764497145254169, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, authorId=1261764497027813645, language=CN, stringName=卢奕鹏, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=⁴, address=^4.北京大学集成电路学院，北京 100871, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1261764496486748399, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, xref=4., ext=[AuthorCompanyExt(id=1261764496503525616, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, companyId=1261764496486748399, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=^4.School of Integrated Circuits，Peking University，Beijing 100871，China. cn), AuthorCompanyExt(id=1261764496516108529, tenantId=1045748351789510663, journalId=1155139928303341674, articleId=1243914066058588637, companyId=1261764496486748399, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=^4.北京大学集成电路学院，北京 100871)])])] 姚超,高梓轩,陈俊如,卢奕鹏. 医学图像压缩与视觉任务联合优化方法[J]. 东北大学学报(自然科学版), 2026, 47(01): 11-19 DOI:10.12068/j.issn.1005-3026.2026.20259020

登录浏览全文

4963

注册一个新账户忘记密码

随着现代医学影像技术的持续发展，高精度数字影像设备单次扫描将产生数百至数千张图像，如核磁共振成像（magnetic resonance imaging，MRI）、计算机断层扫描（computed tomography，CT）图像、X射线图像等，导致医疗数据量激增，存储与传输成本面临严峻挑战.在此背景下，医学图像压缩的必要性愈发凸显：一方面，高效的压缩技术可大幅降低数据体量，缓解医疗系统的资源压力；另一方面，压缩过程必须谨慎权衡，因为过度压缩可能破坏图像的关键诊断特征，进而对后续的智能分析任务产生不可逆的负面影响.目前，图像压缩算法已经从传统的压缩标准如JPEG（joint photographic experts group）^［1］，JPEG2000^［2］，BPG（better portable graphics）^［3］发展到基于深度学习的压缩算法^［4-6］.虽然上述方法提供了较高的压缩比，却忽略了医学图像特征复杂多样的本质.无论是复杂的人体解剖结构（如骨骼、肌肉、器官和血管等），还是多模态医学成像技术（如X光、CT、MRI、超声等）提供的不同类型的体内视图，都对压缩算法提出了极高的要求.上述这些方法在压缩过程中很难完全保留这些复杂多样的特征，无法保证压缩后诊断信息的完整性.

医学图像压缩的核心矛盾在于压缩效率与诊断信息完整性的平衡.视觉任务（如医学图像分类^［7-8］、医学图像分割^［9-10］和医学图像识别^［11-12］）依赖医学图像中细微的纹理、边缘及对比度特征，而过度压缩可能导致伪影或细节丢失，直接影响诊断准确性.例如，在创伤急救中，CT图像的快速压缩与传输需保留骨骼断裂或出血区域的清晰边界；而在肿瘤检测中，MRI图像的低对比度病灶可能因量化误差而被忽略.因此，医学图像的压缩重建不仅需保证符合人眼感知质量，还应保留足够的语义与结构信息，以满足机器视觉系统在诊断、检测等任务中的准确性要求^［13］.因此，解决这一矛盾需要突破传统“压缩-分析”分离的范式，探索压缩算法与视觉任务的联合优化机制，从而在医疗资源的有限性与诊断的精准性之间实现平衡.

为了解决上述挑战，本文构建了端到端优化的视觉任务驱动的医学图像压缩网络，通过深度耦合图像压缩与视觉分析任务，实现了二者的协同优化与和谐统一.本文为该网络设计了任务感知损失函数

L t a s k

，缩小原始图像和解压重建图像的视觉任务精度差异，优化码率-准确率.在训练策略上，采用分阶段优化方法，先建立基础的压缩性能，再针对不同视觉任务特性进行精细化调整.实验验证了MVMICNet在保持医学图像压缩性能的情况下，有效提升了语义分割和目标检测等机器视觉任务的精度.

1 相关工作

目前，兼顾信道容量和视觉任务性能的工作范式包含两种：先分析再压缩（analyze then compress，ATC）和先压缩再分析（compress then analyze，CTA）^［14］.

ATC范式首先从原始数据中提取视觉特征，再用适合的编码算法压缩特征，将特征传输到解码端后完成相应的机器视觉任务^［14］.提取并压缩语义视觉特征后，再进行特征的传输与重建是一种可行方案^［15］.王凯^［16］提出的方法通过双分支特征融合实现高效的医学图像的无损压缩；Herbert等^［17］提出了一种尺度和旋转不变的兴趣点检测器，其可重复性、独特性和鲁棒性几乎达到最佳性能；Redondi等^［18］创新性地提出将视觉数据处理前移至感知端，直接对像素域中提取的局部特征进行压缩，跳过传统的图像重建过程，从而在降低传输冗余的同时，显著提升了压缩效率与视觉任务准确率.Liu等^［19］通过选择性编码特征子集，动态平衡人类视觉与不同机器任务间的比特分配，为机器视觉与人类视觉的联合压缩提供了一种解决方案.在码率受限的情况下，ATC范式虽然可以获得良好的视觉任务性能，但并没有摆脱手工设计模块的限制，这导致前端提取数据和后端分析数据相互独立，难以实现压缩任务和机器视觉任务的联合优化以同时达到最优.

CTA范式先压缩图像，以满足有限的网络带宽和存储容量的需求，再进行机器视觉任务的分析.李基臣等^［20］通过对图像进行去噪、增强、复原、分割、提取特征等处理，实现了医学数字图像处理技术在医学影像中的研究与应用.随后，Zabala等^［21］对重建后的农作物图像进行数字化分类，验证了图像分块操作对视觉任务性能的影响.Chao等^［22］提出了一种融合尺度不变特征变换的码率失真优化模型，旨在JPEG压缩图像重建过程中有效保留图像的关键结构信息及其尺度不变性特征.该方法通过引入尺度不变的特征变换，有助于减小压缩带来的失真对图像多尺度结构的破坏，从而显著提升后续机器视觉任务（如特征匹配与目标识别）的精度与鲁棒性.Shindo等^［23］将SAM（segment anything model）的边缘生成能力与压缩结合，提出了一种高效的面向机器视觉任务的图像压缩框架.综上，CTA范式在高码率下可以获得良好的机器任务分析性能.然而，压缩算法通常是以符合人类视觉特性为目标而设计，并非面向机器视觉任务设计，导致该算法无法满足后续机器视觉任务的性能需求^［24］.

2 机器视觉任务驱动的压缩网络

本文提出的机器视觉任务驱动的医学图像压缩网络MVMICNet结构如图1所示.该网络采用端到端的方式，将图像压缩与机器视觉任务依次串联.在整个框架中，未添加任何增强模块，仅通过调整损失函数和训练策略来实现整体优化的目标.为统一优化图像编码算法和机器视觉任务的性能，MVMICNet改进了任务感知损失函数

L t a s k

，并设计了相应的码率-准确率损失函数，详细内容如下文所示.

2.1 机器视觉任务驱动的医学图像编码框架

MVMICNet将图像压缩、机器视觉任务两部分串联起来，实现端到端联合优化的目的.具体地，图像压缩部分采用自编码器^［4］与超先验模型^［5］相结合的结构.输入图像

x

经过自编码器转换为隐变量特征

y

，随后经过量化、熵编码等操作，为后续的图像重建与视觉任务分析奠定基础.但要对压缩编码过程进行码率优化，就需要1种针对网络参数可微的码流估计方法，且能对

y

的概率进行准确建模以提高熵编码效率，从而实现更高的压缩效率.

为减少隐变量的编码冗余，提高熵编码效率，MVMICNet引入了超先验模型.该分支可以对压缩特征

y

的空间信息进行进一步分析理解，从而推理出

y

的概率分布.图1中的超先验分支是1个小型的自编码器，由超先验编码器、量化操作、熵编码操作和超先验解码器组成.图像压缩编码器输出的特征

y

，经过包含3个下采样层的超先验编码器，获得其边信息

z

后，再进行量化、熵编码与熵解码得到

z^

，并将其作为超先验解码器的输入来估算

y

的概率分布.超先验解码器的输出结果

y

可以近似为标准差

σ

的高斯分布，利用

σ

对隐变量特征

y^

进行建模，

y^

中各值的概率近似地遵循均值为0，方差为

σ 2

的高斯分布，即

G a u s s i a n (0, σ 2)

，如式（1）所示：

f x | 0, σ = 1 2 π σ 2 e x p - x 2 2 σ 2 .

(1)

在反向传播的过程中，边信息

z^

的均值不断减小，逐渐趋近于零，从而实现对码率的优化与压缩效率的提升.同时，经过量化、熵编码、熵解码后的特征

y^

输入解码器，可以重建图像

x^

，作为机器视觉任务网络的输入.

本文将机器视觉任务网络级联在深度图像编码框架之后而不进行网络结构的修改，因此所提的方法对于不同的下游机器视觉任务是有通用性的.

2.2 任务感知损失函数

图像压缩任务通常被视作一个码率失真优化（rate distortion optimization，RDO）问题，即

J = λ D + R

.其中，

R

为压缩后的比特率，

D

为重建图像与原始图像之间的失真程度，

λ

为平衡R和D权重的拉格朗日乘子，

J

为联合优化的目标函数.该公式反映出比特率与失真程度之间的权衡关系，编码需要的比特数越多，图像重建的失真程度就越小，反之亦然.通常，RDO问题通过在预设的一组

λ

值下进行多次反向传播迭代求解，从而获得在不同压缩率下的最优平衡.然而，对原始医学图像进行机器视觉任务分析时，虽然可以获得高精度的视觉任务性能，但是原始图像经过下采样、编码、解压重建后带来的失真会降低视觉任务的性能.因此，这种单一率失真优化方式无法适用于机器视觉任务驱动的医学图像压缩.

因此，本文引入任务感知损失函数

L t a s k

，在传统率失真损失函数的基础上进行改进，实现对压缩码率与下游视觉任务准确率之间的联合优化，可以表示为

L t a s k = ∑ i = 1 m ∑ j = 1 n M (x i, j) - M (x^i, j) 2 m × n .

(2)

其中：

M ·

表示框架中编解码器下游的机器视觉任务网络的输出；

x

和

x^

分别表示原始图像和重建图像；

m

和

n

分别表示图像的长和宽.

改进后的码率-准确率优化损失函数（L_stage1）可以表示为

L s t a g e 1 = λ 1 D + R + λ 2 L t a s k .

(3)

其中：

λ 1

和

λ 2

分别表示图像失真和下游任务准确率在模型优化中的权重参数.

码率-准确率优化损失函数可以平衡图像压缩率和下游任务准确率之间的关系.这种优化方式有助于根据不同机器视觉任务的需求，有针对性地优化图像压缩算法.

2.3 针对特定任务的分阶段优化模式

为了同时优化图像压缩和机器视觉2种不同类型的任务，该框架采用了分阶段的训练方式.在第一阶段，采用式（3）作为损失函数，优化码率-准确率，获得高质量的重建图像，其对应的机器视觉任务性能逼近原始图像所对应的性能.在训练过程收敛后，MVMICNet保存网络参数，采用有监督的训练方式优化机器视觉任务的性能，结构如图2所示.第二阶段，根据不同机器视觉任务的特点，MVMICNet以图像压缩网络的有损重建图像为输入，加入有监督的标签数据作为引导信息，使用交叉熵损失函数（L_stage2）进行训练，可以表示为

L s t a g e 2 = - 1 N ∑ k ∑ c = 1 M s k c l o g p k c .

(4)

其中：

N

表示样本的数量；

k

表示第

k

个样本；

M

表示类别的数量；

c

表示类别，且

c = 1,2, ⋯, M ； s k c

为0或1，当

s k c = 1

表示第

k

个样本的预测类别与真实标签图像的类别

c

相同，否则为0；

p k c

表示第

k

个样本属于类别

c

的概率.

3 实验结果与分析

3.1 实验设置

本文第一阶段的训练数据集由Flickr.com^［6］提供的20 745张自然图像组成，用于预训练图像压缩模块以学习通用的图像表示能力.码率-准确率优化损失函数如式（3）所示，其中，

λ 1

用于控制重建图像码率和失真的平衡，分别取128，256，1 024和2 048，以训练对应不同码率的压缩模型，

λ 2

设置为0.000 1.本文采用Adam优化器进行模型训练，以保证训练过程的稳定性和收敛效率.第一阶段迭代训练

2 × 106

次，其中前

1.8 × 106

次迭代的学习率固定为0.000 1，以确保模型能够充分学习图像压缩任务的基本特征；在随后的

2 × 105

次迭代中，将学习率下调至原先的1/10，以实现训练的精细调整和收敛，提升模型的泛化能力.本文所有实验均在基于 PyTorch 框架的环境中完成，硬件平台为配备11 GB显存的 NVIDIA GeForce RTX 2080 Ti显卡.针对第二阶段的训练，本文根据不同的视觉任务特点灵活调整参数设置，结合任务特有的损失函数和训练策略，进一步提升模型在下游视觉分析任务中的表现，具体如下文所示.

1）语义分割任务.当验证MVMICNet在语义分割方面的性能时，该框架在第二阶段采用结肠镜图像息肉分割数据集CVC-ColonDB^［25］的训练集和测试集，该数据集包含分辨率为574像素×500像素的原始图像以及相应的图像掩模.训练集和测试集分别包含303张和37张结肠镜图像.本文通过数据预处理将原始图像的分辨率统一设置为352像素×352像素.本文在第二阶段选择Mask R-CNN^［26］作为下游语义分割任务的主干模型.在该阶段训练过程中，固定图像压缩网络的参数，仅对语义分割网络进行参数微调.模型共训练30个轮次，以获得最终优化后的语义分割模型.

2）目标检测任务.当验证MVMICNet在目标检测任务方面的性能时，该框架在第二阶段采用胸部X光目标检测数据集ChestX-Det^［27］.该数据集涉及13个类别的像素标注，分别为Atelectasis，Calcification，Cardiomegaly，Consolidation，Diffuse Nodule，Effusion，Emphysema，Fibrosis，Fracture，Mass，Nodule，Pleural Thickening和Pneumothorax.整个数据集分成训练集和测试集共3 500多张高分辨率胸部X光片，所有图像均来自公立医院临床采集.本文选用的目标检测模型为Faster R-CNN^［28］.同样，在第二阶段，固定压缩网络的参数，开放目标检测网络的参数，微调50个轮次，以得到最终的目标检测模型.

3.2 性能评估

本文对比算法采用传统CTA范式，输入的原始图像经过BPG，MBT2018-Mean^［29］和Cheng2020-Anchor^［30］算法压缩后，再解码重建图像用于分析机器视觉任务的性能.本文对比算法通过不同量化系数q值来控制码率范围，而MVMICNet通过不同

λ 2

值来控制码率范围.本文采用峰值信噪比（peak signal to noise ratio，PSNR）和多尺度结构相似性（multi-scale structural similarity，MS-SSIM）作为评估重建图像的客观指标.PSNR越高、MS-SSIM越接近1，通常表示重建图像与原始图像之间的失真越小，重建质量越高.本文以语义分割和目标检测任务2种机器视觉任务为例，验证MVMICNet的性能.其中，对于语义分割任务，本文采用类平均交并比（mean intersection over union，mIoU）作为主要评价指标.mIoU衡量网络预测的分割区域与真实标注区域之间的重叠程度，定义为二者交集与并集的比值，并在所有类别上进行平均，反映整体分割精度.对于目标检测任务，本文采用平均精度平均值（mean average precision，mAP）作为主要评价指标，表示所有类别检测精度的平均值，可全面评估模型的检测性能.最后，本文使用每个像素的比特数（bits per pixel，Bpp）来评估图像压缩所需的码率.

表1展示了MVMICNet在CVC-ColonDB测试集上的PSNR，MS-SSIM和mIoU的比较结果.可以看出，在相似比特数（Bpp）情况下，MVMICNet比BPG，MBT2018-Mean和Cheng2020-Anchor算法均有提升.例如，在Bpp=0.065时，MVMICNet仅经过1个阶段训练获得的语义分割精度mIoU就比利用BPG在Bpp=0.132获得的mIoU更高.图3对比了不同算法的码率-准确率曲线.其中，虚线部分表示在原始图像（未经压缩）上执行语义分割任务所获得的基准精度，用以作为各压缩方法的参考上限，而采用BPG，MBT2018-Mean和Cheng2020-Anchor压缩的CTA范式获得的分割精度与原始图像的分割精度差距很大.MVMICNet不仅可以获得良好的图像压缩性能，而且可以保持有损重建图像的语义分割精度.

图4为不同算法的分割图像对应的可视化结果.MVMICNet获得的分割效果可以清晰地分辨出结肠息肉及具体轮廓，能够比BPG和Cheng2020-Anchor压缩算法取得更好的分割效果，从而验证了本文所提算法的有效性.

图5为不同算法在CVC-ColonDB数据集上对同1张图像的重建结果.在相近的压缩比下，BPG和Cheng2020-Anchor压缩算法出现了块效应，而MVMICNet获得的重建效果逼近原图，能够比其他压缩算法取得更好的重建效果.

在ChestX-Det数据集上，目标检测性能的对比结果如表2和表3所示.图3用曲线图展示了当IoU=0.50∶0.95，0.50和0.75时，对比算法BPG，MBT2018-Mean，Cheng2020-Anchor，MVMICNet第一阶段和第二阶段在ChestX-Det数据集上的结果.原始图像对应的目标检测精度分别为0.139 1，0.302 6和0.111 8，如图中虚线所示.无论是在低码率还是高码率情况下，BPG，MBT2018-Mean和Cheng2020-Anchor压缩算法对应的目标检测精度都明显低于原始图像以及MVMICNet第一阶段和第二阶段对应的精度.MVMICNet在低比特率情况下的目标检测精度低于原始图像，但随着比特率的升高，检测精度逐渐上升.在高比特率下，MVMICNet获得的检测精度接近于原始图像对应的精度.图6为不同算法在ChestX-Det数据集上的1张图片目标检测可视化比较结果.在相近的压缩率下，BPG和Cheng2020-Anchor压缩算法仅检测出了类别Effusion 并且置信度均低于MVMICNet第一阶段和第二阶段.相较于MVMICNet第一阶段，MVMICNet第二阶段检测出了类别Effusion和Consolidation，检测框位置几乎与原图一致并且置信度逼近原图，验证了MVMICNet第二阶段训练的必要性.综上所述，MVMICNet在保证图像压缩率失真性能的前提下，能够有效保持医学图像中目标检测任务的高精度表现，体现了该网络在图像压缩与下游视觉任务间的深度联合优化能力.通过联合训练和任务感知的损失函数设计，MVMICNet不仅提升了压缩效率，还显著增强了重建图像的语义信息保留，从而满足了医学图像智能分析对图像质量和任务性能的双重需求.

图7为不同算法在ChestX-Det数据集上对同1张图像的重建结果.在相近的压缩率下，BPG和Cheng2020-Anchor压缩算法出现了较多的模糊伪影，而MVMICNet获得的重建效果逼近原图，能够比其他压缩算法取得更好的重建效果.

3.3 消融实验

1）任务感知损失函数权重选择.为了验证参数

λ 2

对语义分割任务性能的影响，本节设置了相应的消融实验，如表4所示.为了控制变量，本节固定权重参数

λ 1

为256，并分别选择4个不同的

λ 2 = [0.1,0.001,0.000 1,0.000 01]

进行训练.

本实验使用不同

λ 2

的值通过式（3）对MVMICNet进行优化，并在训练得到的图像压缩模型上使用Cityscapes验证集^［31］进行验证以确定最佳的

λ 2

权重.实验结果如表4所示.值得一提的是，本文使用的语义分割模型ERFNet^［32］利用未经压缩的Cityscapes验证集进行语义分割任务时，mIoU为72.62%.实验结果验证了不同数量级的

λ 2

对模型在图像压缩精度和语义分割任务精度上均有显著影响，具体表现在图像压缩的率失真性能与语义分割任务的精度之间的权衡关系上.当

λ 2

值较大时，模型训练过程中语义分割任务的梯度权重较高，导致模型更偏重分割任务的优化，然而这种倾斜会导致图像压缩的率失真性能下降，表现为重建图像的压缩效率降低和失真增加；反之，

λ 2

值过小时，模型更侧重于重建图像的质量优化，率失真性能得到提升，但同时难以有效保证语义分割任务的精度.综合考虑，实验验证

λ 2

取0.000 1能较好地平衡两者之间的矛盾，使得模型在保证良好图像压缩性能的同时，兼顾了下游语义分割任务的精度需求.此外，第二阶段的有监督训练进一步提升了MVMICNet在语义分割任务中的适应性与泛化能力，使其最终表现几乎达到未经压缩的原始图像水平，充分展示了联合优化策略在实际应用中的有效性与优势.

2）针对特定任务的分阶段优化消融实验.在第二阶段训练中，结合机器视觉任务的具体需求，加入有监督的标签数据，利用该任务原本设计的损失函数进行优化，以提升模型在下游任务中的性能表现.为此，本节的消融实验用于验证分阶段训练策略优化的重要性与可行性.表1和表2分别展示了MVMICNet在2个下游机器视觉任务中的性能对比，包括仅进行第一阶段训练策略优化与完成两阶段训练策略优化的结果.实验结果显示，单纯进行第一阶段训练时，模型在保证压缩率和失真之间达到一定平衡的同时，机器视觉任务的性能存在一定程度的下降，说明仅靠率失真优化难以充分兼顾下游视觉任务需求.引入第二阶段训练后，通过结合任务相关的有监督标签信息及其专用损失函数，模型进一步调整压缩特征以更好适应视觉任务，从而显著提升了语义分割和目标检测的精度.

4 结语

本文提出了机器视觉任务驱动的医学图像压缩网络MVMICNet，通过构建端到端的联合优化框架，创新性地实现了图像压缩与视觉分析任务的深度协同与和谐统一，突破了传统处理流程中压缩与分析相互割裂的局限.相应地，本文设计了码率-准确率损失函数，能够自适应地保留对视觉任务至关重要的诊断特征.针对不同任务，本文设计了分阶段优化策略，提高压缩场景下多个机器视觉任务的性能.实验结果表明，MVMICNet在保证压缩率失真性能的前提下，能够保持甚至提升机器视觉任务的性能.验证了压缩与视觉任务联合优化的可行性，为医学图像智能处理提供了新的技术范式.

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	Wallace G K. The JPEG still picture compression standard［J］. IEEE Transactions on Consumer Electronics， 1992， 38（1）： 18-34.

[2]	Christopoulos C， Skodras A， Ebrahimi T. The JPEG2000 still image coding system： an overview［J］. IEEE Transactions on Consumer Electronics， 2000， 46（4）： 1103-1127.

[3]	Sullivan G J， Ohm J R， Han W J， et al. Overview of the high efficiency video coding （HEVC） standard［J］. IEEE Transactions on Circuits and Systems for Video Technology， 2012， 22（12）： 1649-1668.

[4]	Ballé J， Laparra V， Simoncelli E P. End-to-end optimized image compression［C］// Proceedings of the International Conference on Learning Representations. Toulon，2017： 1611.01704.

[5]	Ballé J， Minnen D， Singh S， et al. Variational image compression with a scale hyperprior［C］// Proceedings of International Conference on Learning Representations. Vancouver， 2018： 1802.01436.

[6]	Liu J H， Lu G， Hu Z H， et al. A unified end-to-end framework for efficient deep image compression［EB/OL］. （2020-02-09）［2025-05-10］.

[7]	乔思波，庞善臣，王敏，等. 基于残差混合注意力机制的脑部CT图像分类卷积神经网络模型［J］. 电子学报， 2021， 49（5）： 984-991.

[8]	Qiao Si-bo， Pang Shan-chen， Wang Min， et al. A convolutional neural network for brain CT image classification based on residual hybrid attention mechanism［J］. Acta Electronica Sinica， 2021， 49（5）： 984-991.

[9]	张诗源，赵桐溪，戚飞越，等. 基于小波变换的智能生物医学图像分类算法［J］. 应用数学进展， 2025（3）： 16-25.

[10]	Zhang Shi-yuan， Zhao Tong-xi， Qi Fei-yue， et al. Intelligent biomedical image classification algorithm based on wavelet transform［J］. Advances in Applied Mathematics， 2025（3）： 16-25.

[11]	江贵平，秦文健，周寿军，等. 医学图像分割及其发展现状［J］. 计算机学报， 2015， 38（6）： 1222-1242.

[12]	Jiang Gui-ping， Qin Wen-jian， Zhou Shou-jun， et al. Medical image segmentation and its development status［J］. Chinese Journal of Computers， 2015， 38（6）： 1222-1242.

[13]	周涛，董雅丽，霍兵强，等. U-Net网络医学图像分割应用综述［J］. 中国图象图形学报， 2021， 26（9）： 2058-2077.

[14]	Zhou Tao， Dong Ya-li， Huo Bing-qiang， et al. U-Net and its applications in medical image segmentation： a review［J］. Journal of Image and Graphics， 2021， 26（9）： 2058-2077.

[15]	刘飞，张俊然，杨豪. 基于深度学习的医学图像识别研究进展［J］. 中国生物医学工程学报， 2018， 37（1）： 86-94.

[16]	Liu Fei， Zhang Jun-ran， Yang Hao. Research progress of medical image recognition based on deep learning［J］. Chinese Journal of Biomedical Engineering， 2018， 37（1）： 86-94.

[17]	苏华强，雷海军，雷柏英. 多分支特征融合分类网络用于CXR图像识别［J］. 信号处理， 2025， 41（2）： 253-266.

[18]	Su Hua-qiang， Lei Hai-jun， Lei Bai-ying. Multi-branch feature fusion classification network for chest X-ray image recognition［J］. Journal of Signal Processing， 2025， 41（2）： 253-266.

[19]	Duan L Y， Liu J Y， Yang W H， et al. Video coding for machines： a paradigm of collaborative compression and intelligent analytics［J］. IEEE Transactions on Image Processing， 2020， 29： 8680-8695.

[20]	Wang S R， Wang Z， Wang S Q， et al. End-to-end compression towards machine vision： network architecture design and optimization［J］. IEEE Open Journal of Circuits and Systems， 2021， 2： 675-685.

[21]	Girod B， Chandrasekhar V， Chen D M， et al. Mobile visual search［J］. IEEE Signal Processing Magazine， 2011， 28（4）： 61-76.

[22]	王凯. 基于双分支特征融合的高动态范围医学影像压缩研究［D］. 哈尔滨：哈尔滨工业大学， 2022.

[23]	Wang Kai. High dynamic range medical image compression based on two-branch feature fusion ［D］. Harbin： Harbin Institute of Technology， 2022.

[24]	Herbert R， Tuytelaars T， Gool L V. SURF： speeded up robust features［C］// Proceedings of the European Conference on Computer Vision. Graz， 2006： 404-417.

[25]	Redondi A， Cesana M， Tagliasacchi M. Rate-accuracy optimization in visual wireless sensor networks［C］//The 19th IEEE International Conference on Image Processing. Orlando， 2013： 1105-1108.

[26]	Liu L， Chen Z H， Hu Z H， et al. An efficient adaptive compression method for human perception and machine vision tasks［EB/OL］. （2025-01-08）［2025-05-10］.

[27]	李基臣，亓玉龙，胡海瑞，等. 数字图像处理技术在医学影像中的研究与应用［J］. 电子技术与软件工程， 2022（9）： 194-197.

[28]	Li Ji-chen， Qi Yu-long， Hu Hai-rui， et al. Research and application of digital image processing technology in medical images［J］. Electronic Technology & Software Engineering， 2022（9）： 194-197.

[29]	Zabala A， Pons X. Effects of lossy compression on remote sensing image classification of forest areas［J］. International Journal of Applied Earth Observation and Geoinformation， 2011， 13（1）： 43-51.

[30]	Chao J S， Steinbach E. Preserving SIFT features in JPEG-encoded images［C］//The 18th IEEE International Conference on Image Processing. Brussels， 2011： 301-304.

[31]	Shindo T， Yamada K， Watanabe T， et al. Image coding for machines with edge information learning using segment anything［C］// IEEE International Conference on Image Processing （ICIP）. Abu Dhabi， 2024： 3702-3708.

[32]	Paniga S， Borsani L， Redondi A， et al. Experimental evaluation of a video streaming system for wireless multimedia sensor networks［C］// The 10th IFIP Annual Mediterranean Ad Hoc Networking Workshop. Favignana Island， 2011： 165-170.

[33]	Bernal J， Sánchez J， Vilariño F. Towards automatic polyp detection with a polyp appearance model［J］. Pattern Recognition， 2012， 45（9）： 3166-3182.

[34]	He K M， Gkioxari G， Dollár P， et al. Mask R-CNN［C］// IEEE International Conference on Computer Vision. Venice， 2017： 2980-2988.

[35]	Liu J Y， Lian J， Yu Y Z. ChestX-Det10： chest X-ray dataset on detection of thoracic abnormalities［EB/OL］. （2020-06-17）［2025-05-10］.

[36]	Ren S Q， He K M， Girshick R， et al. Faster R-CNN： towards real-time object detection with region proposal networks［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2017， 39（6）： 1137-1149.

[37]	Minnen D， Ballé J， Toderici G. Joint autoregressive and hierarchical priors for learned image compression［EB/OL］. （2018-09-08）［2025-05-10］.

[38]	Cheng Z X， Sun H M， Takeuchi M， et al. Learned image compression with discretized Gaussian mixture likelihoods and attention modules［C］//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle， 2020： 7936-7945.

[39]	Cordts M， Omran M， Ramos S， et al. The cityscapes dataset for semantic urban scene understanding［C］//IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas， 2016： 3213-3223.

[40]	Romera E， Álvarez J M， Bergasa L M， et al. ERFNet： efficient residual factorized ConvNet for real-time semantic segmentation［J］. IEEE Transactions on Intelligent Transportation Systems， 2018， 19（1）： 263-272.