基于Transformer的报纸版面分割方法研究

朱一凡; 高华; 业宁

doi:CNKI:SUN:NJSF.0.2025-01-014

南京师大学报（自然科学版） ›› 2025, Vol. 48 ›› Issue (01) : 109 -118. DOI: CNKI:SUN:NJSF.0.2025-01-014

基于Transformer的报纸版面分割方法研究

朱一凡, 高华, 业宁

作者信息 +

Author information +

文章历史 +

PDF

摘要

大数据背景下信息的检索与研究对海量传统纸媒的数字化提出了挑战，得益于不断发展的计算机视觉与人工智能方法，DETR模型可被应用于报纸版面分割.针对原模型在版面分割中存在的检测速度慢、参数量大及分类不精准等问题，本文提出了采用ShuffleNet V2轻量级主干网络的改进模型，该方法可有效提升计算效率并减少模型参数量，从而缓解Transformer结构的计算压力.同时，通过特征金字塔结构，该模型能够充分融合全局信息及细节信息，显著增强多尺度目标的识别能力.此外，该模型还引入高效通道注意力（ECA）模块来提取关键目标特征，以此有效抑制无关背景信息，在保证分割性能的同时实现轻量化设计.实验结果表明，改进模型在报纸版面分割任务中的参数量为38.5 M,帧率（FPS）高达47.5 img/s, mAP_0.5达到了0.806.与原DETR模型相比，改进模型在参数量上减少了2.8 M,帧率提高了28.3 img/s, mAP_0.5提升了3.2%.本文提出的模型还可以为报纸版面的OCR识别提供前期技术支持.