融合场景多模态先验与稀疏注意力的文本图像超分辨率

周颖; 易尧华; 余长慧; 饶杨莉; 王颖洁

doi:10.13878/j.cnki.jnuist.20250413001

南京信息工程大学学报 ›› 2026, Vol. 18 ›› Issue (3) : 310 -320. DOI: 10.13878/j.cnki.jnuist.20250413001

融合场景多模态先验与稀疏注意力的文本图像超分辨率

周颖, 易尧华, 余长慧, 饶杨莉, 王颖洁

作者信息 +

Author information +

文章历史 +

摘要

受复杂背景、模糊、扭曲及变形等因素的影响，从低分辨率文本图像中恢复高分辨率图像极具挑战性．现有方法多依赖递归神经网络提取文本上下文信息，在捕捉长距离依赖及有效运用语义信息方面存在局限．为解决上述问题，本文提出一种融合场景多模态先验与稀疏注意力的文本图像超分辨率方法．首先，创新性地提出场景多模态先验分支，借助先进的内容解析单元和轮廓感知单元，充分挖掘并利用文本识别信息与视觉信息．其次，基于稀疏注意力的超分辨率增强模块从文本行提取上下文信息，并利用多头注意力机制的全局可见性构建字符间相关性，缓解处理长文本序列时的性能衰退．最后，引入结合梯度轮廓和文本结构感知的联合损失函数，显著增强模型提取文本轮廓及处理变形文本方面的能力．实验结果表明，相较于基线模型TATT，本文方法在TextZoom测试集的识别准确率平均提升4.3个百分点，平均峰值信噪比和结构相似性指数指标分别达到21.4 dB与0.790 9，提升了真实场景文本图像超分辨率的性能．