基于图像与文本多模态融合的银行单据识别方法

冯海, 陈宁江, 胡亮青, 农锦华

广西大学学报(自然科学版) ›› 2025, Vol. 50 ›› Issue (06) : 1347 -1357.

PDF
广西大学学报(自然科学版) ›› 2025, Vol. 50 ›› Issue (06) : 1347 -1357. DOI: 10.13624/j.cnki.issn.1001-7445.2025.1347

基于图像与文本多模态融合的银行单据识别方法

作者信息 +

Author information +
文章历史 +
PDF

摘要

针对传统识别方法在银行单据手写汉字形态多样、印章遮挡等复杂场景下识别率低,导致业务处理缓慢、人工复核成本增加的问题,结合人工智能领域的多模态学习技术,提出一种基于图像与文本多模态融合的3层结构识别方法。首先构建基于对比学习的单字图文对齐模型,将单字图像与偏旁序列进行精准对齐;其次利用对齐后的跨模态特征表示,对文本识别模型进行监督,从而实现对复杂手写文本图像的识别;最后构建语言修正模型,对文本识别结果进行融合纠正。实验结果表明,相较于传统方法,本文提出的方法在处理银行单据中的复杂手写场景识别率提升了5个百分点、印章遮挡场景识别率提升了2.3个百分点。

关键词

多模态融合 / 手写体字符识别 / 语言模型优化

Key words

引用本文

引用格式 ▾
冯海, 陈宁江, 胡亮青, 农锦华. 基于图像与文本多模态融合的银行单据识别方法[J]. 广西大学学报(自然科学版), 2025, 50(06): 1347-1357 DOI:10.13624/j.cnki.issn.1001-7445.2025.1347

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

27

访问

0

被引

详细

导航
相关文章

AI思维导图

/