敦煌汉文文献字符级标注方法研究与实践

周颜林, 俞天秀, 金沛然, 闫升, 雪岚

北京化工大学学报(自然科学版) ›› 2025, Vol. 52 ›› Issue (05) : 68 -75.

PDF
北京化工大学学报(自然科学版) ›› 2025, Vol. 52 ›› Issue (05) : 68 -75. DOI: 10.13543/j.bhxbzr.2025.05.007

敦煌汉文文献字符级标注方法研究与实践

    周颜林, 俞天秀, 金沛然, 闫升, 雪岚
作者信息 +

Author information +
文章历史 +
PDF

摘要

敦煌汉文文献在中华文明研究中占据重要地位,其字符级标注对于文献数字化、知识挖掘与文物保护具有重要意义。围绕敦煌经卷图像的自动化识别与标注任务,系统性地开展了数据集构建、模型训练与系统开发3个层面的研究工作。构建了一个涵盖多卷经文图像、包含字符级框注与标签信息的高质量标注数据集,为后续识别与分析任务提供基础资源。开发了一个集图像预处理、版面分析、字符识别与人工校对为一体的字符级标注系统,基于文本识别算法显著提升了标注效率与准确率。研究成果可应用于敦煌文献的整理与保护项目,为古文献录文智能处理提供了可推广的技术框架与实践经验。

关键词

敦煌文献 / 字符级标注 / 汉字识别 / 文献数字化 / 深度学习

Key words

引用本文

引用格式 ▾
敦煌汉文文献字符级标注方法研究与实践[J]. 北京化工大学学报(自然科学版), 2025, 52(05): 68-75 DOI:10.13543/j.bhxbzr.2025.05.007

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

63

访问

0

被引

详细

导航
相关文章

AI思维导图

/