PDF
摘要
电力系统继电保护定值单在继电保护设备运行维护中具有关键作用,在定值单信息化过程中,由于大量定值单以扫描件或照片形式保存,不同厂商设备定值单布局与字段名称不统一,难以通过传统光学字符识别(optical character recognition, OCR)等方法实现信息抽取。为此,提出一种基于PaddleOCR的定值单信息抽取方法,首先利用可微分二值化网络(differentiable binarization network, DBNet)完成文本区域检测,通过CRNN-CTC模型提取文本内容,获得定值名称、参数、单位等基础字段,在此过程中,针对定值单语义专业性强、结构复杂的特点,引入多模态预训练模型LayoutXLM实现语义实体识别(semantic entity recognition, SER)。随后采用PaddleOCR中的图神经网络(graph neural network, GNN)执行关系抽取(relation extraction, RE),推断实体间的逻辑关联,生成包含实体ID、标签及文本内容的结构化关联数据。为保证SER与RE训练效果,使用PPOCRLabel完成文本块标注,并通过编号方式结合代码自动生成实体linking关系,构建用于训练的完整数据集。实验结果表明,该方法在复杂版式及低质量图像条件下仍能稳定识别关键字段,并准确重建定值单内部的语义结构,实现非结构化文档向结构化数据的高效转换。
关键词
Key words
基于PaddleOCR的电力系统继电保护定值单信息抽取方法[J].
自动化技术与应用, 2026, 45(4): 110-115 DOI:10.20033/j.1003-7241.(2026)04-0110-06