融合机器学习和深度学习的大容量半结构化数据抽取算法

张磊, 焦晶, 李勃昕, 周延杰

吉林大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (09) : 2631 -2637.

PDF
吉林大学学报(工学版) ›› 2024, Vol. 54 ›› Issue (09) : 2631 -2637. DOI: 10.13229/j.cnki.jdxbgxb.20231214

融合机器学习和深度学习的大容量半结构化数据抽取算法

作者信息 +

Author information +
文章历史 +
PDF

摘要

由于半结构化数据具有很高的数据异构性,并且数据量巨大,不同来源的数据结构不一致,导致数据抽取的准确性和完整性较低。为此,本文将机器学习和深度学习深度融合,提出一种针对大容量半结构化数据的抽取算法。利用机器学习的主成分分析法,降低大容量半结构化数据的维度。基于深度学习的转换器网络结构,分别改进嵌入层、编码层-解码层和编码层等部分,得到用于识别数据命名实体和抽取数据实体关系的两种数据抽取算法,实现大容量半结构化数据的抽取。经测试结果验证,所提算法的正确抽取成效显著,无效数据项的最小抽取量仅有4个,且抽取复杂度较低,时效价值较高,F值和抽取时间的消融实验结果充分证明,两种技术的融合对数据抽取研究意义重大,F值始终保持在92以上,抽取时间缩短至125ms内,具备较强的可行性,为提升运营效率、优化资源配置提供重要手段。

关键词

半结构化数据 / 机器学习 / 数据容量降维 / 深度学习 / 命名实体识别 / 实体关系抽取

Key words

引用本文

引用格式 ▾
张磊, 焦晶, 李勃昕, 周延杰 融合机器学习和深度学习的大容量半结构化数据抽取算法[J]. 吉林大学学报(工学版), 2024, 54(09): 2631-2637 DOI:10.13229/j.cnki.jdxbgxb.20231214

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

33

访问

0

被引

详细

导航
相关文章

AI思维导图

/