结合论文施引特征和分布式检索技术的引文耦合度算法设计

郭锐锋, 常志军, 董美, 张建勇, 钱力, 董智鹏

小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (02) : 297 -304.

PDF
小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (02) : 297 -304. DOI: 10.20009/j.cnki.21-1106/TP.2023-0492

结合论文施引特征和分布式检索技术的引文耦合度算法设计

    郭锐锋, 常志军, 董美, 张建勇, 钱力, 董智鹏
作者信息 +

Author information +
文章历史 +
PDF

摘要

大规模科技文献知识库的全量引文耦合关系因计算量巨大的难题,阻碍了引文耦合知识服务在诸多业务场景的应用.本文提出了一种适用于大规模文献知识库的全量引文耦合度计算算法,根据施引特征过滤没有耦合关系的无效组合,避免计算过程中稀疏矩阵的产生,并引入多模式匹配技术,优化算法的整体时间复杂度为O(n log z).本算法在生产环境中依赖分布式搜索引擎集群完成工程化实施.在国家科技图书文献中心的3600万篇科技文献数据库上,对该方法与传统引文耦合方法进行了多组实验对比,并生成了6.59亿论文对的耦合度数据,为国家科技图书文献中心的引文耦合知识服务提供了数据支持,验证了该方法的准确性和实用性.

关键词

引文耦合度 / 分布式搜索引擎 / 稀疏矩阵 / 施引特征 / 多模式匹配

Key words

引用本文

引用格式 ▾
结合论文施引特征和分布式检索技术的引文耦合度算法设计[J]. 小型微型计算机系统, 2025, 46(02): 297-304 DOI:10.20009/j.cnki.21-1106/TP.2023-0492

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

46

访问

0

被引

详细

导航
相关文章

AI思维导图

/