基于异构网络的无监督作者名称消歧

郭晨亮; 林欣; 殷玥

华东师范大学学报（自然科学版） ›› 2021, Vol. 0 ›› Issue (06) : 147 -160.

基于异构网络的无监督作者名称消歧

郭晨亮, 林欣, 殷玥

作者信息 +

Author information +

文章历史 +

PDF

摘要

作者名称消歧是构建学术知识图谱的重要步骤.由于数据缺失、人名重名、人名缩写导致论文重名现象普遍存在,针对无法充分利用信息和冷启动问题,提出了基于异构网络的无监督作者名称消歧方法,自动学习同作者论文特征.用词形还原预处理作者、机构、标题、关键词的字符,用word2vec和TF-IDF(TermFrequency–Inverse Document Frequency)方法学习文本特征嵌入表示,用元路径随机游走和word2vec方法学习结构特征嵌入表示,融合文本、结构特征相似度后用DBSCAN (Density-Based Spatial Clustering of Applications with Noise)聚类算法、合并孤立论文方法完成消歧.最终根据实验结果,模型在冷启动无监督作者名称消歧的小数据集和工程应用中优于现有模型,表明了模型有效且可以实际应用.