高被引学者学术影响力预测:多源数据融合的可解释性机器学习研究

潘瑾琼

doi:10.16009/j.issn.1009-5624.2026.01.040

信息记录材料 ›› 2026, Vol. 27 ›› Issue (1) : 123 -126. DOI: 10.16009/j.issn.1009-5624.2026.01.040

高被引学者学术影响力预测:多源数据融合的可解释性机器学习研究

潘瑾琼

作者信息 +

Author information +

文章历史 +

PDF

摘要

针对当前学术影响力预测方法精度不足且缺乏可解释性的问题，本文以339名中国高被引学者为研究对象，通过采集引文索引类数据库（Wo S）、机构网站等多源数据，构建了一种包含社会特征和出版引用特征的多维预测框架，运用支持向量回归、梯度提升回归等7种机器学习算法预测学者总被引量。研究结果表明:极端梯度提升（XGB）模型经特征优化后达到最佳性能，R²值达到0.73。沙普利加性解释（SHAP）分析揭示，除学科影响外，平均影响因子、学术年龄和主题变化是决定总被引量的三大核心因素。此外，研究发现化学、材料科学、地理科学等学科的学者具有更高的被引潜力。本研究为学者提升学术影响力提供量化依据，为构建多元化学术评价体系、实现精准化资源配置和个性化学者画像系统建设提供实用工具，推动科研管理和人才评价体系的优化升级。