PDF
摘要
开发者地理位置信息对理解全球开源活动分布和制定区域政策具有重要意义.然而, GitHub平台上存在大量开发者账户缺失地理位置信息,因而限制了对全球开源生态系统地理分布的全面分析.提出了一种基于多维特征融合的层次化地理位置预测框架,通过整合时间行为、语言文化、网络特征这3大类多维特征,构建了规则驱动快速定位、姓名文化推断、时区交叉验证、深度学习集成的4层递进预测机制.基于50 000名全球活跃开发者构建的大规模数据集的实验表明,该方法成功预测了82.52%开发者的地理位置信息.其中,姓名文化推断层覆盖用户最多,准确率达到了0.762 9;深度学习集成层处理最复杂案例,准确率为0.755 7.通过对比Moonshot大语言模型的预测结果,验证了该方法在复杂地理推断任务中的优势.
关键词
Key words
基于多维特征融合的GitHub开发者地理位置预测[J].
华东师范大学学报(自然科学版), 2025, 0(5): 1-13 DOI: