PDF
摘要
第三方软件系统在现代软件开发过程中有着重要的作用.软件开发人员根据需求,在第三方软件库中检索合适的依赖库来构建软件,可避免许多重复工作,加快开发过程.然而,检索第三方依赖库的过程可能会很困难.通常第三方软件库提供预设的标签(类别)给软件开发人员进行查找,但是如果一个软件的预设标签被错误地标注,软件开发人员就无法查找到其需要的库,这势必会影响开发过程.提出了一种软件分类模型来解决上述挑战,模型结合方法向量、方法重要性和文本向量,将未知类别的软件分类到已知类别.鉴于此问题尚未有公开的数据集,为此建立了一个数据集并公开,此数据集包含来自Maven存储库的30种类别的120个软件系统.在此自建数据集上对提出的分类模型进行了测试,预测类别的准确度对于1个候选者的情况(top-1)为70%,对于3个候选者的情况(top-3)则达到了90%.实验结果表明,所提模型可以有效用于对开源存储库中的软件系统分类,辅助软件开发人员快速查找第三方库.
关键词
Key words
基于代码和描述文本相融合的软件分类研究[J].
华东师范大学学报(自然科学版), 2025, 0(1): 46-58 DOI: