基于代码和描述文本相融合的软件分类研究

陈宇航, 王世宙, 汤正婷, 陈良育, 姜宁康

华东师范大学学报(自然科学版) ›› 2025, Vol. 0 ›› Issue (1) : 46 -58.

PDF
华东师范大学学报(自然科学版) ›› 2025, Vol. 0 ›› Issue (1) : 46 -58.

基于代码和描述文本相融合的软件分类研究

    陈宇航, 王世宙, 汤正婷, 陈良育, 姜宁康
作者信息 +

Author information +
文章历史 +
PDF

摘要

第三方软件系统在现代软件开发过程中有着重要的作用.软件开发人员根据需求,在第三方软件库中检索合适的依赖库来构建软件,可避免许多重复工作,加快开发过程.然而,检索第三方依赖库的过程可能会很困难.通常第三方软件库提供预设的标签(类别)给软件开发人员进行查找,但是如果一个软件的预设标签被错误地标注,软件开发人员就无法查找到其需要的库,这势必会影响开发过程.提出了一种软件分类模型来解决上述挑战,模型结合方法向量、方法重要性和文本向量,将未知类别的软件分类到已知类别.鉴于此问题尚未有公开的数据集,为此建立了一个数据集并公开,此数据集包含来自Maven存储库的30种类别的120个软件系统.在此自建数据集上对提出的分类模型进行了测试,预测类别的准确度对于1个候选者的情况(top-1)为70%,对于3个候选者的情况(top-3)则达到了90%.实验结果表明,所提模型可以有效用于对开源存储库中的软件系统分类,辅助软件开发人员快速查找第三方库.

关键词

软件分类 / 第三方软件系统 / 方法重要性分数 / code2vec

Key words

引用本文

引用格式 ▾
基于代码和描述文本相融合的软件分类研究[J]. 华东师范大学学报(自然科学版), 2025, 0(1): 46-58 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

1

访问

0

被引

详细

导航
相关文章

AI思维导图

/