强化文本长程依赖和多特征融合的重复软件缺陷报告检测方法

谢琪; 刘彦辰

西南民族大学学报（自然科学版） ›› 2025, Vol. 51 ›› Issue (03) : 298 -307.

谢琪, 刘彦辰

作者信息 +

Author information +

文章历史 +

PDF

摘要

自动重复软件缺陷检测是缺陷处理流程中的关键环节，其性能直接影响缺陷解决的整体效率.针对现阶段研究中预训练模型的长度限制问题和特征单一问题，提出一种强化文本长程依赖和多特征融合的重复软件缺陷报告检测方法.该方法通过结合BiLSTM-Attention机制与Longformer预训练模型，增强对篇章级文本的长程语义信息捕捉能力，从而提取更准确的语义相似度特征.其次，针对结构化元数据类别信息，构建特征提取网络以抽取类别相似度特征.最终，将上述特征与词组重叠特征融合后训练分类模型，以实现高效的重复缺陷报告检测.通过在Bugzilla、JIRA和GitHub平台的Eclipse、NetBeans、OpenOffice、Hadoop和VSCode项目上进行实验，结果表明，与基线方法相比，所提方法在F1分数和Accuracy上分别平均提升了2.40%和2.12%,在跨平台场景下实现了更优的检测性能.