基于数据增强和大语言模型的缺陷定位方法

崔梦天; 周璇; 谢琪; 胡艳翠

doi:10.26978/j.cnki.xnmdzk.2026.01.07

西南民族大学学报（自然科学版） ›› 2026, Vol. 52 ›› Issue (1) : 60 -69. DOI: 10.26978/j.cnki.xnmdzk.2026.01.07

基于数据增强和大语言模型的缺陷定位方法

崔梦天, 周璇, 谢琪, 胡艳翠

作者信息 +

Author information +

文章历史 +

PDF

摘要

软件缺陷定位是软件开发中的关键环节，直接影响软件质量和维护效率.随着软件系统复杂性的增加，传统缺陷定位方法在处理代码的非线性结构和深层次语义信息时面临挑战.针对该问题，提出了一种基于数据增强和大语言模型的软件缺陷定位方法CLBDL,旨在解决代码标准粒度失配和长距离依赖问题.该方法通过融合Code Llama词表扩展CodeBERT的词汇覆盖，增强对编程语言特有结构和标识符的建模能力，并结合无监督聚类策略和Qwen2-7B-Instruct大语言模型进行数据增强的对比学习，有效提升模型在复杂上下文的语义关联捕捉能力.实验表明，CLBDL在多个数据集上的Recall、MRR和MAP等评估指标上均优于现有方法，提高了缺陷定位的准确性和效率.