基于大模型增强优化与重排序的零样本代码搜索方法

蔡天昱; 陈渝; 任俊霖; 周涛; 琚生根

doi:10.19907/j.0490-6756.250180

四川大学学报(自然科学版) ›› 2025, Vol. 62 ›› Issue (06) : 1357 -1370. DOI: 10.19907/j.0490-6756.250180

基于大模型增强优化与重排序的零样本代码搜索方法

蔡天昱, 陈渝, 任俊霖, 周涛, 琚生根

作者信息 +

Author information +

文章历史 +

PDF

摘要

零样本代码搜索需要在缺乏标注数据的陌生代码库中，依据自然语言查询迅速锁定目标片段.现有方法在零样本场景主要面临两个关键挑战：一方面，基于大模型的数据增强方法存在语义偏差问题，其生成的代码和摘要受模型自身偏好影响，易把风格相近却并非答案的代码嵌入得过于接近，令错误候选“挤掉”真正答案；这种偏差会误导开发者、放大潜在缺陷，因而成为必须纠正的问题.另一方面，预训练模型对语义相似的代码片段缺乏细粒度区分能力.为化解上述挑战，本文提出基于大模型增强优化与重排序的零样本代码搜索方法，该方法先以大模型生成同义增强，并平滑其与原查询的嵌入相似度，削弱语义偏差；再以“预训练粗排加大语言模型精排”两级重排序精确区分高相似候选代码.实验证明，在CoNaLa,MBPP,APPS,MBJP等4个数据集上，本文方法将基线模型Contriever的MRR由0.262提升至0.783,R@1由0.198提升至0.748，平均提升约为0.42，并在其他3种基线模型上均获得优势，验证了所提方法的有效性.