基于大模型增强优化与重排序的零样本代码搜索方法

蔡天昱, 陈渝, 任俊霖, 周涛, 琚生根

四川大学学报(自然科学版) ›› 2025, Vol. 62 ›› Issue (06) : 1357 -1370.

PDF
四川大学学报(自然科学版) ›› 2025, Vol. 62 ›› Issue (06) : 1357 -1370. DOI: 10.19907/j.0490-6756.250180

基于大模型增强优化与重排序的零样本代码搜索方法

    蔡天昱, 陈渝, 任俊霖, 周涛, 琚生根
作者信息 +

Author information +
文章历史 +
PDF

摘要

零样本代码搜索需要在缺乏标注数据的陌生代码库中,依据自然语言查询迅速锁定目标片段.现有方法在零样本场景主要面临两个关键挑战:一方面,基于大模型的数据增强方法存在语义偏差问题,其生成的代码和摘要受模型自身偏好影响,易把风格相近却并非答案的代码嵌入得过于接近,令错误候选“挤掉”真正答案;这种偏差会误导开发者、放大潜在缺陷,因而成为必须纠正的问题.另一方面,预训练模型对语义相似的代码片段缺乏细粒度区分能力.为化解上述挑战,本文提出基于大模型增强优化与重排序的零样本代码搜索方法,该方法先以大模型生成同义增强,并平滑其与原查询的嵌入相似度,削弱语义偏差;再以“预训练粗排加大语言模型精排”两级重排序精确区分高相似候选代码.实验证明,在CoNaLa,MBPP,APPS,MBJP等4个数据集上,本文方法将基线模型Contriever的MRR由0.262提升至0.783,R@1由0.198提升至0.748,平均提升约为0.42,并在其他3种基线模型上均获得优势,验证了所提方法的有效性.

关键词

代码搜索 / 零样本 / 预训练模型 / 大语言模型 / 重排序

Key words

引用本文

引用格式 ▾
基于大模型增强优化与重排序的零样本代码搜索方法[J]. 四川大学学报(自然科学版), 2025, 62(06): 1357-1370 DOI:10.19907/j.0490-6756.250180

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/