基于预训练Transformer语言模型的源代码剽窃检测研究

钱亮宏, 王福德, 孙晓海

吉林大学学报(信息科学版) ›› 2024, Vol. 42 ›› Issue (04) : 747 -753.

PDF
吉林大学学报(信息科学版) ›› 2024, Vol. 42 ›› Issue (04) : 747 -753. DOI: 10.19292/j.cnki.jdxxp.20240613.001

基于预训练Transformer语言模型的源代码剽窃检测研究

    钱亮宏, 王福德, 孙晓海
作者信息 +

Author information +
文章历史 +
PDF

摘要

为解决源代码剽窃检测的问题,以及针对现有方法需要大量训练数据且受限于特定语言的不足,提出了一种基于预训练Transformer语言模型的源代码剽窃检测方法,其结合了词嵌入、相似度计算和分类模型。该方法支持多种编程语言,不需要任何标记为剽窃的训练样本,即可达到较好的检测性能。实验结果表明,该方法在多个公开数据集上取得了先进的检测效果,F1值接近。同时,对特定的能获取到较少标记为剽窃训练样本的场景,还提出了一种结合有监督学习分类模型的方法,进一步提升了检测效果。该方法能广泛应用于缺乏训练数据、计算资源有限以及语言多样的源代码剽窃检测场景。

关键词

源代码剽窃检测 / Transformer模型 / 预训练模型 / 机器学习 / 深度学习

Key words

引用本文

引用格式 ▾
基于预训练Transformer语言模型的源代码剽窃检测研究[J]. 吉林大学学报(信息科学版), 2024, 42(04): 747-753 DOI:10.19292/j.cnki.jdxxp.20240613.001

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

103

访问

0

被引

详细

导航
相关文章

AI思维导图

/