基于编辑序列的跨语言重构检测方法

李涛; 张冬雯; 张杨; 郑琨

河北科技大学学报 ›› 2024, Vol. 45 ›› Issue (06) : 627 -635.

基于编辑序列的跨语言重构检测方法

李涛, 张冬雯, 张杨, 郑琨

作者信息 +

Author information +

文章历史 +

摘要

针对基于深度学习的重构检测方法中开发人员没有一致性地记录重构操作，导致提交的信息不可靠以及语言单一性问题，提出了一种新的跨语言重构检测方法RefCode。首先，采用重构收集工具从不同编程语言中收集提交信息、代码变更信息和重构类型，通过代码变更信息生成编辑序列，将所有数据组合为数据集；其次，将CodeBERT预训练模型与BiLSTM-attention模型相结合，在数据集上进行训练和测试；最后，从6个方面对模型进行评估，以验证方法的有效性。结果表明，RefCode相较于只采用提交信息作为LSTM模型输入的重构检测方法，在精确度和召回率方面均实现了约50个百分点的显著提升。研究结果实现了跨语言重构检测，并有效弥补了提交信息不可靠的缺陷，可为其他编程语言和重构类型的检测提供参考。