引入注意力机制的恶意URL检测算法研究

刘拥民; 翟佳慧; 徐卓农; 邓伟豪; 麻海志

河北工业科技 ›› 2025, Vol. 42 ›› Issue (03) : 221 -230.

引入注意力机制的恶意URL检测算法研究

刘拥民, 翟佳慧, 徐卓农, 邓伟豪, 麻海志

作者信息 +

Author information +

文章历史 +

PDF

摘要

为解决传统模型在处理长统一资源定位系统(uniform resource locator, URL)时难以捕捉全局和局部特征的问题，提出了一种基于分层注意力机制的BERT-CNN模型。该模型通过来自变换器的双向编码器表征量(bidirectional encoder representations from transformers, BERT)模块捕捉URL的全局语义信息，并利用卷积神经网络(convolutional neural network, CNN)提取URL的局部特征，在BERT和CNN之间引入分层注意力机制，在不同层次上动态分配注意力权重，加强捕捉URL中的关键信息；引入稀疏注意力机制，减少模型的计算复杂度和内存开销，同时保留BERT的全局语义理解能力；在公开的恶意URL检测数据集上进行对比实验、消融实验以及可视化实验，验证所提模型的性能。结果表明：基于分层注意力机制的BERT-CNN模型在检测恶意URL时的准确率达到了96.8%,相比基线BERT-CNN模型提高了2.5个百分点；F1分数达到了95.3%,相比基线BERT-CNN模型提高了2.1个百分点。引入注意力机制的恶意URL检测模型在捕捉URL全局和局部特征方面具有显著优势，可为异常流量检测提供新的技术路径和解决方案。