基于预训练模型的仇恨言论检测

林原; 张亚; 于蒙; 许侃; 林鸿飞

山东大学学报(理学版) ›› 2026, Vol. 61 ›› Issue (3) : 44 -53.

基于预训练模型的仇恨言论检测

林原, 张亚, 于蒙, 许侃, 林鸿飞

作者信息 +

Author information +

文章历史 +

PDF

摘要

为准确检测和识别仇恨言论，通过微调大语言模型对数据集样本进行扩充与平衡，并基于预训练模型RoBERTa构建RoBERTa-Attention-GRU-TextCNN模型，将深度学习强大的特征捕获和提取能力应用到文本序列数据的分析、挖掘中。首先通过RoBERTa模型对文本数据进行特征提取；然后利用自注意机制获取单词间的依赖关系；最后将获取到的特征矩阵输入到GRU-TextCNN层中以捕捉更深层次的语义信息和局部特征。使用TweetEval提供的2个公开的数据集来评估模型效果，实验结果表明，该模型相较于传统的仇恨言论检测模型具有更好的检测效果。