知识增强的异质图注意力虚假信息检测方法

陈静 ,  周刚 ,  但文皓

信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (03) : 323 -329.

PDF (1763KB)
信息工程大学学报 ›› 2025, Vol. 26 ›› Issue (03) : 323 -329. DOI: 10.3969/j.issn.1671-0673.2025.03.010
网络空间安全

知识增强的异质图注意力虚假信息检测方法

作者信息 +

Knowledge-Enhanced Heterogeneous Graph Attention Fake News Detection Method

Author information +
文章历史 +
PDF (1804K)

摘要

针对现有社交媒体虚假信息检测方法忽视帖文中深层次的语义依赖结构的问题,提出一种知识增强的异质图注意力虚假信息检测方法。首先,通过异质文本图,精细化描绘帖文不同语义单元的内在语义依存和外在知识关联;其次,设计双层图注意力机制,学习帖文的模式特征和知识增强的实体语义表征,以增强模型对帖文的内容细粒度语义感知和多视角捕捉虚假线索的能力。在两个公开数据集的实验结果表明,所提方法的总体检测性能优于当前已有的基于文本内容检测方法,可有效提升社交媒体虚假信息早期检测的性能。

Abstract

Aiming at the problem that existing social media fake news detection methods overlook the deep semantic dependency structure in posts, a knowledge-enhanced heterogeneous graph attention fake news detection method is proposed. Firstly, through heterogeneous textual graphs, the intrinsic semantic dependencies and extrinsic knowledge associations of different semantic units in the posts are depicted in detail. Secondly, a dual-layer graph attention mechanism is designed to learn the pattern features of the posts and the knowledge-enhanced entity semantic representations, thereby enhancing the model’s fine-grained semantic perception of the post content and its ability to capture fake news clues from multiple perspectives. The experimental results on two public datasets show that the overall detection performance of this method is superior to the existing text-based content detection methods at present, effectively enhancing the early detection capability of false information on social media.

Graphical abstract

关键词

虚假信息检测 / 知识增强 / 异质文本图 / 双层图注意力 / 社交媒体

Key words

fake news detection / knowledge-enhanced / heterogeneous text graph / double layer graph attention / social media

引用本文

引用格式 ▾
陈静,周刚,但文皓. 知识增强的异质图注意力虚假信息检测方法[J]. 信息工程大学学报, 2025, 26(03): 323-329 DOI:10.3969/j.issn.1671-0673.2025.03.010

登录浏览全文

4963

注册一个新账户 忘记密码

社交媒体的短文本特性以及虚假信息表现形式上的多样性,导致仅从帖文自身内容出发很难挖掘出能够鉴别信息真假的有效线索,使得面向社交媒体的虚假信息检测任务变得极具挑战性。为缓解社交媒体短文本特性带来的语义稀疏问题,研究者们提出基于内容语义增强的检测方法,旨在解决低资源场景下的虚假信息早期检测问题。其核心思想是:社交网络帖文中包含的关键实体词可以揭示核心主题,引入这些实体的背景知识可以丰富短文本的语义内容。因此,如何得到帖子文本内容的背景知识,并将这些知识融合到文本信息中成为了关键问题。
根据知识获取策略的不同,大致可以分为两大方向:基于预训练语言模型的方法和基于知识驱动图卷积的方法。基于预训练语言模型的方法,其核心理念在于借助模型内部蕴含的知识结构,通过微调[1-2]、提示学习[3-4]等技术对帖子中潜在语言模式和语义线索进行挖掘,有效地增强了对假信息的检测效果。这种方法仅适用于那些在模型预训练与微调过程中已充分涉及相关背景知识的情形。基于知识驱动图卷积的方法,以图结构的形式建模文本语义内在关联以及外在知识关联,深入挖掘帖子中关键信息元素(如人物、组织机构以及特定名词等)的内在含义。在此基础之上,通过多层图卷积操作对高阶邻域信息进行深度聚合[5-8],增强文本的语义表征能力,提升模型的检测性能。
这些方法虽在一定程度上改善了虚假信息的检测性能,但对于文本复杂语义特征的精确刻画上仍存在不足。首先,现有方法侧重于词汇间的序列关系、共现关系等建模,而相对忽视了词汇间深层次的语义依赖结构,比如情态关系、施事与受事关系、因果关联以及依据关系等。这些深层语义关系对于模型精确捕获信息的内在关联、发掘虚假信息中的关键可疑线索至关重要。其次,现有方法通常侧重单一视角分析,或聚焦于挖掘帖文的模式特征,或侧重于文本内容的语义理解,缺乏一种从多视角细粒度假信息线索的捕捉能力。
为解决上述问题,提出一种知识增强的异质图注意力虚假信息检测方法(Knowledge-Enhanced Heterogeneous Graph Attention Fake News Detection Method, KHGAT),从帖文的表现模式、实体语义等多维度挖掘高价值线索,提升模型检测性能。首先,为刻画帖文中多样化语义单元的内在和外在关联,基于语义依存和共现关联双重视角构建文本异质图,系统性地整合实体、模式以及概念描述等各类语义元素之间的复杂联系;其次,考虑到各类节点在语义表达方面贡献度不尽相同,并能从不同视角为识别虚假信息提供关键线索,设计基于双层注意力的图卷积网络模块,旨在精细化学习帖文的模式和知识增强的实体语义特征;最后,在此基础之上,以拼接的方式将帖文模式特征和知识增强的实体语义特征进行融合,以此实现对虚假信息的有效检测。

1 问题定义

设集合C=c1,c2,,cn代表一组社交媒体帖文数据,其中ci表示一条待检测的帖文,通常由多元化的词汇集合构建而成。为精细刻画帖文中多样化词汇间的复杂内在联系,同时高效整合外部知识资源,需要基于帖文构建异质文本图Gi

异质文本图Gi =<V,E>基于语义依存和共现关联双重视角构建而成。其中:节点集合V包含实体词集合、模式词、概念描述集合3种类型;边集合E表示实体词、模式词以及概念描述之间存在的关联关系。

因此,本文所提方法KHGAT可以形式化地描述为一个学习函数f: fGiyiyi0,1。基于异质文本图,以更精细的方式学习并提炼出帖文的表现模式特征和实体语义特征,从而实现对帖文内容的全面理解和细粒度表示,最大限度地提高虚假信息早期检测性能。

2 知识增强的异质图注意力检测方法

图1展示了本文所提方法KHGAT的整体架构,主要包含3个模块:异质文本图构建、基于双层图注意力的节点表征和预测。

2.1 异质文本图构建

图2描绘了异质文本图构建的全过程,具体分为两大核心模块:多类型节点的生成和节点间关联关系的构建。

1)多类型节点的生成。针对每一条待检测的社交媒体帖文,利用开源的知识抽取工具OneKE[9]进行实体抽取,形成对应的实体词集合St_e;然后,将帖文中剩余不包含在停用词表中的词视为描述帖文写作模式的模式词St_p。由于社交媒体短文本特性,模型在有限语境下难以深入理解核心实体的内在含义。通过实体链接技术(中文采用中文概念图谱CN-Probase API接口,英文采用实体链接工具TagMe),从外部高质量知识库中提取相关联的概念描述信息,形成概念知识集合St_k

2)节点间关联关系的构建。为刻画帖文中各类词汇单元之间的内在逻辑联系,采取一种语义依存和共现关联双重度量的策略,在不同词汇间建立依赖关系。首先,运用HanLP语义依存分析技术,揭示出词语间的深层次语义依赖关系,使用SD<·>表示。如果词汇节点u和词汇节点v之间存在这种依赖关系[10],则定义SD<u,v>=SD<v,u>=1,否则SD<u,v>=SD<v,u>=0。接着,对于无直接语义依存关系的词汇节点对,采用词汇节点对间互信息得分(Pointwise Mutual Information, PMI)[5]来量化它们之间关联的紧密度,在PMI大于0的词汇对间建立共现关联边。同时,为建模帖文外在的知识关联,将提取的概念描述看作节点链接到对应的实体上,用KE<·>表示实体概念描述之间的关系。如果节点u和节点v之间存在实体概念描述关系,则KE<u,v>=KE<v,u>=1,否则两者均为0。

A 表示文本异质图的邻接矩阵。对于任意类型的节点u,其对应不同类型的节点v的之间的邻接关系表示为

au,v=1,SDu,v=1PMIu,v>0KEu,v=1;0,其他.

式中,vSt_eSt_pSt_k

对于异质文本图不同类型节点初始特征表示,使用BERT(Bidirectional Encoder Representations from Transformers)预训练模型进行初始化:Xt_e(0)Rn×768Xt_p(0)Rl×768Xt_k(0)Rn×768Xt_e(0)表示所有实体类型词的初始特征表示;Xt_p(0)表示所有模式类型词的初始特征表示;Xt_k(0)表示所有概念描述的初始特征表示;n表示帖文中包含的实体的数量;l表示帖文中包含的模式词的数量。X(0)Xt_e(0)Xt_p(0)Xt_k(0)堆叠而成,表示图中所有节点组成的初始节点特征表示矩阵,其中X(0)RV×768V=2n+l

2.2 基于双层图注意力的节点表征

对于文本图中的某节点v,从语义影响力来分析,相邻的不同类型节点可能具有不同影响。通过设计基于双层图注意力机制的节点特征表示模块,精细化地捕捉不同类型节点邻域对目标节点的语义贡献度以及同类型不同节点的重要性,以增强模型辨别模式与实体语义细微差异的能力。

1)类型级注意力。其主要是为捕获不同类型节点邻域对目标节点的语义贡献度。对于目标节点v而言,其类型为t的邻域特征可用与节点v相邻的所有类型为t的节点特征加和来表示。其计算过程形式化描述为

xv_t=A˜v_tXt

式中:xv_t表示节点v类型为t的邻域表征,tT=te,tp,tk;设 D 表示文本图的度矩阵,I表示单位矩阵,则A˜=D12(A+I)D-12表示标准化后的邻接矩阵,A˜v_t表示节点v与图中所有类型为t的节点的邻近关系;Xt表示所有类型为t的特征表示矩阵。

基于当前节点的特征表示xv与邻域类型t的特征表示xv_t,设计一个带有LeakyReLU激活函数的前馈网络作为注意力函数,并通过softmax函数对类型级注意力得分进行归一化,从而获得邻域类型t对节点v的语义的重要度,即节点v的类型级注意力权重αt_v,具体可表示为

αt_v=softmaxtLeakyReLUμtT[xv,xv_t]

式中,μtT表示类型级注意力机制中的可学习的参数向量。

2)节点级注意力。其主要是为捕获相同类型下不同节点的重要性。对于节点v的类型为t的邻居节点,v'可以根据节点的特征表示xvxv',计算节点级注意力权重,具体可描述为

βvv'=softmax(LeakyReLU(vTαt_v[xv,xv']))

式中,vT表示节点级注意力机制中可学习的参数向量。

3)异质图邻域节点聚合。文本图中所有节点的表征可通过聚合其不同类型的邻域节点特征进行更新,可形式化地描述为

Xl=LeakyReLUtTβtXtl-1Wtl-1

式中:XlRV×d表示通过l层异质图注意力操作后所有节点的嵌入表征;βtRV×nt为类型t的注意力矩阵,行表示图中的所有节点,列表示类型为t的所有节点,其第v行第v'列的元素值表示节点v'对节点v的语义影响力;Xtl-1表示第(l-1)层图卷积操作后所有类型为t的节点的嵌入表征;Wtl-1表示第(l-1)层图卷积时类型t的变换矩阵,其作用为将不同类型节点表征转换到共同的稠密低维空间。

经过l层异质图注意力聚合不同类型高阶邻域节点特征,最终获得文本图中所有节点表征(包括实体、模式和概念描述)。在此基础上,针对实体类型词节点和模式类型词节点,分别设计一个可学习的节点权重层,用于聚合所有实体词节点特征获得知识增强的实体语义表征heR1×d和帖文的模式特征hpR1×d,具体过程可形式化描述为:

he=[sigmoid(Xt_e(l)Wt_e')]TXt_e(l)
hp=[sigmoid(Xt_p(l)Wt_p')]TXt_p(l)

式中:Wt_e'Rd×1表示所有实体类型节点词共享的可学习参数向量;Wt_p'Rd×1表示所有模式类型词节点共享的可学习参数向量。该过程可以自动识别并强调那些对于虚假信息检测至关重要的实体词和模式词,同时减弱无关词语的影响。

2.3 预测

将知识增强的实体语义表征heR1×d和帖文模式特征hpR1×d进行拼接,然后将其输入多层感知机预测帖文的真实性,具体可表示为

y^=sigmoidMLPhe,hp

在模型训练期间,采用交叉熵损失函数量化经特征拼接融合后的最终预测与实际标签间的偏差,具体可表示为

lcls=-1Nyilgy^i+1-yilg1-y^i

式中:yi{0,1}表示第i个帖文的真实标签;N表示所示每个批次中样本数目。

3 实验设计及结果分析

3.1 实验设置

1)实验数据准备。为验证模型在真实社交媒体环境下的有效性和准确性,选择两个具有代表性的社交媒体数据集——Weibo和Twitter[11]。这两个数据集中均包含两个标签类别,其中:Real表示该条信息的内容为真;Fake表示该条信息为假消息。数据集数量的具体统计分析如表1所示。

2)基线模型。为验证本章提出模型的有效性,将本文所提方法和一些基线模型进行比较。这些方法大致可分为基于预训练语言模型的基线方法和基于图神经网络的虚假信息检测方法。基于预训练语言模型的检测方法:利用预训练模型的语境感知能力与内嵌知识,捕捉文本语言模式和语义细节,提升检测性能。例如:BERT-Emo[1]融合情感特征对文本语义编码;GLM-6B-LORA[12-13]将虚假信息检测转化为问答形式并微调;LLM-Hiss Prompting[2]设计分层提示模板,拆分信息逐步验证。基于图神经网络的检测方法:将文本转为图形结构,用图神经网络细粒度建模语义单元关联,获取语义表征。例如:知识驱动的多模态图卷积网络(Knowledge-Driven Multimodal Graph Convolutional Network, KMGCN)[5]拼接概念描述、构建文本图并提取表征;CompareNet[6]模型建模异质图,通过注意力网络提取表征并对比语义一致性;知识驱动的谣言检测模型(Knowledge-Driven Rumor Detection, KDRD)[7]构建语义实体图,经图卷积操作提取整体语义表征。

3)实现细节。所提方法KHGAT参数由Adam算法更新,学习率初始化为0.000 25。利用BERT预训练模型(对于中文用BERT-Base-Chinese,对于英文用BERT-Base-Uncased)对不同类型的词汇节点进行初始化语义表征,初始维度为768。模型中基于双层图注意力的模式词节点表征和实体词节点表征维度d均设置为200,实验批量大小为10,训练轮数为25。为防止训练过程中出现梯度消失和过拟合现象,模型中用到了dropout机制,其比例为0.5。异质图注意力层数l为2。

3.2 模型检测性能对比分析

将本文方法KHGAT与6种代表性模型进行比较,并使用准确率、精确率、召回率以及F1值这4个评价指标来衡量各模型在真实数据集上的性能表现,具体数据如表2所示。加粗内容表示在同一测评指标下最好的检测结果。

表2可以看出,基于预训练语言模型的检测方法中,GLM-6B-LORA准确率最高,但虚假信息召回率和F1值低于BERT-Emo。在Weibo数据集中,GLM-6B-LORA虚假信息召回率仅58.3%,这表明该方法倾向于将信息判断为真,这一特点在中文数据集上表现得尤为明显。BERT-Emo在虚假信息召回率和F1值上表现最好,但在真实信息召回率和F1值上最低,倾向于将信息判断为假,表明真假信息在情感模式特征上可能存在重叠。

基于图神经网络的检测方法中,KDRD在两个数据集上的准确率比KMGCN平均高出1.65个百分点,说明增强帖文核心词的背景知识能提升语义理解。而CompareNet在两个数据集上的准确率均优于KMGCN和KDRD,表明异质文本图比共现文本图更能细粒度地建模帖文内部语义关联。

本文方法KHGAT在两个数据集上的准确率平均优于GLM-6B-LORA模型2.20个百分点,且无明显倾向性;相比CompareNet,准确率平均高出3.35个百分点。这是由于KHGAT结合图神经网络与异质图的优势,通过构建文本异质图来整合实体、模式及外部知识资源的复杂关系,在知识增强实体语义基础上,从实体语义和表现模式两个维度深入理解信息并提取虚假信息判断的关键线索,进而提升了模型的检测性能。

3.3 消融实验

消融实验包括3个部分:1)w/o KN:删除异质文本图中的概念描述节点,探索关键实体背景信息是否能增强模型对信息的语义理解能力;2)w/o SD:删除异质文本图中的语义依赖关系,探索语义依赖关系是否能够增强模型挖掘假信息可疑线索的能力;3)w/o HA:去掉节点类型级别注意力,将双层注意力转换成单层注意力,评估双层图注意力机制捕捉不同类型词汇特征差异,精细化学习帖文特征的能力。图3呈现了KHGAT模型在两个数据集上的消融实验结果。从图3可以看出,与KHGAT相比,w/o KN在两个数据集上的准确率平均降低了4.25个百分点,虚假信息判断上F1值平均降低了4.85个百分点,真实信息判断上F1值平均降低了4.50个百分点。这表明,概念描述节点通过补充关键实体的背景信息,增强了KHGAT模型对信息内容语义的理解能力。

与KHGAT相比,w/o SD在两个数据集上的总体检测准确率平均降低了1.30个百分点,虚假信息判断上F1值平均降低了1.95个百分点,真实信息判断上F1值平均降低了0.85个百分点。为深入探究其性能下降背后的原因,进一步在测试集上针对标签为Fake的样本,详细统计各类语义依赖关系的损失比例,并选取在两个数据集中损失比排在前10位的关系进行展示,如图4所示。

图4可以发现,文本图中丢失了很多重要的语义依赖关系,例如客事、原因、条件、情态、依据等。这些深层次的语义依存结构的丢失导致模型检测性能下滑,从而证实这些语义关系对于增强模型识别虚假信息潜在线索的能力至关重要。

与KHGAT相比,w/o HA在两个数据集上的准确率平均降低了2.25个百分点,虚假信息判断上F1值平均降低了3.50个百分点,真实信息判断上F1值平均降低了1.05个百分点。这表明移除双层注意力模块导致模型失去对不同类别词汇节点语义贡献精细捕捉的能力,进而削弱模型辨别模式特征与实体语义细微差别的效能,最终影响到整体的检测性能。

3.4 案例分析

表3展示了被模型成功判为Fake的两个样本数据及结果展示,由于模式词相对于实体语义词数量要多,示例中只显示权重排在前4位的词汇。其中,不同类型词汇的关注度是通过双层图注意力模块的同类型节点自注意力计算得到的。结合表3可以发现,在案例1中,实体词“肌抽跃”相较于“身体机能”的关注度更高;模式词“注意”、“常”、“好”相对其他模式词权重要高。这表明从内容语义来看,“肌抽跃”的争议度比较大;从表现模式来看,该条信息试图以一种强调的语气来传递信息。在案例2中,实体词“特朗普”相较于“民主党”、“参议院”的关注度更高;模式词“弹劾”、“证实”相较于其他模式词权重要高。这表明从内容语义来看,围绕“特朗普”的信息可疑度比较大;从表现模式来看,该条信息试图用“弹劾”和“证实”这类词汇制造一种“权威性”的假象。

这些都直观地说明了本文所提方法能够从帖文的实体语义和表现模式两个角度捕捉虚假信息的可疑线索,提升检测性能的同时也增强了检测结果的可解释性。

4 结束语

提出一种知识增强的异质图注意力虚假信息检测方法,该方法通过异质图细粒度刻画帖文的语义单元,揭示其内在语义依存和外在知识关联。在此基础上,引入双层图注意力机制,精细化学习帖文的模式特征和知识增强的实体语义特征,从而提升模型对帖文内容的多视角细粒度感知能力。在Weibo和Twitter两个代表性数据集的实验结果表明,本文方法的总体检测性能优于当前基于文本内容的先进检测方法,有效缓解了社交媒体短文本的语义稀疏问题以及虚假信息表现形式多样性带来的挑战。未来研究将通过轻微语义翻转等数据增强方法生成多类型虚假信息,进一步提升模型的细粒度语义感知能力和鲁棒性。

参考文献

[1]

ZHANG X YCAO JLI X R, et al. Mining dual emotion for fake news detection[C]∥Proceedings of the Web Conference 2021. New York, USA: ACM, 2021:3465-3476.

[2]

HU B ZSHENG QCAO J, et al. Bad actor, good advisor: exploring the role of large language models in fake news detection[J]. Proceedings of the AAAI Conference on Artificial Intelligence202438(20):22105-22113.

[3]

PAN L MWU X BLU X Y, et al. Fact-checking complex claims with program-guided reasoning[C]∥Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: ACL, 2023:6981-7004.

[4]

ZHANG XGAO W. Towards LLM-based fact verification on news claims with a hierarchical step-by-step prompting method[C]∥Proceedings of the 13th International Joint Conference on Natural Language Processing and the 3rd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics. Stroudsburg, USA: ACL, 2023:996-1011.

[5]

WANG Y ZQIAN S SHU J, et al. Fake news detection via knowledge-driven multimodal graph convolutional networks[C]∥Proceedings of the 2020 International Conference on Multimedia Retrieval. New York, USA: ACM, 2020:540-547.

[6]

HU L MYANG T CZHANG L H, et al. Compare to the knowledge: graph neural fake news detection with external knowledge[C]∥Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Stroudsburg, USA: ACL, 2021:754-763.

[7]

徐凡,李明昊,黄琪,知识图谱驱动的图卷积神经网络谣言检测模型[J].中国科学(信息科学)202353(4):663-681.

[8]

XIAO LZHANG QSHI C Y, et al. MSynFD: multi-hop syntax aware fake news detection[C]∥Proceedings of the ACM Web Conference 2024. New York, USA: ACM, 2024:4128-4137.

[9]

LUO Y JRU X YLIU K W, et al. OneKE: a dockerized schema-guided LLM agent-based knowledge extraction system[DB/OL]. (2024-12-28)[2025-03-12].

[10]

HE HCHOI J D. The stem cell hypothesis: dilemma behind multi-task learning with transformer encoders[C]∥Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA: ACL, 2021:5555-5577.

[11]

SHENG QZHANG X YCAO J, et al. Integrating pattern- and fact-based fake news detection via model preference learning[C]∥Proceedings of the 30th ACM International Conference on Information & Knowledge Management. New York, USA: ACM, 2021:1640-1650.

[12]

DU Z XQIAN Y JLIU X, et al. GLM: general language model pretraining with autoregressive blank infilling[C]∥Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, USA: ACL, 2022:320-335.

[13]

HU E JSHEN YWALLIS P, et al. Lora: Low-rank adaptation of large language models[DB/OL]. (2021-10-16)[2024-08-24].

基金资助

河南省科技攻关项目(222102210081)

AI Summary AI Mindmap
PDF (1763KB)

432

访问

0

被引

详细

导航
相关文章

AI思维导图

/