基于双层级句法依赖增强的讽刺检测模型

朱雨晴; 张顺香; 刘佳祺; 朱宇超; 徐洋

doi:10.13232/j.cnki.jnju.2025.06.007

南京大学学报（自然科学） ›› 2025, Vol. 61 ›› Issue (06) : 963 -976. DOI: 10.13232/j.cnki.jnju.2025.06.007

基于双层级句法依赖增强的讽刺检测模型

朱雨晴 ¹ ,
张顺香 ¹^,²^,³ ,
刘佳祺 ¹ ,
朱宇超 ¹ ,
徐洋 ¹

作者信息 +

Dual⁃level syntax⁃enhanced for sarcasm detection model

Yuqing Zhu ¹ ,
Shunxiang Zhang ¹^,²^,³ ,
Jiaqi Liu ¹ ,
Yuchao Zhu ¹ ,
Yang Xu ¹

Author information +

文章历史 +

PDF (977K)

摘要

讽刺检测旨在通过挖掘文本中的语义不协调性，以识别其隐含的讽刺意图，现有方法不能充分利用文本中情感词与其描述对象间的句法依赖关系，导致模型较难捕捉文本中的语义不协调线索，降低了整体性能.针对这一问题，提出一种基于双层级句法依赖增强的讽刺检测模型，从词汇级和短语级两个层面强化模型对句法依赖关系的建模能力.首先在词汇级，构建依存句法图与情感图，使用句法路径关联情感词及其描述对象，从全局层面揭示两者之间的句法依赖关系；其次在短语级，识别文本中的名词，并使用动态权重机制构建由名词及其对应情感词组成的短语，从局部层面建模两者之间的依存关系；最后，通过双仿射注意力实现词汇级与短语级信息的深度交互，增强模型对句法依赖关系的整体感知与建模能力.在公开数据集IAC和Twitter上进行了实验，实验结果验证了提出的模型的有效性.

Abstract

Sarcasm detection aims to identify implicit sarcastic intent by uncovering semantic incongruity in text. Existing methods fail to fully exploit the syntactic dependencies between sentiment words and their corresponding targets，making it difficult for the models to capture semantic incongruity cues and leading to suboptimal performance. To address this issue，we propose a sarcasm detection model enhanced with dual⁃level syntactic dependency modeling，which strengthens the model's ability to capture syntactic relations at both the word and phrase levels. Specifically，at the lexical level，we construct a dependency syntax graph and a sentiment graph，using syntactic paths to associate sentiment words with their described objects，thereby revealing their global syntactic dependencies. At the phrase level，we identify nouns in the text and apply a dynamic weighting mechanism to construct phrases composed of nouns and their corresponding sentiment words，modeling their local dependencies. Finally，biaffine attention is employed to enable deep interaction between lexical⁃level and phrase⁃level information，enhancing the model's overall capacity for syntactic dependency modeling. Experiments conducted on the public IAC and Twitter datasets demonstrate the effectiveness of the proposed model.

Graphical abstract

关键词

讽刺检测 / 句法依赖关系 / 双层级 / 双仿射注意力 / 动态权重

Key words

sarcasm detection / syntactic dependency / dual⁃branch architecture / biaffine attention / dynamic weighting

引用本文

引用格式 ▾

朱雨晴,张顺香,刘佳祺,朱宇超,徐洋. 基于双层级句法依赖增强的讽刺检测模型[J]. 南京大学学报（自然科学）, 2025, 61(06): 963-976 DOI:10.13232/j.cnki.jnju.2025.06.007

登录浏览全文

4963

注册一个新账户忘记密码

讽刺是一种常见的语言表达，常带有强烈的情感色彩，表达的真实意义和字面含义相反^［1］.讽刺的精准识别对情感分析^［2］、观点挖掘、舆情监控乃至人机交互等下游自然语言处理任务的性能有至关重要的影响^［3］，因此，开发高效的讽刺检测模型一直是自然语言处理领域的研究热点与难点.

讽刺语言的本质特征在于内部不协调性，即文本内部在情感、语义或语境层面存在冲突与矛盾^［4］，现有方法通过捕获文本中的句法信息来识别文本中的不一致.例如，一些研究引入上下文信息^［5］或将话题信息建模为潜在的讽刺对象^［6］，以增强模型对讽刺语义的理解能力.也有研究通过引入外部知识资源，如情感词典^［7］与常识知识库^［8-9］，为模型提供更丰富的语义背景信息.为了建模长文本中词汇间的复杂依赖关系，有研究引入图卷积神经网络（Graph Convolution Neural Networks，GCN）^［10］来捕捉句法结构与长距离依赖信息，从而提升模型对复杂情感表达和上下文语境的感知能力.

现有方法在捕捉上下文语义不一致的过程中，不能充分利用文本中情感词与其描述对象之间的句法依赖关系对于提升模型准确率的重要性.如图1所示，评论文本中的“delicious”蕴含正向情感，“poor”蕴含负向情感.若只关注文本中的情感极性冲突，则会误判为讽刺文本，但“delicious”的描述对象为“food”，而“poor”的描述对象是“service”.尽管文本中同时出现了正负情感表达，但由于正负情感分别作用于不同的描述对象，情感之间未发生冲突，因此该文本不构成讽刺.这种基于情感词与其描述对象之间依赖关系的分析，有助于更准确地识别讽刺表达.

此外，以上方法虽然能够有效地捕捉词汇间的语义信息，但是仅依赖词与词之间的语义关系仍难以全面揭示文本的深层含义，因为单个词汇所表达的语义信息具有一定的局限性.在某些情况下，即使词汇之间不存在显著的直接语义冲突，文本整体仍可能表达强烈的讽刺意图.对于句子“Going in to work for 2 hours was totally worth the 50 min drive”，如果仅考虑单词间的语义关系，则很难识别出语义冲突；若比较短语“work for 2 hours”与“worth the 50 min drive”，则能明显感知到强烈的语义对比和不协调性.

基于以上分析，本文提出一种基于双层级句法依赖增强的讽刺检测模型（Dual⁃Level Syn⁃Tax⁃Enhanced for Sarcasm Detection Model，DSE⁃Model）.该模型采用双分支结构，分别从词汇级和短语级两个层面强化对情感词及其描述对象间句法依赖关系的建模.在词汇级，模型从全局视角出发，联合构建依存句法图与情感图，显式捕捉情感词与其描述对象之间可能存在的远距离或复杂的句法依赖关系.在短语级，模型聚焦于局部语境，通过规则约束识别并生成包含情感词及其描述对象的短语结构，利用动态权重机制，根据词汇在短语内的语义贡献为其分配不同的权重，从而突出情感词、核心名词等关键信息在短语表示中的作用，生成更具判别力的短语级特征，构建细粒度的依存表示.为了实现词汇级与短语级依存信息的有效融合，本文引入双仿射注意力机制（Biaffine Attention），以捕捉二者之间的深层交互关系，进一步提升情感词与其描述对象之间句法依赖建模的准确性与鲁棒性.

本文的主要贡献如下.

（1）提出一种基于双层级句法依赖增强的讽刺检测模型，提升对情感词与其描述对象之间句法依赖关系的建模能力，从而更有效地捕捉复杂讽刺语境中潜在的上下文不协调性.

（2）分别设计针对性策略以捕捉不同粒度的句法依赖和情感不协调性.在词汇级使用句法路径关联情感词及其描述对象，实现全局的句法依赖关系捕捉；在短语级引入动态权重机制，动态学习短语内部各词汇的语义贡献权重，重点突出情感词和其描述对象，实现局部的句法依赖关系捕捉.

（3）在公开数据集IAC和Twitter上分别进行了实验，结果表明，本文方法能够有效提升讽刺识别的性能.

1 相关工作

目前讽刺检测方法主要分为三大类：基于规则的讽刺检测方法、基于机器学习的讽刺检测方法和基于深度学习的讽刺检测方法.

1.1　基于规则的讽刺检测方法

早期讽刺检测方法不需要训练大量的数据，而是基于研究者的语言学知识和经验，制定一套固定模式的规则，以此获取讽刺文本的语义特征^［3］.Maynard and Greenwood^［11］系统性地分析反讽语言的特征表达规则，认为hashtag是推特上识别反讽的一项关键特征.Bharti et al^［12］提出基于感叹词是否出现和基于语法分析的词汇生成算法等规则识别讽刺.Riloff et al^［13］通过对比文本中积极情感与消极情感之间的冲突进行讽刺识别.Van Hee et al^［14］使用词汇语义知识库和数据驱动方法获得讽刺文本中隐含的情感，并分析隐含情感对讽刺检测的影响.尽管这种方法理解表面讽刺有不错的效果，但往往难以捕捉深层、隐晦的讽刺意图.

1.2　基于机器学习的讽刺检测方法

随着机器学习技术的发展，研究者开始采用统计学习模型进行讽刺检测，使用大量的标注数据训练模型学习反讽的特征和模式来提高模型的准确性和适应性.Govindan and Balakrishnan^［15］聚焦于负面推文中的夸张语言模式，综合考虑感叹词、拉长词等五种常见夸张词，将其作为区分讽刺内容的关键特征.韦斯羽等^［16］提出一种融合反讽语言特征的反讽语句识别模型，加入反讽语言特征来提高反讽语句的识别准确率.Vinoth and Prabhavathy^［17］使用TF⁃IDF （Term Frequency–Inverse Document Frequency）对特征工程、选用卡方和信息增益进行特征选择，结合支持向量机（Support Vector Machine，SVM）分类器并使用粒子优化（Particle Swarm Optimization，PSO）算法对模型进行优化，有效提升了讽刺检测的性能.类似地，Saroj and Pal^［18］集成多种机器学习算法，如PCA （Principal Component Analysis），K⁃means算法等学习反讽特征，以提升讽刺检测的鲁棒性.随着研究的深入，进一步揭示了文本内部结构和深层次语义冲突对于理解讽刺意图的重要性.Maladry et al^［19］通过对比实验发现，融合自动生成冲突特征和隐式情感目标的改进型SVM分类器在讽刺检测任务中表现最优，还探讨了常识和内涵知识在隐式情感表征中的应用价值.进一步，Ahmed et al^［20］提出一种结合句法信息和注意力网络的讽刺检测方法，通过无监督学习将词序编码到联合表示空间，并利用知识库检索和不确定性采样策略优化模型，表明了句法结构信息在讽刺检测中的潜力.Ashwitha et al^［21］通过收集情感转移的目标词汇和使用分布语义方法来实现讽刺检测.

1.3　基于深度学习的讽刺检测方法

近年来，基于深度学习的方法凭借其强大的特征学习和非线性建模能力，在讽刺检测任务中取得突破性进展并成为当前研究的主流方向^［22］，这些方法能有效处理并捕捉文本序列中的长距离依赖关系.随着大规模语料下的预训练语言模型的发展，Pandey and Singh^［23］提出结合BERT （Bidirectional Encoder Representations from Transformers）预训练模型和LSTM （Long Short⁃Term Memory）网络的混合模型，检测混合文本中的讽刺表达.Savini and Caragea^［24］引入情感分析等辅助任务对BERT模型进行增强，将其微调为相关的中间任务.为了进一步提升模型的性能，引入多任务学习框架并融合情感信息以增强对讽刺的建模能力.Tan et al^［25］提出一种基于多任务学习的深度神经网络框架，联合建模讽刺检测与情感分析任务，其中不同任务共享相同的Bi⁃LSTM模型和嵌入层.类似地，Chauhan et al^［26］在其多任务学习框架中结合细粒度和粗粒度两种级别的情感信息，强调情感线索在讽刺检测中的重要性.此外，为了捕捉文本中更复杂的依存句法结构，研究者将GCN用于建模词语之间的结构关系，提升模型的语义理解能力.Lou et al^［27］提出一种基于情感依赖图卷积网络（Attention Dynamic GCN，ADGCN）的方法来构建情感依赖图，利用情感和句法信息交互建模，以充分捕捉文本中的复杂结构和深层语义信息.Yu et al^［28］提出一种基于情感依赖图的图神经网络方法，并引入常识知识来增强模型理解能力，以检测文本中隐含的不一致性.Zhang et al^［29］提出一种立场级讽刺检测方法，使用BERT获取文本词向量，使用GCN捕捉文本立场，通过建模文本中的立场信息来提升讽刺检测性能.Wang et al^［30］通过迭代学习来动态优化情感图和依赖图，有效过滤了文本讽刺检测中的噪声.

由上可见，尽管当前讽刺检测任务已经取得了巨大进展，但是现有方法主要考虑词汇或句子级粒度，忽略了词汇级和短语级在捕捉情感词与其描述对象之间的句法依赖关系中的协同作用，而这类结构性信息对于识别文本中的语义不协调性至关重要.因此，本文提出了一种基于双层级句法依赖增强的讽刺检测模型，从两个层面分析情感词与其描述对象之间的句法依赖关系，能够更精确地定位语义不协调性的真实来源，从而有效提升讽刺检测的整体性能.

2 方法

基于双层级句法依赖增强的讽刺检测模型的总体结构如图2所示，其讽刺检测过程主要包括四个步骤.（1）在词汇级，利用预训练语言模型BERT与Bi⁃LSTM对输入文本进行编码，获取上下文感知的语义表示.结合依存句法分析与Sentic⁃Net情感词典，构建依存句法图与情感图，以挖掘情感词与其描述对象之间的结构性依赖关系，形成词汇级句法依存结构表示.（2）在短语级通过识别并生成包含情感词及其描述对象的短语结构，利用动态权重机制，进一步构建短语内部的依存信息，获得更具结构感知能力的短语级表示.（3）采用双仿射注意力机制，捕捉词汇级与短语级特征间的深层依存关系，强化两个层面之间的信息交互，以提升模型对双层级情感依赖特征的建模能力.（4）将融合后的多层表示输入至分类模块，以判别文本是否具有讽刺倾向.

2.1　问题定义

单模态讽刺检测的目的是根据用户所发布的评论文本，检测其是否含有讽刺意图.给定一个输入文本

T = t 1, t 2, …, t n

，

n

为输入文本中字的个数，

t i

是文本

T

的第

i

个词.模型根据输入的文本，检测出该文本的讽刺倾向.

2.2　词汇级

2.2.1　特征提取

BERT^［31］采用深度双向Trans⁃former编码器学习预训练上下文表示，有效捕捉词汇在不同语境中的细微语义变化和情感倾向.因此，本文利用预训练语言模型BERT从输入文本

T

中提取特征，获取句子在词汇级别的上下文向量表示

W = w 1, w 2, …, w n

，其中，

w i

是文本

T

中第

i

个词的向量表示.

讽刺文本通常包含复杂的长距离依赖关系，传统LSTM难以充分捕捉上下文信息.Bi⁃LSTM结合文本前向和后向的序列信息，能够从双向上下文中提取更丰富的语义特征，提高对文本深层次语义的理解能力.因此本文采用Bi⁃LSTM对文本进行编码，提取文本的深层次语义特征.

对于一个文本词嵌入向量，在时间步

t

时，前向LSTM与后向LSTM对输入词向量的处理过程如式（1）所示：

h ⃗ t = L S T M ⃗ W, h ⃗ t - 1 h ⃖ t = L S T M ⃖ W, h ⃖ t + 1

(1)

其中，

h ⃗ t

为前向的上下文隐藏表示，

h ⃖ t

为后向的上下文隐藏表示.将

h ⃗ t

和

h ⃖ t

拼接后，得到完整的句子上下文隐藏表示

H

，如式（2）所示：

H = h ⃗ t, h ⃖ t

(2)

2.2.2　依存句法图和情感图

为了有效捕捉情感词及其描述对象间的长距离句法依赖关系，同时保留句子在讽刺检测任务中的全局语义信息，对于每个输入文本

T

，分别构建依存句法图和情感图，这两个图结构均以邻接矩阵表示.

依存句法图对句子中的句法关系进行编码，捕捉词汇之间的结构性依赖关系，为挖掘语义冲突提供句法上下文.对于输入文本

T

，首先借助自然语言处理工具spaCy进行句法分析，构建句法依赖树，然后根据该句法依赖树生成依存句法图并以邻接矩阵的形式表示，具体如式（3）所示：

A i, j s y n = 1; 如果 t i, t j 存在 依赖 1; i = j 0; 其他

(3)

其中，

A i, j s y n

是邻接矩阵中第

i

行第

j

列的值.依存句法图为无向图，由于词汇节点间依赖关系是相互的，故所得矩阵具有对称性，即

A i, j s y n = A j, i s y n

，包含自环

A i, i s y n = 1

，以保留词汇的句法上下文.

情感图通过量化词语间的情感极性差异，有效捕捉讽刺表达中潜在的情感冲突.在依存句法图的基础上，进一步构建情感图.具体地，借助SenticNet情感词典获取每个词

t i

的情感得分，记为

S t i

，取值范围为

- 1,1

，其中积极词汇的情感得分为正值，消极词汇的情感得分为负值.若词汇不在SenticNet词典中，则设

S t i = 0

.情感图也以邻接矩阵的形式表示，具体如式（4）所示：

A i, j s e n = S t i - S t j

(4)

其中，

A i, j s e n

表示词

t i

和

t j

情感得分的绝对差.词对之间情感得分的绝对差值越大，表明其情感差异越显著，越可能构成潜在的情感不一致.情感图被建模为无向图并包含自环

A i, j s e n = 1

，以保留词语自身的情感信息.

2.2.3　词汇级特征表示

为了捕捉句子中情感词及其描述对象间的句法依赖关系，并挖掘词汇间的长距离情感不一致表达，将依存句法图与情感图交互式输入多层GCN架构.在第一层GCN中，其初始节点是Bi⁃LSTM学习到的上下文表示，表示为

h a 0 = h 1, h 2, …, h n

.在第

l

层GCN中，每个节点根据其邻居节点的隐藏表示和两个图的邻接矩阵进行更新，更新过程如式（5）所示：

h a l = R e L U A ˜ s y n R e L U A ˜ s e n h a l - 1 W s e n l + b s e n l W s y n l + b s y n l

(5)

其中，

h a l - 1 ∈ R n × 2 d h

是前一层GCN的隐藏输出，

A ˜

表示归一化的邻接矩阵，定义为：

A ˜ i = A i / E i + 1

其中，

E i = ∑ j = 1 n A i, j

是

A i

的度，

W l ∈ R 2 d h × 2 d h

，

b l ∈ R 2 d h

均是第

l

层GCN的可训练参数.经过上述操作，得到词汇级的最终向量表示

H a

2.3　短语级

该模块旨在基于短语表示建模局部语境中的句法依赖关系及上下文不协调性，以增强局部语义的表征能力.

2.3.1　短语构建

针对输入文本

T

，首先使用自然语言处理工具spaCy对评论文本进行分词和词性标注.通过设置大小为

k

的上下文窗口，提取覆盖名词短语及其相关观点词的短语集合

C = c 1, c 2, …, c n

，其中，短语

c i = t 1 i, t 2 i, …, t c i i

，

t j i

是短语

c i

中的第

j

个词.如图3所示，对于句子“Thanks a lot，Hotmail，for blocking me from my own account. So helpful！”，可基于名词“Hotmail”和“my own account”提取对应的短语

c 1, c 2, c 3, c 4,

其中，每个短语既包含了描述对象，也涵盖了表达观点或情绪的相关词汇.

2.3.2　动态权重建模

对于每个短语

c i = t 1 i, t 2 i, …, t c i i

，采用预训练词嵌入模型GloVe为其中每个词汇

t j i

生成词向量

e t j i ∈ R d

，从而获得短语

c i

的初始嵌入序列：

E i = e t 1 i, e t 2 i, …, e t c i i ∈ R c i × d

尽管对短语内部的词向量进行平均池化可获得简洁表示，但该策略忽略了词序信息与句法结构，削弱了语义表达能力.引入基于动态权重建模的加权表示方法，动态学习短语内部各词汇的语义贡献权重，从而获取更好的短语表征.如图4所示，设可学习的查询向量为

V ∈ R d

，则每个词的注意力权重计算方式如式（6）所示：

α j i = e x p v T e t j i ∑ j = 1 c i e x p v T e t j i

(6)

其中，

α j i

表示词汇

t j i

在短语

c i

中的注意力权重，满足

∑ j = 1 c i α j i = 1 .

基于注意力权重对词向量加权求和，得到短语

c i

的语义表示

z i

，如式（7）所示：

z i = ∑ j = 1 c i α j i e t j i ∈ R d

(7)

通过该注意力加权机制，模型能够增强情感词与实体名词等关键信息的表达，从而提升短语级表示的语义判别能力.

2.3.3　短语级特征表示

为了挖掘文本中情感词及其描述对象间的局部句法依赖关系，将所有短语的语义表示序列

E = [z 1, z 2, …, z n] ∈ R n × d

输入Bi⁃LSTM，以进一步建模短语之间的上下文关系与潜在不协调性.设前向LSTM的输出为

h ⃗ i = L S T M ⃗ e c i, h ⃗ i - 1

，后向LSTM的输出为

h ⃖ i = L S T M ⃖ e c i, h ⃖ i + 1

，则每个短语的最终表示为两者的拼接结果，如式（8）所示：

H b = h ⃗ i, h ⃖ i

(8)

经过上述操作，得到短语级模块的最终向量表示

H b

2.4　特征信息融合模块

2.4.1　双仿射注意力

为了有效促进词汇级与短语级之间的信息交互，采用双仿射注意力机制作为交换桥梁，将两个模块处理结果

H a

和

H b

输入双仿射模块.具体过程如式（9）所示：

H a' = S o f t m a x H a W 1 H b T H b

(9)

其中，

W 1

是可训练参数，

H a'

表示交互后的词汇级向量表示，

T

表示矩阵的转置，交互后的短语级向量表示

H b'

按同理方式计算.

2.4.2　平均池化

采用平均池化和拼接策略对双仿射处理后的特征进行融合，在一定程度上保持特征平移不变性的同时，有效缓解了过拟合问题，获得用于讽刺检测任务的最终特征表示.

h a = f h a 1, h a 2, …, h a n

(10)

h b = f h b 1, h b 2, …, h b n

(11)

r = h a + h b

(12)

其中，

f *

是对每个特征节点进行平均池化的函数，

r

是对平均池化后的两个特征进行拼接的结果.

2.5　分类模块

将特征信息融合模块的最终融合特征

H

作为全连接层的输入，采用

S o f t m a x

函数进行讽刺检测.模型采用梯度下降算法来更新权重，使用交叉熵损失函数对模型进行优化，即：

y = S o f t m a x W s H + b s

(13)

L = - ∑ i = 1 N ∑ j = 1 d p y i j l g y p i j + λ θ 2

(14)

其中，

N

是训练样本数，

d p

为讽刺分类的极性维数，

y i

为训练数据中的真实标签，

y p i

为预测标签，

λ

代表

L 2

正则化系数，

θ

为可训练参数.

3 实验

3.1　数据集

为了评估本文提出的模型，在来自两个知名来源的四个基准数据集上进行了实验.表1展示了数据集的统计信息.

IAC （Internet Argument Corpus）数据集：来自社交媒体政治辩论的论坛，采用众包方式进行标注并设定了较为保守的阈值以确保标注质量.包含两个版本，分别为IAC⁃V1^［32］和IAC⁃V2^［33］.

Twitter⁃1数据集：由Riloff et al^［13］收集，根据推文中的标签（如#irony，#sarcasm等）自动进行标注，并补充了通过人工整理获得的数据.标注者按照指定的标注准则对推文进行标注，以确保数据集的质量与可靠性.

Twitter⁃2数据集：由Ptáek et al^［34］收集，专注于使用监督学习方法收集带有讽刺标签的英文推文，构建了一个大规模的讽刺检测数据集，为讽刺检测算法研究提供了丰富的资源.

3.2　实验参数设置及评价指标

3.2.1　实验参数设置

基于Pytorch框架在4090版本的GPU上训练模型，BERT的词嵌入维度为768，GloVe的词嵌入维度为300.GCN的层数设置为3层，隐藏层表示的维度为300.L2正则化系数设置为0.01.训练使用Adam优化器，学习率设为0.001.其余相关参数设置如表2所示.

3.2.2　评价指标

为了更直观地和基线方法进行比较，采用被广泛接受并应用于文本分类任务的精确率Precision （

P r e

）、召回率Recall （

R e c

）、F1分数（

F 1

）和准确率Accuracy （

A c c

）作为评价指标.

3.3　对比模型

为了验证DSE⁃Model的有效性，选取以下具有代表性的模型进行对比实验.

（1） NBOW^［35］：称为神经词袋模型（Neural Bag⁃of⁃Words），通过对词嵌入向量取平均来生成文本表示，随后将该表示输入逻辑回归分类器中进行分类.

（2） CNN：是一个具有最大池化层的普通卷积神经网络.

（3） GRNN^［36］：采用双向门控循环单元（Bi⁃GRU）来提取讽刺文本局部句法和语义信息.

（4） CNN⁃LSTM⁃DNN^［37］：以CNN，LSTM和深度神经网络堆叠的方式进行讽刺识别.

（5） ATT⁃LSTM^［38］：是一个基于注意力的LSTM模型，对LSTM编码器的所有隐藏状态均采用了注意力机制.

（6） SAWS^［39］：采用加权片段的自注意力机制模型进行讽刺识别，克服了以往模型在判断由片段不一致引起的讽刺时效率较差的问题.

（7） ADGCN^［27］：基于GCN，对情感信息和依赖信息进行交互建模，将Bi⁃LSTM的隐藏层输出作为GCN的初始化输入.

（8） IAAD^［30］：通过在静态图上的迭代学习扩展情感图和依存图，从而更好地捕捉讽刺文本中的动态特征.

（9） SBAM^［40］：基于BERT，利用卷积神经网络提取文本片段特征，并通过双重注意力机制捕捉句子内的语义冲突.

3.4　对比实验结果与分析

在四个数据集上进行对比实验，使用了四个评价指标，分别是Precision （Pre），Recall （Rec），F1 （F1⁃score）和Accuracy （Acc），实验结果如表3和表4所示，表中黑体字表示最优的性能.

实验结果表明，DSE⁃Model在所有数据集上的性能均有所提升，证明其在讽刺检测任务上具有良好的性能与鲁棒性.

在IAC⁃V1，IAC⁃V2，Twitter⁃1和Twitter⁃2数据集上，DSE⁃Model的准确率分别为67.84%，79.46%，86.23%和85.14%，和对比模型中的最优模型相比有明显提升.特别是对于文本较长且语境较复杂的IAC⁃V2数据集，和次优模型相比，DSE⁃Model的准确率提升2.03%，充分证明本文提出的双层级句法依赖增强策略对于理解并捕捉深层语义不协调的有效性.但在Twitter⁃1数据集上，DSE⁃Model的

F 1

比最优对比模型低0.07%.分析其原因，可能是由于该数据集的文本普遍较短，且讽刺的表达方式可能更加依赖于即时性的网络用语、俚语或表情符号等不规范语言特征，句法结构相对简单甚至不完整，影响了模型对文本句法依赖关系的建模能力.

综上，DSE⁃Model在不同类型的数据集上均表现出优异的性能，充分验证了词汇级与短语级双层级策略在建模情感词与其描述对象之间依存关系方面的重要作用，对于提升模型检测的准确性与泛化能力具有重要意义.实验结果充分验证了模型在多样化场景下的适用性.

3.5　消融实验

为了进一步验证DSE⁃Model中各个组件对模型整体性能的影响，在IAC⁃V1，IAC⁃V2，Twitter⁃1和Twitter⁃2四个数据集上进行了消融实验，实验结果如表5所示，表中黑体字表示最优的性能.

（1） w/o IMG：表示去除模型词汇级中依存句法图和情感图.

（2） w/o WEI：表示去除模型短语级中对Glove词向量进行动态加权处理的操作，直接进行平均池化.

（3） w/o SEN：表示去除模型中词汇级的依存句法图和情感图，并在短语级直接对GloVe词向量进行平均池化操作.

（4） w/o BIA：表示去除模型中特征信息融合模块的双仿射注意力机制，直接采用拼接操作.

（5） w/o PHR：表示去除模型短语级模块，只对词汇级模块特征进行检测.

（6） DSE⁃Model：本文提出的模型.

其中，w/o IMG模型在所有数据集上的准确率平均下降了1.08%，表明在词汇层面显式构建句法依赖关系，并融合外部情感知识，有助于捕捉讽刺文本中的语义不一致性，对于提升模型性能具有重要作用.w/o WEI模型在去除短语级对GloVe词向量的动态加权处理，直接采用平均池化操作后，准确率平均下降了0.91%，原因可能是平均池化忽略了短语内部的关键语义成分，导致语义表达能力下降，说明动态权重机制能够更有效地捕捉短语内部的重要语义信息.w/o SEN模型同时去除了词汇级的依存句法图和情感图与短语级的动态加权策略，其性能在所有模型中表现最差，准确率平均下降了1.77%.这一结果充分说明词汇级的全局句法依赖与短语级的局部句法依赖，在DSE⁃Model中缺一不可.

对比w/o BIA模型和本文模型，没有双仿射注意力机制的模型在各个数据集上的准确率平均下降了0.93%，说明双仿射注意力机制相较于传统的特征拼接方式，更有助于实现全局与局部语义信息之间的深度交互，从而提升模型对讽刺语义的建模能力.

由于w/o PHR模型仅保留词汇级模块，其准确率和DSE⁃Model相比平均下降2.11%，进一步验证了短语级模块在建模局部句法依赖和语义结构方面的有效性，充分体现了短语级对词汇级全局表示的重要补充作用.双层级结构的设计在整体上显著加强了情感词与其描述对象之间的句法关联，增强了模型对讽刺语义的理解与建模能力.综上，所有模块均对讽刺检测任务起到了积极作用，验证了本文模型中各组件设计的合理性与有效性.

3.6　GCN层数与动态权重的交互影响分析

为了进一步探究GCN层数与动态权重机制的交互影响，在无动态权重与有动态权重两种情况下进行对比实验，结果如图5所示.

如图5a所示，在未引入动态权重且GCN层数为1时模型性能较差，表明过于浅层的网络结构无法充分挖掘讽刺特征.当GCN层数增加到3时，整体表现优于其他层数，但是当GCN层数大于3时，模型性能开始波动并开始下降.这主要是由于网络深度增加，模型的参数量过大，导致信息冗余，出现过拟合现象.

图5b显示，在引入动态权重后，模型在各层数的性能均有所提升，其中GCN层数为3时性能最佳，显著优于无动态权重的结果.表明动态权重机制能够增强短语级的语义表达，提升GCN在建模情感词与其描述对象依赖关系时的有效性.此外，尽管GCN层数超过3时，模型的性能仍呈下降趋势，但动态权重在一定程度上缓解了深层结构引起的过拟合问题.

综上，GCN层数与动态权重之间存在显著的交互作用，动态权重机制不仅放大了GCN适度层数的性能优势，还增强了模型在深层结构下的鲁棒性.因此，设定该模型的GCN层数为3，并结合动态权重机制，以实现性能与复杂度的最优平衡.

3.7　正则化系数λ敏感性分析

为了探究损失函数中L2正则化系数λ对模型性能的影响，并验证参数设计的合理性，在Twitter⁃2数据集上进行一项参数敏感性分析.保持其他所有超参数不变，λ在

0.0001,0.001,0.01,0.1

进行调整，实验结果如表6所示.由表可见，当

λ = 0.0001

时，正则化的约束较弱，模型可能面临过拟合的风险，性能并非最佳.随着λ的增加，模型的泛化能力得到提升，性能也稳步提高，并在

λ = 0.01

时整体表现达到最优.然而，当λ继续增大至0.1时，过强的正则化约束会限制模型的学习能力，可能导致欠拟合现象，使得模型的性能开始呈下降趋势.因此，为了在模型的复杂度和泛化能力之间取得良好的平衡，在所有对比实验和消融实验中，均将正则化系数λ设置为0.01.

3.8　可视化分析

为了直观地表达情感词及其描述对象之间的句法依赖关系对模型性能的影响，对文本中各词汇的情感和句法注意力得分进行可视化分析.使用热图将文本中的每个词汇对应的注意力得分关联起来，通过颜色的变化来显示注意力得分的大小，得分越高的词汇对应的颜色越深，如图6所示，其中，情感注意力得分用蓝色表示，句法注意力得分用绿色表示.

案例1中，模型虽然识别出含有情感矛盾的词“perfect”和“failed”，但模型通过句法依赖关系进行分析，认为“perfect”修饰“plan”，“failed”修饰“they”，即情感冲突并未作用于同一描述对象，从而避免了错误分类.案例2中，“happier”和“traffic jam”被赋予了较高的情感注意力权重，形成强烈的情感冲突，且均描述同一对象“me”，因而被判定为讽刺文本.

3.9　错误样例分析

为了进一步探究模型的局限性并为未来的研究指明方向，对模型的错误预测样本进行定性分析.通过对一组随机抽取的错误样本进行归类，发现其主要错误来源可归结为两个方面.

（1）背景知识与常识的缺失是导致模型误判的主要原因.此类讽刺更多依赖于对特定事件、实体或常识的理解，而非复杂的句法结构.当模型缺乏相关外部知识时，即使句法分析准确无误，也难以识别文本中潜在的语义不一致性.

例如，“To speed up your computer， you should download more toolbars”的正确类别标签为讽刺，其中“toolbars”通常是拖慢电脑速度的垃圾软件，模型因缺乏这一常识知识而无法识别其讽刺意味.因此，引入外部知识有利于模型性能的提升.

（2）文本内容缺乏明显情感线索时讽刺识别效果较差，尤其在含有隐含情感或基于逻辑矛盾时.此类讽刺避免使用强烈的情感对立词，其语义不一致性依赖于逻辑或时间上的推理，以理解句子不同部分之间的关系.

例如，句子“I really appreciate your prompt reply to my email from last month”，其讽刺意味源于“prompt”与“last month”之间的逻辑冲突.尽管当前模型能够较好地识别直接的语义不一致，却难以完成这类涉及时间常识与逻辑推理的讽刺识别任务.

3.10　模型时间复杂度分析

使用计算量（Floa⁃ting Point Operations，FLOPs）来分析模型的时间复杂度.所有模型均使用IAC⁃V2数据集，Batch size均设置为16.将本文模型与四个模型进行了对比实验，结果如表7所示.由表可见，DSE⁃Model与基于大规模预训练的SBAM模型相比，FLOPs相差不大.和简单模型（如ATT⁃LSTM和ADGCN）相比，DSE⁃Model能够提升讽刺识别准确率，但需要更多的计算资源，难以应用于资源受限的场景.

4 结论

现有研究未能充分利用文本中情感词与其描述对象间的句法依赖关系，导致模型难以捕捉语义不协调的线索.针对这一问题，本文提出双层级策略，分别从词汇级和短语级两个层面捕捉情感词与其描述对象间句法依赖关系.词汇级通过构建依存句法图与情感图，结合GCN沿句法路径深度挖掘情感词与其特定描述对象间的依存关系，增强模型对全局句法依赖的捕捉能力.短语级构建以名词和情感词为核心的短语，并进行语义加权编码，有效捕捉局部语义中的情感冲突和句法依赖信息.最后，引入了双仿射注意力机制，实现双层级特征的深度交互.在多个公开讽刺检测数据集上的实验表明，本文提出的基于双层级句法依赖增强的讽刺检测模型能够提高讽刺检测性能.

未来将引入常识知识来提升模型对复杂语言的适应能力，同时，结合多模态信息拓展模型的适用范围.此外，还将针对多语言及跨域数据开展实验，以全面评估并提升模型的泛化能力.

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	Chen W Q， Lin F Q， Li G W，et al. A survey of automatic sarcasm detection：Fundamental theories，formulation，datasets，detection methods，and opportunities. Neurocomputing，2024，578：127428.

[2]	Dong Y Q， He D X， Wang X B，et al. Unveiling implicit deceptive patterns in multi⁃modal fake news via neuro⁃symbolic reasoning. Proceedings of the AAAI Conference on Artificial Intelligence，2024，38(8)：8354-8362.

[3]	Ma H， He D， Wang X，et al. Multi⁃modal sarcasm detection based on dual generative processes∥Proceedings of the 33rd International Joint Conference on Artificial Intelligence. Jeju，Korea (South)：UJCAI，2024：2279-2287.

[4]	Li Q D， Xu D J， Qian H D，et al. A fusion pretrained approach for identifying the cause of sarcasm remarks. Informs Journal on Computing，2025，37(2)：465-479.

[5]	Al⁃Selwi S M， Hassan M F， Abdulkadir S J，et al. RNN⁃LSTM：From applications to modeling techniques and beyond. Systematic review. Journal of King Saud University：Computer and Information Sciences，2024，36(5)：102068.

[6]	梁斌，林子杰，徐睿峰，等. 面向话题的讽刺识别：新任务、新数据和新方法. 中文信息学报，2023，37(2)：138-147，157.

[7]	Du Y， Li T， Pathan M S，et al. An effective sarcasm detection approach based on sentimental context and individual expression habits. Cognitive Computation，2022，14(1)：78-90.

[8]	Ren Y F， Wang Z L， Peng Q，et al. A knowledge⁃augmented neural network model for sarcasm detection. Information Processing & Management，2023，60(6)：103521.

[9]	Min C R， Li X M， Yang L，et al. Just like a human would，direct access to sarcasm augmented with potential result and reaction∥Proceedings of the 61^st Annual Meeting of the Association for Computa⁃tional Linguistics. Toronto，Canada：Association for Computa⁃tional Linguistics，2023：10172-10183.

[10]	Wang X B， Wang Y J， He D X，et al. Elevating knowledge⁃enhanced entity and relationship under⁃standing for sarcasm detection. IEEE Transactions on Knowledge and Data Engineering，2025，37(6)：3356-3371.

[11]	Maynard D G， Greenwood M A. Who cares about sarcastic tweets? Investigating the impact of sarcasm on sentiment analysis∥Proceedings of the 9th International Conference on Language Resources and Evaluation. Reykjavik,The Republic of Iceland：ELRA，2014：4238-4243.

[12]	Bharti S K， Babu K S， Jena S K. Parsing⁃based sarcasm sentiment recognition in Twitter data∥2015 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. Paris,France：IEEE，2015：1373-1380.

[13]	Riloff E， Qadir A， Surve P，et al. Sarcasm as contrast between a positive sentiment and negative situation∥Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Seattle，WA，USA：Association for Computational Linguistics，2013：704-714.

[14]	Van Hee C， Lefever E， Hoste V. We usually don't like going to the dentist：Using common sense to detect irony on Twitter. Computational Linguistics，2018，44(4)：793-832.

[15]	Govindan V， Balakrishnan V. A machine learning approach in analysing the effect of hyperboles using negative sentiment tweets for sarcasm detection. Journal of King Saud University：Computer and Information Sciences，2022，34(8)：5110-5120.

[16]	韦斯羽，朱广丽，谈光璞，等. 融合反讽语言特征的反讽语句识别模型. 智能系统学报，2024，19(3)：689-696.

[17]	Vinoth D， Prabhavathy P. An intelligent machine learning⁃based sarcasm detection and classification model on social networks. The Journal of Super⁃computing，2022，78(8)：10575-10594.

[18]	Saroj A， Pal S. Ensemble⁃based domain adaptation on social media posts for irony detection. Multimedia Tools and Applications，2024，83(8)：23249-23268.

[19]	Maladry A， Lefever E， Van H C，et al. Irony detection for Dutch：A venture into the implicit∥Proceedings of the 12^th Workshop on Computational Approaches to Subjectivity. Dublin,Republic of Ireland：Association for Computational Linguistics，2022：172-181.

[20]	Ahmed U， Lin J C W， Srivastava G. Emotional intelligence attention unsupervised learning using lexicon analysis for irony⁃based advertising. ACM Transactions on Asian and Low：Resource Language Information Processing，2024，23(1)：1-19.

[21]	Ashwitha A， Shruthi G， Shruthi H R，et al. Sarcasm detection in natural language processing. Materials Today：Proceedings，2021，37(2)：3324-3331.

[22]	Vitman O， Kostiuk Y， Sidorov G，et al. Sarcasm detection framework using context，emotion and sentiment features. Expert Systems with Applica⁃tions，2023，234：121068.

[23]	Pandey R， Singh J P. BERT⁃LSTM model for sarcasm detection in code⁃mixed social media post. Journal of Intelligent Information Systems，2023，60(1)：235-254.

[24]	Savini E， Caragea C. Intermediate⁃task transfer learning with BERT for sarcasm detection. Mathematics，2022，10(5)：844.

[25]	Tan Y Y， Chow C O， Kanesan J，et al. Sentiment analysis and sarcasm detection using deep multi⁃task learning. Wireless Personal Communications，2023，129(3)：2213-2237.

[26]

Chauhan D S， Dhanush S R， Ekbal A，et al. Sentiment and emotion help sarcasm? A multi⁃task learning framework for multi⁃modal sarcasm，sentiment and emotion analysis∥Proceedings of the 58^th Annual Meeting of the Association for Computational Linguistics. Online：Association for Computational Linguistics，2020：4351-4360.

[27]	Lou C W， Liang B， Gui L，et al. Affective dependency graph for sarcasm detection∥Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York,NY,USA：Association for Computing Machinery.2021：1844-1849.

[28]	Yu Z， Jin D， Wang X B，et al.Commonsense knowledge enhanced sentiment dependency graph for sarcasm detection∥Proceedings of the 32nd Inter⁃national Joint Conference on Artificial Intelligence，Macao，China：IJCAI，2023：2423-2431.

[29]	Zhang Y Z， Ma D， Tiwari P，et al. Stance⁃level sarcasm detection with Bert and stance⁃centered graph attention networks. ACM Transactions on Internet Technology，2023，23(2)：1-21.

[30]	Wang X B， Dong Y Q， Jin D，et al. Augmenting affective dependency graph via iterative incongruity graph learning for sarcasm detection. Proceedings of the AAAI Conference on Artificial Intelligence，2023，37(4)：4702-4710.

[31]

Devlin J， Chang M W， Lee K，et al. Bert：Pre⁃training of deep bidirectional transformers for language understanding∥Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies.Volume 1.Minneapolis,NM,USA：Association for Computational Linguistics，2019：4171-4186.

[32]	Lukin S， Walker M. Really? Well. Apparently bootstrapping improves the performance of sarcasm and nastiness classifiers for online dialogue∥Proceedings of the Workshop on Language Analysis in Social Media. Atlanta，GA，USA：NAACL/HLT，2013：30-40.

[33]	Oraby S， Harrison V， Reed L，et al. Creating and characterizing a diverse corpus of sarcasm in dialogue∥Proceedings of the 17^th Annual Meeting of the Special Interest Group on Discourse and Dialogue.Los Angeles，CA，USA：Association for Computational Linguistics，2016：31-41.

[34]	Ptáek T， Habernal I， Hong J. Sarcasm detection on Czech and English twitter∥Proceedings of COLING 2014，the 25th International Conference on Computational Linguistics：Technical Papers. Dublin，Republic of Ireland：Dublin City University and Association for Computational Linguistics，2014：213-223.

[35]	Tay Y， Luu A T， Hui S C，et al.Reasoning with sarcasm by reading in⁃between∥Proceedings of the 56^th Annual Meeting of the Association for Computational Linguistics. Volume 1：Long Papers.Melbourne，Canada：Association for Computational Linguistics，2018：1010-1020.

[36]	Zhang M S， Zhang Y， Fu G H. Tweet sarcasm detection using deep neural network∥Proceedings of the 26th International Conference on Computational Linguistics：Technical Papers. Osaka,Japan：The COLING 2016 Organizing Committee，2016：2449-2460.

[37]	Ghosh A， Veale T. Fracking sarcasm using neural network∥Proceedings of the 7^th Workshop on Computational Approaches to Subjectivity，Sentiment and Social Media Analysis. San Diego，CA，USA：Association for Computational Linguistics，2016：161-169.

[38]

Yang Z C， Yang D D， Dyer C，et al. Hierarchical attention networks for document classification∥Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics：Human Language Technologies. San Diego，CA，USA：Association for Computational Linguistics，2016：1480-1489.

[39]	Pan H L， Lin Z， Fu P，et al. Modeling the incongruity between sentence snippets for sarcasm detection. Amsterdam：Ios Press，2020：2132-2139.

[40]	Meng J N， Zhu Y L， Sun S C，et al. Sarcasm detection based on BERT and attention mechanism. Multimedia Tools and Applications，2024，83(10)：29159-29178.

基金资助

国家自然科学基金(62476005)

国家自然科学基金(62076006)

认知智能全国重点实验室开放课题(COGOS⁃2023HE02)

安徽高校协同创新项目(GXXT⁃2021⁃008)

安徽理工大学研究生创新基金(2025cx2104)

AI Summary AI Mindmap

PDF (956KB)

访问

被引

详细

导航

Received	Accepted	Published
2025-09-05
Issue Date
2026-02-09

摘要

Abstract

Graphical abstract

关键词

Key words

引用本文

1 相关工作

1.1 基于规则的讽刺检测方法

1.2 基于机器学习的讽刺检测方法

1.3 基于深度学习的讽刺检测方法

2 方法

2.1 问题定义

2.2 词汇级

2.2.1 特征提取

2.2.2 依存句法图和情感图

2.2.3 词汇级特征表示

2.3 短语级

2.3.1 短语构建

2.3.2 动态权重建模

2.3.3 短语级特征表示

2.4 特征信息融合模块

2.4.1 双仿射注意力

2.4.2 平均池化

2.5 分类模块