融合多通道GRU和CNN的情感分析模型研究

梁一鸣 ,  范菁

云南民族大学学报(自然科学版) ›› 2025, Vol. 34 ›› Issue (03) : 330 -341.

PDF (2137KB)
云南民族大学学报(自然科学版) ›› 2025, Vol. 34 ›› Issue (03) : 330 -341. DOI: 10.3969/j.issn.1672-8513.2025.03.011
信息与计算机科学

融合多通道GRU和CNN的情感分析模型研究

作者信息 +

Research on sentiment analysis model integrating multi-channel GRU and CNN

Author information +
文章历史 +
PDF (2188K)

摘要

情感分析是自然语言处理中的一项核心任务,主要评估文本中表达的情绪或感情色彩.在当前的情感分析研究中,多数模型均依赖于双向变换器模型(BERT)作为特征提取器,且主要聚焦于较为简单的二分类或三分类任务.针对细粒度情感分析,提出了一种新的混合双通道门控循环单元和卷积神经网络(GRU-CNN)情感分析模型(GGC).该模型利用生成式预训练变换器(GPT)作为特征提取器,更精准地捕获文本中的深层含义.在此基础上,模型将提取到的文本特征输入到多通道的GRU和CNN中,分别捕获全局和局部特征.同时该模型引入了注意力机制,将这2种特征进行动态融合.模型根据不同特征重要性,分配差异化权重,聚焦关键情感信息.结果表明,该方法在情感分析任务中展现出显著优势.

关键词

情感分析 / 自然语言处理 / GPT / 特征融合 / 注意力机制

Key words

sentiment analysis / natural language processing / GPT / feature fusion / attention mechanisms

引用本文

引用格式 ▾
梁一鸣,范菁. 融合多通道GRU和CNN的情感分析模型研究[J]. 云南民族大学学报(自然科学版), 2025, 34(03): 330-341 DOI:10.3969/j.issn.1672-8513.2025.03.011

登录浏览全文

4963

注册一个新账户 忘记密码

随着互联网和社交媒体的发展,情感分析的重要性也日益凸显.企业可以通过分析消费者的在线评论和反馈,了解产品或服务的市场接受度、潜在问题以及消费者的需求和期望.政府部门可以利用情感分析技术监测社会舆论的动向和大众的情绪变化,及时发现并处理可能引发社会不稳定的问题.此外,在心理学、社会学、计算机科学等领域,情感分析为学者提供了研究人类情感和认知的新视角和新方法.因此,研究和开发更先进的情感分析技术具有重要意义.
文本情感分析主要是分析文本中所蕴含的情感倾向1.情感分类,也称为情感极性分类,是情感分析中最常见的任务.按照分类的粒度不同可将情感分类分为2种类型:1)粗粒度分类,将情感分为正/负2分类或者正/中/负3分类;2)细粒度分类,将情感分为3种以上,如“乐观”“惊讶”“悲伤”“害怕”“中性”“愤怒”.
情感分析起源于自然语言处理领域,早期的研究2-3主要聚焦于基于规则和词典的方法,如关键词匹配或人工设计的规则,用以实现分类或情感判断.然而,随着深度学习技术的飞速发展以及其在自然语言处理领域的卓越表现,情感分析的主流方法发生了深刻变革.
目前,针对情感分析任务,已涌现出多种模型.这些模型大多采用Word2vec、Glove、ELMO、BERT4等作为特征提取器,并结合卷积神经网络(CNN)5、双向长短期记忆网络(BiLSTM)6、注意力机制7等下游模型,实现了对文本的高效分类.例如,Hsjeh等8针对弹屏幕评论进行情绪分析,提出了一种融合ERNIE与BiLSTM的方法,通过结合前向和后向LSTM解决了单向语义处理问题,并利用预训练的ERNIE模型显著提升了情绪分析的准确性.Liu等9将CNN应用于情感分析,提出了一种组合词汇袋(CBOW)语言模型与深度学习模型相结合的文本情感分析方法.
然而,这些方法往往仅依赖单一的局部或全局特征提取,未能充分捕捉句子的语义信息,且主要局限于简单的情感分析.为了实现细粒度情感分析,本文提出了一种新的情感分析模型.该模型创新性地采用GPT作为特征提取器,从而生成具有上下文语义信息的特征向量.在此基础上,本文利用多通道模型GRU和CNN,分别捕获全局和局部语义特征.通过引入注意力机制,模型能够动态融合这两种特征,生成更加丰富的特征表示.这一机制有助于模型更好地聚焦文本中的关键信息,减少信息丢失的风险,进而提升模型的鲁棒性和泛化能力.

1 相关工作

1.1 基于规则的方法

情感分析指的是个人对产品、服务在态度和意见上的交流10.情感分析对现实世界和社会的巨大影响促进了广泛的下游任务11.早期的情感分析方法多采用基于规则的模型,例如,Sebastiani等12提出了基于规则的情感分析模型,使用了一个公开的词汇资源SentiWordNet,该资源已经为每个单词提供了情感极性和强度的标注.模型根据词汇资源的标注信息,通过计算单词的情感得分来预测文本的情感.该模型对新词以及一词多义的情感分析存在较大误差,同时该模型没有考虑句法和语义信息.在2015年,Cambria等13提出一种改进的基于规则的情感分析模型SenticNet 5.该模型基于一个大型的跨语言知识图谱,包含了丰富的情感知识,并且结合了句法和语义信息.这些方法往往依赖于手工设计的特征或简单的规则,难以捕捉到文本中的复杂情感信息,而且对于新词或多义词的情感分析存在较大误差.

1.2 基于机器学习的方法

基于机器学习的方法可以通过学习大量标注好的数据来自动学习文本特征和模式,具有更强的泛化能力和适应性,能够处理更复杂的情感分析任务.机器学习中的很多情感分类方法多采用支持向量机(SVM)14、朴素贝叶斯(NB)15和隐马尔可夫模型(HMM)16.然而,情感分析不仅仅是基于单个词汇或短语的分类任务,它需要对文本的整体语义和上下文信息进行建模.但传统的机器学习算法在处理复杂的语义关系和上下文依赖时往往表现不佳.此外,机器学习方法需要大量的标注数据进行训练,才能达到较好的分类效果.然而,在实际应用中,获取大量高质量标注数据可能是一项耗时且昂贵的工作.

1.3 基于深度学习的方法

近年来,深度学习受到了人们的广泛关注.大量的方法采用深度学习模型来进行情感分析,如CNN和递归神经网络(RNN)、注意力机制等方法被广泛用于情感分析.Huang等17将LSTM和注意力机制用于方面级的情感分析.该模型在词和句子上引入注意力机制,以捕捉不同方面相关的情感信息.递归神经网络存在梯度消失和梯度爆炸问题.虽然LSTM解决了梯度消失的问题,但它只能在一个方向上处理.Lu等18在2021年又提出了一种改进的AT - BiGRU模型.实验结果表明,该模型能够有效地避免由拼写错误引起的文本情感分析偏差,并证明了改进后的AT - BiGRU模型在准确性、损失率和迭代时间等方面的有效性.Liu等19将CNN应用于情感分析,提出了一种组合词汇袋(CBOW)语言模型与深度学习模型相结合的文本情感分析方法.利用基于前馈神经网络的CBOW语言模型构建了文本的向量表示,然后通过标记的训练集对CNN进行训练.实验结果表明,该方法能够准确地确定文本的情感类别,且具有鲁棒性.然而仅采用CNN、LSTM、GRU等深度模型用于情感分类存在一些缺陷,其中最主要的问题在于这些模型未能充分利用文本的上下文信息.

1.4 基于预训练语言模型的方法

预训练语言模型(如BERT、GPT等)依托海量文本数据进行预训练,能够捕捉到丰富的语义信息和上下文关系,从而提升了情感分析的准确性.

预训练语言模型的关键特性体现为迁移学习能力,模型架构支持多种自然语言处理任务微调,适应多样化应用场景.在情感分析任务中,预训练语言模型可以帮助模型更好地理解文本中的情感表达,尤其是在处理复杂情感和上下文依赖方面表现出色.随着预训练语言模型的提出以其在各种自然语言处理任务上的优越表现,很多研究者将其作为特征提取器应用于情感分析.例如,Liu等20提出了一种采用深度学习模型BERT - BiGRU - Softmax的电子商务评论情感分析方法,使用BERT模型作为输入层,从电子商务评论中提取多维产品特征同时利用BiGRU模型作为隐藏层,获取语义编码并计算评论的情感权重,最后采用带有注意力机制的Softmax作为输出层,在大规模数据集上进行一系列实验取得了不错的效果.赵宏等21提出了一种基于BERT和层次化Attention的模型.该模型通过BERT提取蕴含上下文信息的词向量,接着通过两层BiGRU,然后引入局部Attention,实现了较好地情绪分类.Jiang等22提出了一种结合BERT、BiLSTM和TextCNN的混合模型,旨在实现网民评论的高精度情感多分类识别.这种模型通过集成BERT、BiLSTM和TextCNN各自的优点,显著提升了情感分类的准确性和效率.Wei23提出了一种创新的互联网文本情感分类模型,该模型巧妙地结合了BERT预训练模型、CNN、双向门控循环单元(BiGRU)以及注意力机制.在这一模型中,文本数据被并行地输入到BERT、CNN和BiGRU中,以便同时利用它们各自的优势进行特征提取.最终,通过Softmax激活函数,模型能够生成文本的情感概率分布,从而实现对文本情感的高精度分类.

综上所述,情感分析领域对提升情感分类准确性有迫切需求,关键在于充分利用文本的上下文信息.近年来,预训练语言模型如BERT和GPT在此方面取得显著进展.这些模型通过在大规模语料库上的预训练,捕获了丰富的上下文信息,并通过微调策略在下游任务中实现高效迁移学习.为进一步提升情感分类性能,结合预训练语言模型与深度模型(如CNN、LSTM、GRU)已成为一种趋势.尽管BERT常被用作特征提取器,但本文通过实验发现GPT在文本分类等特定任务上表现更佳.同时,GPT在预训练时使用了更广泛的语料库,这使其在处理多样化和复杂的文本时具有较强的泛化能力.因此,本文创新性地采用GPT作为文本特征提取器,结合多通道GRU和CNN,分别捕获文本的全局和局部语义信息.这一策略使模型能更全面地理解文本内容,深入挖掘情感表达.此外,本文还引入注意力机制,使模型自动聚焦于与情感表达密切相关的关键词、短语或句子,有效减少无关信息的干扰.这一方法不仅提升了情感分类的准确性,也为情感分析领域的研究提供了新的视角.

2 本文模型构建

2.1 模型总架构

提出了一个情感分析模型,包括以下几个部分:输入层、特征提取层、特征融合层以及分类层,如图1所示.首先,输入层负责将评论文本转换为适合特征提取器GPT处理的形式,并利用GPT提取具有上下文信息的文本特征表示.随后,特征提取层通过多通道GRU和CNN两条并行路径,对文本特征表示进行精细化处理.多通道GRU捕捉全局语义信息,而CNN则聚焦于局部语义特征,二者协同工作,使得模型能够全面理解文本的内涵.在特征融合层,本文引入了注意力机制.这一机制能够动态地为全局和局部语义特征赋予不同的权重,从而更加精准地定位并突出文本中的关键信息.最后,经过线性层的处理,模型输出分类概率的最终特征向量.

2.2 输入层

输入层是情感分类模型的起始点,其核心任务是接收原始的评论文本数据,并将其转换为模型能够理解和处理的数值形式.首先,评论文本通过分词处理,生成token序列.然后,这些token序列会被映射到GPT模型的预训练词嵌入空间中,获得每个token的数值表示.

GPT模型通常由多个Transformer层堆叠而成,每一层包含多头自注意力机制和前馈神经网络,如图2所示.这种多层堆叠的结构使得GPT能够处理复杂的自然语言任务.GPT是基于Transformer结构,它本身不具备处理序列顺序的能力,这就需要额外的位置信息输入来弥补这一缺陷.位置信息的编码主要由公式(1)和(2)线性变换得到.

P E p o s , 2 i = s i n p o s / 10   000 2 i d m o d e l.
P E p o s , 2 i + 1 = c o s p o s / 10   000 2 i d m o d e l.

给定文本输入为 T = { t 1 , t 2 , . . . , t m },其中ti 表示组成文本的第i个词,通过GPT特征提取器将其映射到相同的数学空间、如公式(3)、(4)所示.

e i = G P T _ E m b e d d i n g ( t i ) R N × 1 , i = 1,2 , . . . , M.
E = e 1 , e 2 , . . . , e M R N × M.

其中,E是嵌入向量,其每一列E[:,i]代表句子中第i个词的向量映射ei .

2.3 特征提取层

将2.2节得到的特征向量分别通过多通道GRU和CNN提取全局和局部语义信息.

GRU,即门控循环单元(gated recurrent unit),是一种循环神经网络(RNN)的架构.允许网络从输入中选择性地忽略某些信息,或者从过去的状态中选择性地记忆某些信息,从而捕捉时间序列数据中的长期依赖关系.GRU包含2个主要的门:更新门和重置门,如图3所示.更新门负责控制上一时刻状态信息对当前时刻状态的影响.而重置门则负责控制忽略前一时刻的状态信息的程度.这2个门共同作用,使得GRU能够更好地捕捉和理解数据的时序特征.

GRU通道用于从全局角度理解句子的语义信息,GRU单元主要涉及更新门、重置门和候选隐藏状态的计算,如公式(5) ~ (8)所示.

更新门(update gate)如公式(5)所示.

z t = σ W z · e t + U z · h t - 1 + b z.

其中,zt 是在时间步t的更新门; σ 是激活函数;WzUz 分别是输入和隐藏状态的权重矩阵;bz 是偏置项;et 是当前输入,ht- 1是前一时间步的隐藏状态.

重置门(reset gate)如公式(6)所示.

r t = σ W r · e t + U r · h t - 1 + b r.

其中,rt 是重置门,其余符号含义与更新门相同,参数权重信息不同.

候选隐藏状态(candidate state)如公式(7)所示.

h ˜ t = t a n h W h · e t + U h · r t h t - 1 + b h.

其中, h ˜ t是候选隐藏状态, t a n h ( )是激活函数, 表示元素乘法.重置门rt 决定了前一隐藏状态ht-1 中有多少信息被保留.

最终隐藏状态(final state)如公式(8)所示.

h t = 1 - z t h t - 1 + z t h ˜ t.

其中,ht 是当前时间步的隐藏状态,它是前一隐藏状态和候选隐藏状态的线性插值,由更新门zt 控制每个状态的贡献比.

在CNN中,卷积层通过一系列可训练的滤波器(卷积核)执行卷积操作,有效地提取输入数据的局部特征.这些卷积核在输入数据上滑动,检测特定的模式和结构,如边缘、角点等,这是其在图像识别和自然语言处理等领域表现出色的关键.通过这种机制,CNN能够识别出输入数据中重要的局部信息,而这些信息通常对整体任务识别至关重要.每个滤波器都会在输入数据上滑动,计算滤波器与输入数据局部区域的点积,并将结果作为该局部区域的特征表示,如图4所示.

CNN通道用于从局部角度理解句子的语义信息,当将GPT提取的文本特征E={e1e2,...,en }输入到CNN中时,首先需要将这些特征表示转换为一个适合CNN处理的二维矩阵形式.每个滤波器会在输入矩阵的局部区域上进行点积运算,生成一个特征图(feature map),该特征图表示了输入数据中特定类型的局部特征的存在和强度.设CNN的卷积核为W,大小为 k × k,输入矩阵的某个局部区域表示为 X i : i + k - 1 , j : j + k - 1.卷积操作在该局部区域上的输出值 S i , j可以通过公式(9)计算.

S i , j = m = 0 k - 1 n = 0 k - 1 X i + m , j + n · W m , n.

其中, S i , j是输出特征图 i , j上的值; X i + m , j + n是输入矩阵对应位置的值, W m , n是卷积核中对应位置的值.

为了增加模型的非线性能力,在卷积操作后应用一个激活函数(如ReLU),如公式(10)所示.

S i , j a c t i v a t e d = R e L U ( S i , j ).

为了捕获不同尺度和类型的特征,CNN通常会使用多个不同的卷积核,并在每个卷积层之后可能还会进行池化操作以进一步减少数据的空间尺寸,如公式(11)所示.

S i ' , j ' p o o l e d = m a x m = 0 p - 1 m a x n = 0 p - 1 S i ' · p + m , j ' · p + n a c t i v a t e d.

其中, S i ' , , j ' p o o l e d为池化后的特征图在位置 i ' , j '上的值.

假设有c个卷积通道,每个通道经过池化处理后得到一个长度为l的一维特征向量.那么,最终的输出向量V可以通过拼接这些特征向量来得到,如公式(12)所示.

V = [ v 1 , v 2 , . . . , v c ].

其中,vi 是第i个卷积通道经过池化处理后得到的一维特征向量.

2.4 特征融合层

注意力机制借鉴人类视觉认知原理,实现文本关键区域的自适应聚焦与差异化权重分配.在特征融合层中,本文利用注意力机制对全局和局部特征进行加权融合.具体而言,这种机制使得模型可以根据各特征的实际重要性,自动学习并分配相应的权重.这样的处理不仅突出了关键特征,还能有效地抑制那些相对次要的特征,从而在保持模型效能的同时,优化了特征处理的整体效率.

特征融合层通过注意力机制对从GRU和CNN得到的特征进行加权融合,如图5所示.模型根据特征的重要性动态分配权重,减少信息丢失,提高分类准确性.设GRU提取的全局特征向量为G,特征融合的数学表达式描述如公式(13) ~ (15)所示.

c o m b i n e s = c o n c a t e n t i o n [ V , G ].
a t t e n t i o n _ s c o r e s = s o f t m a x ( L i n e a r ( c o m b i n e s ) ).
c o m b i n e _ a t t e n t i o n = m u l t i p l y ( c o m b i n e s , a t t e n t i o n _ s c o r e s ).

2.5 分类层

分类层是情感分类模型的最后一层,其任务是根据融合后的特征向量进行情感分类.在本模型中,本文采用了一个线性层作为分类层.线性层接收融合后的特征向量作为输入,并通过一系列的线性变换和激活函数处理,最终输出每个情感类别的概率分布.通过比较不同类别的概率大小,模型能够判断输入文本的情感倾向,并给出相应的分类结果.

P y x = s o f t m a x ( W · c o m b i n e _ a t t e n t i o n + b ).

2.6 模型训练

本文采用交叉熵损失函数对模型进行训练.交叉熵损失函数是深度学习中最常用的损失函数之一,特别适用于分类任务.它能够有效地提升模型的精确率.交叉熵损失函数的定义如下:

L y , y ^ = - i y i l o g y ^ i.

其中,y是真实的标签,表示正确的类别; y ^是模型的概率分布.

3 实验结果及参数设置

3.1 参数设置

数据集:选择了4个不同类别的数据集来评估模型性能:2分类数据集(Weibo_senti_100k)、3分类数据集(Emo - analysis - 3)、由“疫情网民情绪识别比赛”提供的3分类数据集(Pandemic_senti_3)和6分类数据集(SMP2020_EWECT).各数据集的信息如下.

Weibo_senti_100k:此数据集包含11万条微博文本,每条微博都有情感极性的标注.其中,训练集、测试集、验证集分别为9万条、1万条和1万条.数据集的处理包括语料预处理,如分词、去除标点、转换为小写等,以保证数据的准确性和一致性.

Emo - analysis - 3:该数据集包含4 737条训练集、676条验证集和1 355条测试集.

Pandemic_senti_3:来自“疫情网民情绪识别比赛”的数据集,同样是一个3分类数据集,专门用于识别和分析疫情相关的网民情绪.其中包含7万条训练集、1万条验证集和2万条测试集.

SMP2020_EWECT:此数据集用于微博情绪分类,包含6个情绪类别,包含3万条训练集、4千条验证集和9千条测试集.

采用中文预训练语言模型GPT2作为特征提取器来获得具有上下文语义信息的字符表示.具体实施细节如表1所示.

在评估模型的性能时,采用了一套全面的指标,包括精确率Precision、Macro - Recall和Macro - F1.如公式(18)所示.

P r e c i s i o n = T P T P + F P   .

其中,TP(true positive)是被模型正确预测为正类的样本数.FP(false positive)是模型错误地预测为正类的负样本数.

Macro - Recall是针对多分类问题中的召回率的平均计算方式.它首先单独计算每个类别的召回率,然后求这些召回率的算术平均值.对于每个类别,召回率如公式(19)所示.

R e c a l l = T P T P + F N .

其中,FN是假负例(未正确预测的正例).计算完成后,对所有类别的召回率取平均,如公式(20)所示.

M a c r o - R e c a l l = R e c a l l i n .

其中,n为类别总数.

Macro - F1分数同样适用于多分类问题,是单个类别F1分数的算术平均.F1分数是精确率和召回率的调和平均,为每个类别独立计算,如公式(21)所示.

F 1 = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l .

对所有类别的F1分数求平均,如公式(22)所示.

M a c r o - F 1 = F 1 i n .

3.2 实验结果与分析

3.2.1 不同特征提取器对比实验

为了验证GPT作为特征提取器在细粒度情感分析任务中是否比BERT更有效.本文构建2个基于BERT和GPT的模型,并保持模型的其他部分(两层Linear)一致.在4个数据集上对两种特征提取器进行了实验,实验结果如表2所示.

表2可以看出,在多个数据集上,采用GPT作为特征提取器的模型,在精确率、宏平均召回率(Macro - Recall)和宏平均F1分数(Macro - F1)上都优于采用BERT作为特征提取器的模型.这一性能差异可以归因于GPT的生成性预训练方式,该方法赋予了模型更强的文本生成和理解能力,这对于捕捉情感分析中的微妙情绪变化尤为关键.此外,GPT在处理长文本方面的优势也可能是一个重要因素,因为它不受双向编码的限制,能够一次性处理整个文本序列,从而更好地捕捉上下文信息.此外,GPT在预训练过程中使用了更广泛的语料库,这也是其性能优越的原因之一.广泛的语料库使得GPT在处理多样化和复杂的文本时具有较强的泛化能力.无论是正式文本还是非正式文本,无论是新闻文章还是社交媒体帖子,GPT都能够有效地提取出其中的关键信息,并进行准确的情感分析.

3.2.2 最佳特征融合策略选择

在模型GRU与CNN特征融合阶段,为了选择最佳的多特征融合方式,本文采取了4种特征融合方案,包括拼接、相加、相乘(元素级相乘)、注意力机制.本文在SMP2020 - EWECT数据集上进行了相同条件的实验,对测试集每隔一个批次计算一次测试结果,得出了每种融合方法的精确率、Macro - R以及MacroF1值,如图6所示.

在SMP2020 - EWECT数据集上的实验表明,使用注意力机制进行特征融合时,模型的精确率与Macro - F1值均达到最优,同时Macro - Recall也展示出优异的性能指标.注意力机制对不同特征进行差异化分配权重系数,同时强化对情感分析任务具有重要作用的信息,这种特性使模型在复杂数据处理过程获得更精细的解析效果.这种方法能够充分利用GRU在时间序列分析方面的优势与CNN在空间特征提取上的能力,通过动态调整权重来适应不同的数据特征,从而提高了模型整体的性能和泛化能力.因此,综合考虑各方面因素后,模型最终选择注意力机制作为特征融合的方式.

3.2.3 不同融合方式模型收敛结果对比

为了验证意力机制的有效性,以及注意力机制是否能够优化特征处理的整体效率.本文在相同的实验条件下对不同融合策略的模型进行了实验.训练过程中的损失曲线图如图7所示.

通过对比不同融合策略(如concatenate、add等)和采用注意力机制的收敛曲线图,可以观察到采用注意力机制的模型在相同的epoch下损失值最低,且收敛后曲线更稳定,不易出现过拟合.这表明:注意力机制使得模型能够更快地学习到数据的内在规律,从而加速训练过程.注意力机制使得模型对关键特征的关注更加集中,从而提高了模型的泛化能力,降低了过拟合的风险.

3.2.4 与基线模型对比

为了验证本文模型的优势和有效性,本文选择了在不同数据集上与基线模型进行对比.在4个数据集上进行的实验结果如表3所示.该表展示了情感分类和新闻分类任务的分类精确率、Macro - Recall和 Macro - F1值.所有模型都在相同的实验条件下进行了复现,确保了实验结果的可比性.表中的A代表注意力机制;CNN表示卷积神经网络;BiGRU表示双向门控循环单元;BiLSTM表示双向长短时记忆网络.

实验结果表明,GGC在多数数据集上均展现出卓越的性能,特别是在SMP2020_EWECT数据集上,本研究的模型更是超越了所有基线模型,取得了最优表现.这充分彰显了GGC模型在细粒度情感分类任务中的独特优势.然而,在Emo - analysis - 3三分类数据集上,虽然GGC模型未能夺得头筹,但仍保持着显著的优势.深入分析后发现,这是由于Emo - analysis - 3数据集相对较小导致的.在有限的数据规模下,模型的复杂度过高极易引发过拟合现象,从而削弱了模型的泛化能力.鉴于此,未来将致力于进一步优化模型结构,降低其复杂度,以在小数据集上取得更佳的表现.

通过观察表3中的数据,可以清晰地发现,在SMP2020_EWECT数据集上,当基于BERT的模型(如BERT - BiLSTM、BERT - CNN等)融入注意力机制后,模型的性能普遍呈现出显著的上升趋势.这一结果表明,注意力机制在细粒度情感分类任务中发挥了关键作用,它能够有效地关注并强调对情感分类具有重要影响的部分,从而显著提升了模型的性能.

3.3 消融实验

在SMP2020_EWECT数据集上对GGC模型进行了消融实验,以评估每个组件的有效性.所有消融实验均是在相同的实验条件下进行,本文以完整的模型作为基线,并逐步移除各个模块,实验结果如表4所示.

实验结果证实:移除CNN模块、GRU模块、CNN与GRU的组合模块以及注意力机制后,模型在精确率、Macro - Recall和Macro - F1指标上呈现系统性衰减,直接验证了这些组件的关键作用.特别值得注意的是,当同时移除CNN与GRU的组合模块后,模型的精确率、Macro - Recall、Macro - F1分别下降了7.4%、12.4%和10.48%.这进一步验证了CNN与GRU在模型中的互补性,CNN侧重局部特征再提炼,GRU专注全局语义整合,这种双路径架构使BERT提取的文本特征在空间维度和时序维度获得双重增强.通过这种组合,模型能够从不同维度更全面地捕捉文本中的关键信息,进而提升对文本特征的表征能力,从而显著提高模型的各项性能指标.

4 结语

提出了一种创新性的情感分析模型,该模型巧妙地结合了GRU和CNN的优势.模型首先通过GPT特征提取器,捕获了蕴含丰富上下文语义信息的特征向量.随后,利用多通道GRU和CNN,分别从全局和局部两个层面深入提取语义特征.为了进一步提升特征表示的质量,模型还引入了注意力机制,动态地融合了多通道语义特征,从而生成了更加全面且精确的特征表示.

实验结果表明,本文提出的模型在多个数据集上均取得了优异的表现,显著超越了其他基线模型,充分证明了其有效性和普适性.在Emo - analysis - 3数据集上,GGC模型未能全面超越基线模型,这揭示小规模数据场景仍存优化潜力.为了弥补这一不足,并推动情感分析领域的发展,计划在未来的研究中关注少样本学习.此外,还将探索如何利用外部知识,如知识图谱等,来进一步提升模型的性能.同时对于长文本例如篇章级的文本情感分析也是未来研究的重点.相信,通过持续的努力和创新,能够构建出更加高效、准确的情感分析模型,为实际应用提供更有力的支持.

参考文献

[1]

方澄,李贝,韩萍,吴琼.基于语法依存图的中文微博细粒度情感分类[J].计算机应用202343(4):1056 - 1061.

[2]

PANG B LEE L VAITHYANATHAN S. Thumbs up?‍Sentiment classification using machine learning techniques[J]. Computing Research Repository2002:79 - 86.

[3]

AGARWAL B MITTAL N BANSAL P, et al. Sentiment analysis using common-sense and context information[J]. Computational Intelligence and Neuroscience20152015:1 - 9.

[4]

DEVLIN J CHANG M W KENTON L, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]// North American Chapter of the Association for Computational Linguistics, 2019:4171 - 4186.

[5]

SHARMA A K CHAURASIA S SRIVASTAVA D K. Sentimental short sentences classification by using CNN deep learning model with fine tuned word2Vec[J].Procedia Computer Science2020167:1139 - 1147.

[6]

XU G X ZHANG Z X ZHANG T, et al. Aspect - level sentiment classification based on attention - bilstm model and transfer learning[J].Knowledge - based Systems2022245:108586.

[7]

AYETIRAN E F. Attention - based aspect sentiment classification using enhanced learning through cnn - bilstm networks[J]. Knowledge - based Systems2022252:109409.

[8]

HSIEH Y H ZENG X P. Sentiment analysis: an ERNIE - BiLSTM approach to bullet screen comments[J]. Sensors202222(14):5223.

[9]

LIU B. Text sentiment analysis based on CBOW model and deep learning in big data environment[J]. Journal of ambient Intelligence and Humanized Computing202011:451 - 458.

[10]

DONG L WEI F TAN C, et al. Adaptive recursive neural network for target - dependent Twitter sentiment classification[C]// Proceedings of the Annual Meeting of the Association for Computational Linguistics.201452(2): 49 - 54.

[11]

ZHAO L LIU Y ZHANG M, et al. Modeling label - wise syntax for fine - grained sentiment analysis of reviews via memory - based neural model[J]. Information Processing & Management202158(5):102641.

[12]

SEBASTIANI F ESULI A. Sentiwordnet: a publicly available lexical resource for opinion mining[C]//Proceedings of the 5th International Conference on Language Resources And Evaluation. European Language Resources Association (ELRA) Genoa, Italy, 2006:417 - 422.

[13]

CAMBRIA E PORIA S HAZARIKA D, et al. SenticNet 5: discovering conceptual primitives for sentiment analysis by means of context embeddings[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 201832(1): 1795 - 1802.

[14]

ALJUAID H IFTIKHAR R AHMAD S, et al. Important citation identification using sentiment analysis of In - text citations[J]. Telematics and Informatics202156:101492.

[15]

RAHAB H ZITOUNI A DJOUDI M. SANA: sentiment analysis on newspapers comments in algeria[J].Journal of King Saud University - Computer and Information Sciences201933(7): 899 - 907.

[16]

NASFI R BOUGUILA N. Sentiment analysis from user reviews using a hybrid generative - giscriminative HMM - SVM approach.[J]. Lecture Notes in Computer Science2022:74 - 83.

[17]

HUANG B, OU Y, CARLEY K M, et al. Aspect level sentiment classification with attention - over - attention neural networks[C]//Social, Cultural, and Behavioral Modeling: 11th International Conference, SBP - BRiMS 2018, Washington, DC, USA, July 10 - 13, 2018, Proceedings 11. Springer International Publishing, 2018:197 - 206.

[18]

LU X ZHANG H.Sentiment analysis method of network text based on improved AT - BiGRU model[J].Scientific Programming2021, 2021(12):1 - 11.

[19]

LIU B. Text sentiment analysis based on CBOW model and deep learning in big data environment[J]. Journal of Ambient Intelligence and Humanized Computing202011: 451 - 458.

[20]

LIU Y LU J YANG J, et al. Sentiment analysis for e - commerce product reviews by deep learning model of Bert - BiGRU - Softmax[J]. Mathematical Biosciences and Engineering202017(6):7819 - 7837.

[21]

赵宏,傅兆阳,赵凡,基于BERT和层次化Attention的微博情感分析研究[J].计算机工程与应用202258(05):156 - 162.

[22]

JIANG X C SONG C XU Y C, et al. Research on sentiment classification for netizens based on the BERT - BiLSTM - TextCNN model[J].PeerJ Computer Science20228:e1005.

[23]

WEI G L. Research on internet text sentiment classification based on BERT and CNN - BiGRU[J]. 2022 11th International Conference on Communications, Circuits and Systems (ICCCAS)2022: 285 - 289.

[24]

DONG J C HE F J GUO Y C, et al. A commodity review sentiment analysis based on BERT - CNN model[C]//International Conference on Cloud Computing and Security, 2020:143 - 147.

[25]

ZHOU P SHI W TIAN J, et al. Attention - based bidirectional long short - term memory networks for relation classification[C]// Annual Meeting of the Association for Computational Linguistics, 2016:207 - 212.

[26]

ZHANG B L ZHOU W. Transformer - Encoder - GRU (T - E - GRU) for Chinese sentiment analysis on chinese comment Text[J]. Neural Processing Letters202255(2):1847 - 1867.

[27]

KAMYAB M LIU G H RASOOL A, et al. ACR - SA: attention - based deep model through two-channel CNN and Bi - RNN for sentiment analysis[J].Peer J Computer Science20228: e877.

基金资助

国家自然科学基金(61540063)

AI Summary AI Mindmap
PDF (2137KB)

296

访问

0

被引

详细

导航
相关文章

AI思维导图

/