基于增强正例与层间负例的语义相似性模型

蔡晓东; 黄业洋; 董丽芳

doi:10.13229/j.cnki.jdxbgxb.20240237

吉林大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (11) : 3705 -3714. DOI: 10.13229/j.cnki.jdxbgxb.20240237

计算机科学与技术

基于增强正例与层间负例的语义相似性模型

作者信息 +

Semantic similarity model based on augmented positives and interlayer negatives

Author information +

文章历史 +

PDF (2125K)

摘要

在基于对比学习的语义相似性模型中，不同正例句子间的信息交互不充分及传统的负样本采集策略中困难负例稀缺，导致模型难以捕捉句子间的细微特征差异，进而无法准确捕捉文本间的相似性。本文提出了一种基于增强正例与层间负例的语义相似性方法，通过设计动态邻域机制融合不同正例的信息，并提出了困难负例生成方法，显著提高了语义相似判断的相关性。首先，从动态邻域中检索与正例语义特征相似的句子嵌入，将其与正例拼接，并通过自注意力聚合得到增强正例，从而融合不同正例的信息；其次，提出了困难负例生成方法，将模型中间层的句子表示作为原始正例的困难负例，并引入交叉熵损失进行惩罚，以此改进负例采样策略。实验结果表明：在语义相似性任务数据集STS2012~STS2016、STS-B、SICK-R上，本文方法效果显著，Spearman相关系数较先进模型在BERT-base、BERT-large的基础上分别平均提升1.09和0.34个百分点。

Abstract

In the semantic similarity model based on contrastive learning， insufficient information exchange between sentences with different positive examples and the scarcity of hard negative examples in traditional negative sample collection strategies make it difficult to capture the subtle feature differences between sentences， thereby inability to accurately capture the similarity between texts. This article proposes a semantic similarity method based on augmented positives and interlayer negative. By designing a dynamic neighborhood mechanism to fuse information between different positive examples and proposing a method for generating difficult negative examples， the correlation of semantic similarity judgment is significantly improved. Firstly， retrieve sentence embeddings with similar semantic features to positive examples from dynamic neighborhoods， concatenate them with positive examples， and then obtain augmented positive examples through self attention aggregation， thereby fusing information from different positive examples. Secondly， a method for generating difficult negative examples is proposed， which takes the sentence representation in the middle layer of the model as the original positive example of difficult negative examples， and intraduces cross entropy loss as punishment to improve the negative example sampling strategy. The experimental results show that in the semantic similarity task dataset STS2012~STS2016， STS-B， SICK-R， the method proposed in this paper has a significant effect， with Spearman correlation coefficients increasing by an average of 1.09 and 0.34 percentage points compared to advanced models on the basis of BERT-base and BERT-large， respectively.

Graphical abstract

关键词

深度学习 / 对比学习 / 语义相似性 / BERT

Key words

deep learning / contrastive learning / semantic similarity / BERT

引用本文

引用格式 ▾

[Author(id=1273339716859048499, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339715172938166, orderNo=0, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=caixiaodong@guet.edu.cn, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1273339716926157371, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339715172938166, authorId=1273339716859048499, language=EN, stringName=Xiao-Dong CAI, firstName=Xiao-Dong, middleName=null, lastName=CAI, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=School of Information and Communication，Guilin University of Electronic Technology，Guilin 541004，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1273339716976489022, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339715172938166, authorId=1273339716859048499, language=CN, stringName=蔡晓东, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=桂林电子科技大学信息与通信学院，广西壮族自治区桂林 541004, bio={"content":"

蔡晓东（1971-），男，教授，博士.研究方向：人工智能，自然语言处理.E-mail：caixiaodong@guet.edu.cn

"}, bioImg=null, bioContent=

蔡晓东（1971-），男，教授，博士.研究方向：人工智能，自然语言处理.E-mail：caixiaodong@guet.edu.cn

, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1273339716775162409, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339715172938166, xref=null, ext=[AuthorCompanyExt(id=1273339716791939626, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339715172938166, companyId=1273339716775162409, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=School of Information and Communication，Guilin University of Electronic Technology，Guilin 541004，China), AuthorCompanyExt(id=1273339716804522540, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339715172938166, companyId=1273339716775162409, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=桂林电子科技大学信息与通信学院，广西壮族自治区桂林 541004)])]), Author(id=1273339717026820676, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339715172938166, orderNo=1, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1273339717098123851, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339715172938166, authorId=1273339717026820676, language=EN, stringName=Ye-yang HUANG, firstName=Ye-yang, middleName=null, lastName=HUANG, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=School of Information and Communication，Guilin University of Electronic Technology，Guilin 541004，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1273339717148455502, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339715172938166, authorId=1273339717026820676, language=CN, stringName=黄业洋, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=桂林电子科技大学信息与通信学院，广西壮族自治区桂林 541004, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1273339716775162409, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339715172938166, xref=null, ext=[AuthorCompanyExt(id=1273339716791939626, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339715172938166, companyId=1273339716775162409, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=School of Information and Communication，Guilin University of Electronic Technology，Guilin 541004，China), AuthorCompanyExt(id=1273339716804522540, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339715172938166, companyId=1273339716775162409, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=桂林电子科技大学信息与通信学院，广西壮族自治区桂林 541004)])]), Author(id=1273339717198787156, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339715172938166, orderNo=2, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1273339717270090333, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339715172938166, authorId=1273339717198787156, language=EN, stringName=Li-fang DONG, firstName=Li-fang, middleName=null, lastName=DONG, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=School of Information and Communication，Guilin University of Electronic Technology，Guilin 541004，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1273339717320421985, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339715172938166, authorId=1273339717198787156, language=CN, stringName=董丽芳, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=null, address=桂林电子科技大学信息与通信学院，广西壮族自治区桂林 541004, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1273339716775162409, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339715172938166, xref=null, ext=[AuthorCompanyExt(id=1273339716791939626, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339715172938166, companyId=1273339716775162409, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=School of Information and Communication，Guilin University of Electronic Technology，Guilin 541004，China), AuthorCompanyExt(id=1273339716804522540, tenantId=1045748351789510663, journalId=1155139928303341643, articleId=1273339715172938166, companyId=1273339716775162409, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=桂林电子科技大学信息与通信学院，广西壮族自治区桂林 541004)])])] 蔡晓东,黄业洋,董丽芳. 基于增强正例与层间负例的语义相似性模型[J]. 吉林大学学报(工学版), 2025, 55(11): 3705-3714 DOI:10.13229/j.cnki.jdxbgxb.20240237

登录浏览全文

4963

注册一个新账户忘记密码

0 引言

语义相似性^［1］衡量了两个文本在语义层面上的相似程度，是自然语言处理（Natural language processing， NLP）领域中一项至关重要的任务。该任务在自动问题回答、信息检索、文本分类、剽窃检测等场景具有广泛应用。

针对语义相似性任务，各种模型相继被提出。近年来，GPT^［2］、BERT^［3］、RoBERTa^［4］、XLNet^［5］等预训练模型采用预训练加微调的策略，学习不同上下文嵌入表示，刷新了多个NLP任务的最佳纪录，成为当前NLP领域的主流研究方法。然而研究发现，在预训练模型的训练过程中存在词嵌入的各向异性^［6］，即词嵌入在各维度的特征表示不一致，这严重影响了模型的泛化性和鲁棒性。

为了改善句子表示的质量、减轻各向异性，2019年，Reimers等^［7］在BERT和RoBERTa的基础上结合孪生网络，提出了SBERT和SRoBERTa模型。其主要方法是先通过孪生网络学习文本的正表示，再利用Triplet loss函数强化正负样本的距离，最后计算文本相似性。2021年，Gao等^［8］提出了SimCSE模型，采用无监督对比学习方式，以Dropout作为数据构造增强正例，通过拉近相似的句子（正对）、推远不相似的句子（负对），获得高质量句子表示，该模型成为后续很多语义相似性研究的基础。Wu等^［9］提出了ESimCSE模型，对输入句子进行单词重复操作后输入BERT，得到长度不同的正对，并引入动量对比增加负对数量，获得了良好的效果。2022年，Zhang等^［10］提出了ArgCSE模型，采用ArcCon损失增强正负对区分能力，并提出新任务捕获三元组句子间的蕴涵关系。Chuang等^［11］提出了DiffCSE模型，在Dropout增强基础上引入了基于掩码语言模型（Masked language model， MLM）的单词替换，有效提高了模型的性能。2023年，Liu等^［12］提出了RankCSE模型，在SimCSE模型基础上引入了基于排序的损失函数训练模型，通过学习如何对句子进行排序以获得更好的句子表示，很好地缓解了词嵌入的各向异性问题。近期，Wang等^［13］为了减轻特征抑制，提出了基于软负样本的无监督句子嵌入方法及双向边缘损失（Bidirectional margin loss， BML），有效提高了句子嵌入质量。

然而，以往研究通常将每个句子视为独立的类别，将其与其他句子区分开，却未充分考虑不同正例间的相关性，导致句子间信息交互不充分。例如，在多数智能客服场景中，系统只支持单句对话，不能结合用户输入的不同上下文句子的关联性回答问题。因此，有必要进一步研究不同正例句子间的相关性。

此外，以往的研究大多聚焦于正样本构建上，对负样本仅简单地批量采集或者随机从训练数据中采集，导致采集到的负样本容易与正样本区分、困难负样本稀缺，从而使得模型未能学习不同句子间的细微特征，损害了特征空间的均匀性，降低了模型的泛化能力。

针对以上问题，受文献［14-16］的启发，本文提出了一种基于增强正例与层间负例的语义相似性模型（Semantic similarity model based on augmented positives and interlayer negatives，APINCSE），通过构建动态邻域得到增强正例、基于层间编码生成困难负样本，获得更好的句子表示，显著提高了语义相关的准确性。

1 APINCSE

APINCSE模型的整体框架如图1所示。在APINCSE中，多个句子首先通过编码器得到句子编码向量。其次，经过多层注意力聚合网络，获得融合各层特征的句子嵌入。选择每个句子嵌入的第一个和第二个维度向量作为正样本对，而其他句子嵌入则视为负样本。再次，通过构建动态邻域检索特征相似度高的样本，选取相似度最高的N个嵌入与当前正样本拼接，经加权归一化形成增强正例；利用编码器中间层的隐藏状态构建对应句子的困难负样本，作为额外的负例。最后，采用不同交叉熵损失的融合方法训练语义相似性模型。

1.1　基于多层注意力聚合的嵌入层

研究发现，当前大多数研究直接采用BERT预训练模型的输出（如嵌入的最后一层）作为下游任务的句子表示，这样将无法学习每一层不同的特征信息。为了将每一层不同的特征信息用于句子表示，本文设计了多层注意力聚合网络作为嵌入方式。

具体而言，首先设

X 1

、

X 2

，…，

X n

为输入的句子，经过BERT编码器编码后得到每一层的隐藏状态

h h i d d e n i

：

h h i d d e n i = [h [C L S] i, h 1 i, h 2 i, …, h n i] ∈ R N × L × d

（1）

式中：

h h i d d e n i

∈

R N × L × d

为句子编码后第

i

层的隐藏状态；

h [C L S] i

为［CLS］标记对应的词向量；

N

为输入句子数量；

L

为每个句子的标记长度；

d

为词向量维度（默认为768或1 024）。将每层的

h h i d d e n i

与注意力掩码

h a t t e n_m a s k

∈ R N × L

进行加权平均，得到对应层的平均向量表示

h a i

：

h a i = ∑ l = 1 L h h i d d e n i × h a t t e n_m a s k l ∑ l = 1 L h a t t e n_m a s k l

（2）

式中：

h a t t e n_m a s k l

为第

l

个标记的注意力掩码。

其次，利用得到的每层［CLS］向量表示

h [C L S] i

和每层平均向量表示

h a i

对每层信息进行重要性分析，计算公式如下：

α i = W q h [C L S] i W k h a i ∑ j ∈ N W q h [C L S] i W k h a j

（3）

h l i = ∑ j ∈ N α j W v h a j

（4）

h L = ∑ i = 1 N h l i

（5）

式中：

α i

为第

i

层的重要性分数；

W q

、

W k

、

W v

为可学习的参数；

h l i

为每层重要性分数的向量表示；

h L

为所有层重要信息的向量表示，反映所有层的信息相关性。

再次，利用最后一层的［CLS］标记向量

h [C L S] l a s t

和

h L

，通过具有一层结构的残差网络进行特征聚合，得到最终句子嵌入

h

，计算过程如下：

h c l = C o n c a t (h [C L S] l a s t, h L)

（6）

h = R S N (h c l)

（7）

式中：

h ∈ R b_s × n u m_s e n t × h i d d e n_s i z e

，包含了上下文信息和每层的重要性信息；

R S N (·)

为一层结构的残差网络；

C o n c a t (,)

为向量拼接操作。

最后，取

h

第一个维度和第二个维度的向量作为正样本对

(h i, h i +),

同批次内其他句子嵌入作为负例。计算其InfoNCE损失，计算过程如下：

l I = - l o g e s i m (h i, h i +) / τ ∑ j = 1 N e s i m (h i, h j +) / τ

（8）

s i m (h 1, h 2) = h 1 T h 2 h 1 ⋅ h 2

（9）

式中：N为一个批次内的句子数量；

(h i, h i +)

为正样本对；

(h j, h j +)

为负样本对；

s i m (h 1, h 2)

为余弦相似函数，反映两个向量之间的相似程度；

τ

为温度超参数，主要调控对负样本的关注程度。

损失函数

l I

的目标是最大化正样本对的相似度，最小化负样本对的相似度，通过学习正负样本间的差别构建句子表示。

1.2　基于动态邻域的增强正例构建

区别于仅通过输入句子生成嵌入，为了捕获不同正例句子间的联系，本文设计了动态邻域检索机制，获得与目标嵌入特征更一致的邻居嵌入，再利用邻居相似嵌入构建增强正例。具体而言，给定一个动态邻域

α ∈ R L × d

，其中

L

为邻域长度，默认为1 024，

d

为句子嵌入维度，默认为768。对于每一步，本文采用先进先出的策略将不同正嵌入送入邻域，更新邻域的方法为：

α n e w = C o n c a t s g h 1 + h 1 +, ⋯, h l + h l +, α o l d [l : L]

（10）

式中：

α o l d 、 α n e w

分别为更新前后的邻域网络；

C o n c a t (,)

为向量拼接操作；

l

为邻域丢弃或新增的句子嵌入数量，其值等于设置的批次大小；

s g {,}

为停止梯度传播操作，表示对传入邻域内的句子嵌入不更新梯度，只取数值。

式（10）可以理解为在旧邻域

α o l d

中丢弃

l

个句子嵌入后，将剩余的

l + 1

L

区间的嵌入与最新传入的

l

个正嵌入进行拼接，以此实现邻域的动态更新。

在邻域中，首先，计算当前正样本

h +

与检索到的正样本之间的余弦相似度。其次，对余弦相似度进行排序，取相似度最高的

k

个邻居样本

{h i s} i = 1 k

，并与

h +

进行拼接，得到向量

H = {h +, h 1 s, h 2 s, …, h k s} ∈

R (k + 1) × d

。再次，计算正样本与向量

H

中每个元素的归一化注意力分数，将该分数与

H

相乘得到增强正例

h p +

。具体计算过程如下：

S i m i l a r i t y = s i m (h +, α n e w)

（11）

{h i s} i = 1 k = a r g s o r t (S i m i l a r i t y) [: k]

（12）

H = C o n c a t (h +, h i s)

（13）

h p + = H · s o f t m a x h + H T β

（14）

式中：

s i m (,)

为余弦相似函数，反映两个向量之间的相似程度；

a r g s o r t () [: k]

为对变量进行排序，并取前

k

个值；

C o n c a t (,)

为向量拼接操作；

β

为超参数；

h p + ∈ R N × d

。

式（14）表示通过注意力聚合机制，为相似度更高的正例赋予更大的权重，使增强正例

h p +

融合了与其相似的正嵌入信息。

最后，利用增强正例计算对应的InfoNCE损失，计算过程如下：

l P = - l o g e s i m (h i, h i p +) / τ ∑ j = 1 N e s i m (h i, h j p +) / τ

（15）

式中：

(h i, h i p +)

为增强正样本对；

(h i, h j p +)

为当前正例与其他句子的增强正例构成的负样本对。

该损失函数将

(h i, h i p +)

的距离拉近、

(h i, h j p +)

的距离拉远，通过最小化

l P

的值学习不同增强正例之间的特征差异，进而得到更好的句子表示。

1.3　基于层间信息的困难负样本生成

受Robinson等^［15］的启发，他们在图像对比学习中引入了困难负样本，即将与原图片相似但内容不同的图片作为困难负样本，以此促使模型更好地区分不同目标间的细微差别。本文提出了困难负例生成方法，通过计算编码器每一层文本向量与正例的相似性，选择相似性最高一层的文本向量作为困难负样本。该方法在增加负样本数量的同时，确保了选择的负样本是模型最难区分的样本，使模型在训练过程中主要关注难以区分的样本，从而更好地捕捉文本间的复杂关系。

具体而言，每个句子经过编码器会得到［CLS］标记在每层的隐藏状态

h [C L S] i, 1 ≤ i ≤ 11

。本文选取编码器中间每一层［CLS］标记对应的向量

h [C L S] i

，计算其与正例之间的余弦相似性，取相似性最高一层的文本向量作为对应正例的困难负样本

h i -

，再计算其InfoNCE损失，计算过程如下：

S i m i i = s i m (h [C L S] i, h [C L S] 12), 1 ≤ i ≤ 11

（16）

a = a r g m a x i = 1 11 S i m i i

（17）

h i - = h [C L S] a

（18）

l N = - l o g e s i m (h i, h i +) / τ ∑ j = 1 N e s i m (h i, h j +) + e s i m (h i, h j -)

（19）

式中：

(h i, h i +)

为正样本对；

(h i, h j +)

为负样本对；

(h i, h i -)

为构建的层间负样本对。

式（19）表示加入困难负样本对，并将正样本对的距离拉近、困难负样本对的距离拉远，通过困难负样本学习更多的差异化特征。

1.4　损失函数

综上，得到了损失函数

l I

、

l P

、

l N

，为了让模型更好地区分学习基础正负样本、增强正样本、层间困难负样本，本文将上述损失函数进行融合，得到最终的损失函数

l a l l

，计算过程如下：

l a l l = l I + l P + l N

（20）

1.5　模型伪代码

为了便于读者快速梳理本文思路并实现模型复现，本文给出APINCSE模型的伪代码。

输入：批次大小为N的句子对

输出:句子对的相似性预测分数

开始

1.基于预训练编码器生成每个句子对应每一层的文本向量

h h i d d e n i

2.基于

h h i d d e n i

经式（2）~式（7）计算每层文本信息的向量表示，并与最后一层文本向量融合，得到最终嵌入

h

3.基于

h

经编码器生成普通正样本对（

h

_i，

h i +

）和普通负样本对（

h

_i，

h j +

）

4.基于式（8）计算普通对比损失l_I

5.基于文本向量

h

_i 经式（10）构建动态邻域，基于动态邻域经式（11）~式（14）生成增强正例

h

^p+

6.基于增强正例经式（15）计算增强损失l_P

7.经式（16）、式（17）计算层间相似性，并得到层间负例

h i -

8基于层间负例

h i -

经式（19）计算层间负例损失l_N

9基于l_I、l_P、l_N经式（20）计算融合损失l_all，并利用梯度下降算法优化APINCSE模型，最后预测句子对相似性分数

END

2 实验结果及分析

2.1　数据集

为验证本文模型在基于语义相似性任务上的有效性，本文采用7个具有代表性的数据集（STS2012~STS2016、STS-B、SICK-R）进行实验。STS系列数据集包含大量的句子对，每对句子都被人工标注分值在0~5之间的相似性得分，用于表征两个句子的语义相似性程度，分值越大则相似性越高。其中，标签0表示两句话语义不相似，标签5表示两句话有相同的语义。STS2012~ STS2016数据集是一组经典的语义相似性数据集，包含大量人工标注的文本对，涵盖了从新闻标题到句子片段等各种场景和主题。STS-B数据集用于衡量英文句子的语义相似度，主要由英语段落中提取的句子对组成，这些句子涉及新闻、电影字幕、论坛帖子等多样化主题。SICK-R数据集则专注于文本蕴涵识别任务，每对句子都有二元标签，用于判断其中一个句子是否可以从另一个句子中推导出来。这7个数据集的统计信息及样例如表1、表2所示。

2.2　评价指标与参数设置

为了评估本文模型的语义相似性性能，本文以Spearman相关系数作为评价指标，用符号

s ∈ [- 1,1]

表示。其中，s=0表示两个变量无相关性，s越接近1表示变量正相关性越高，s越接近-1则表示变量负相关性越高。

本文模型采用Pytorch深度学习框架搭建，在NVIDIA 3090 GPU上完成训练。在APINCSE_bert-base模型微调过程中，采用批量训练方法，每一批训练数据的数量为64，学习率为

3 × 10 - 5

，dropout设置为0.05。动态邻域长度

L

=1 024，检索邻居相似嵌入数量N=16，

β

=2，构建层间负例的层数M为第11层。

2.3　实验结果对比

为了验证APINCSE模型的有效性，本文选择SG-OPT^［17］、SimCSE^［8］、LAPCSE^［18］、ClusterNS^［19］等具有代表性和竞争性的无监督语义相似性模型进行对比。各模型在STS系列数据集上的Spearman相关系数对比结果如表3所示。

在各对比基线模型中，SG-OPT提出了一种具有自我指导机制的对比学习方法，以改善句子嵌入效果。相比于SG-OPT，SimCSE无需额外的数据增强，通过Dropout构建正样本，在批次内随机采样负样本，并明确区分正、负样本对，显著提升了建模效率。LAPCSE针对SimCSE仅利用编码器最后一层嵌入处理下游任务的局限，通过平均每层编码信息进行特征池化，并进行无监督对比学习，有效提升了模型性能。ClusterNS针对现有方法存在的假负例问题，提出了基于K-means聚类的硬负例生成策略，并在训练过程中识别批量假阴性，有效提升了文本嵌入质量。

而本文提出的APINCSE模型相比各基线模型额外考虑了不同正样本之间的相关性，以及批量随机采集负样本导致的困难负样本稀缺问题，不仅动态捕获了正样本间的相似性，构建高质量增强正例，使句子间信息充分交互，还在批次随机负样本的基础上引入编码器中间层信息作为额外负样本，优化负样本采集策略，使样本更具挑战性。从表4可以直观地看出，APINCSE模型优于对比基线模型，平均Spearman相关系数比较优模型分别在BERT-base、BERT-large、RoBERT-large上提升了1.09、0.34、0.08个百分点，且排名第一。当采用BERT-base网络架构时，本文模型平均Spearman相关系数比ClusterNS高出1.09个百分点，虽在STS2016数据集上表现一般，排名第三，但在其他数据集上有良好的表现，均排名第一。当采用BERT-large网络架构时，本文模型平均Spearman相关系数比ClusterNS高出0.34个百分点，排名第一，且在STS2012、STS2015、STS2016、STS-B数据集上排名第一。当采用RoBERTa-base网络架构时，本文模型平均Spearman相关系数比ClusterNS表现稍微逊色，排名第二，但在STS2012、STS2014、STS2015、SICK-R数据集上分别提升了0.99、0.27、0.98、0.83个百分点，排名第一。当采用RoBERTa-large网络架构时，本文模型平均Spearman相关系数比最优基线模型高出0.08个百分点，排名第一，并在STS2015数据集上Spearman相关系数达到84.98%，排名第一。这说明本文方法对于规模较大的模型仍有较好的适用性。

2.4　有效性分析

为了验证本文模型中各关键组件的有效性，本文以BERT-base为基础架构，基于控制变量法为APINCSE设计了以下变体模型进行有效性分析，实验结果如图2所示。

（1）APINCSE-AP：去除通过动态邻域检索得到的增强正例，利用原始正负样本对及层间负例进行对比学习。

（2）APINCSE-IN：去除层间负例，利用原始正负样本及增强正例进行对比学习。

（3）APINCSE-LAST：保留增强正例和层间负例，去除分层注意力聚合网络，直接利用编码器最后一层输出表示处理后续任务。

（4）APINCSE-bs64：去除增强正例和层间负例，批次大小设为64。

（5）APINCSE-bs128：去除增强正例和层间负例，批次大小设为128。

由图2可知，相较于各变体模型，APINCSE模型在7个数据集上均取得最高的Spearman相关系数。这表明各关键组件都是实现最佳效果的必要条件。

其中，APINCSE-AP的Spearman相关系数相比APINCSE有明显降低，这说明本文提出的构建动态邻域检索增强正例方法具有显著效果。该方法有效融合了不同正例间的信息，从而提升了模型学习更优句子表征的能力。APINCSE的Spearman相关系数比APINCSE-IN更高，表明在增加层间负例模块后，模型性能明显提升，原因可能是模型中间层编码包含与最后一层特征不同的信息，更适合作为负样本。这也证明了以句子中间层编码信息作为额外负样本的可行性。APINCSE-LAST的Spearman相关系数比APINCSE低，说明直接以模型最后一层的编码输出作为最终句子嵌入，模型性能明显下降，反映了最后一层编码信息的全局性不足，采用分层注意力可以兼顾前后层的语法、词汇及上下文抽象信息，从而获得更好的句子嵌入。

此外，为了验证模型性能的提升确实源于增强正例和层间负例，而非仅依赖正负例数量的额外增加，本文对此做了有效性分析，结果如图2所示。APINCSE-bs128在7个数据集及平均Spearman相关系数上均为最低，表明去除增强正例及层间负例，将数据集批次增加到原来的2倍，即正负样本数量增加，模型性能有明显地下降。这说明简单地增加正负样本数量并不能有效提升模型性能，反而可能会引入过多的噪声导致模型性能下降，同时也验证了增强正例和层间负例对优化句子嵌入质量及提升模型性能的有效性。

2.5　参数分析

在APINCSE中，有3个影响模型性能的超参数，即

N

、L和

M

。本文在STS-B数据集及7个数据集的平均Spearman相关系数上，分析这3个超参数的取值对

A P I N C S E

_bert-base模型性能的影响，结果分别如表4、图3、表5、图4所示。

从表4的实验结果可知，当N值增大到16时，模型在各数据集上的Spearman相关系数达到最大值。然而，当N值继续增大时，Spearman相关系数便迅速下降。这表明检索过多的邻居相似嵌入可能会引入相似性较低的样本，从而降低增强正例的质量。因此，选择适量的相似邻居嵌入有利于构建高质量增强正例，从而精准捕捉文本间的语义相似性。

本文采用STS-B测试集的句子测试层间相似度，通过观察图3和表5可以发现，第11层的句子嵌入与最后一层的相似性最大，并且在以第11层编码信息作为困难负样本时，模型获得最好性能，而以第1层和第2层编码信息作为困难负样本的效果相对较差。这说明引入相似样本作为困难负样本可以增加学习句子表示的挑战性，互相相似的样本在特征空间上更为接近，要求模型具备更精细的辨别能力区分它们，使模型学习更细微的特征差异。反之，若使用差异较大的数据作为困难负样本，则不利于模型学习具有区分性的知识，导致模型无法识别句子间的细微特征。

通过观察图4可知，不同的邻域大小L对模型性能有不同的影响，当邻域大小从256增加到1 024时，模型获得最好性能。这表明更大的领域有利于检索更多的相似句子嵌入。但是，当邻域大小超过1 024时，模型性能开始下降。这说明检索过多的邻居嵌入可能会引入不同批次特征差异较大的句子，掺杂较多的噪声信息，导致模型性能降低。因此，选择合适的邻域大小，可以筛选出特征更相似的句子构建增强嵌入，并减少噪声的引入。

2.6　泛化能力分析

本文选取MRPC和SUBJ两个数据集验证模型的泛化能力。其中，MRPC数据集用于NLP中的文本相似度任务，主要包含一系列从在线新闻中抽取的句子对，每对句子都配有标签，用于标识两个句子是否具有相似语义。SUBJ数据集是用于情感分析任务的语料库，包含来自电影评论、新闻报道等领域的文本片段，主要任务是对文本进行情感分类，将每个文本片段标记为主观或客观。两个数据集的具体参数如表6所示。实验参数设置沿用2.2小节，实验结果如表7所示。

对于上述两个数据集，本文采用准确率（ACC）作为评价指标。由实验结果可知，本文方法相较于现有优秀模型仍具有不错的效果，在MRPC和SUBJ数据集上准确率分别提升0.37和0.39个百分点。

综合来看，本文方法在语义相似性任务上效果显著，在语义匹配及情感分类任务上也展示出不错的效果，这得益于新的思路，本文方法提升了句子嵌入的质量，为模型处理不同的下游任务奠定了基础。

3 结束语

本文提出了一种基于增强正例与层间负例的无监督语义相似性模型。通过多层注意力聚合网络捕获输入文本在不同层级的特征信息，并在正负样本对比学习的基础上，构建动态邻域机制生成增强正例，使每个嵌入融合不同相似正例的信息。同时，利用层间信息构建困难负样本，以此学习不同样本文本间的细微特征差异，进而改进了批次负例样本随机和困难负样本稀缺的缺点。实验结果表明，得益于BERT在对比学习中良好的句子嵌入表示能力，以及注意力网络的特征提取能力，本文方法在语义相似性任务上具有显著效果。在今后的研究中，团队将继续关注语义相似性任务，下一步将研究通过对正例进行单词掩盖、改写、替换同义词的数据增强方式生成新的负例训练数据，以及将图像信息融入纯文本信息，进行多模态训练，使训练过程更全面。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	Cer D, Diab M, Agirre E, et al. SemEval-2017 task 1: semantic textual similarity multilingual and crosslingual focused evaluation[C]∥Proceedings of the 11th International Workshop on Semantic Evaluation. Stroudsburg, PA: ACL, 2017: 1-14.

[2]	Radford A, Narasimhar K. Improving language understanding by GenerativePre-Training[EB/OL].(2018-06-11)[2023-12-11].

[3]	Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C] ∥Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2019: 4171-4186.

[4]	Liu Y H, Ott M, Goyal N, et al. RoBERTa: a robustly optimized BERT pretrainingapproach[EB/OL]. (2019-07-26)[2023-12-11].

[5]	Yang Z L, Dai Z H, Yang Y M, et al. XLNet: generalized autogressive pretraining for language understanding[C] ∥Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver, Canada: NeurIPS, 2019: 5753-5763.

[6]	Li B H, Zhou H, et al. On the sentenceembeddings from pre-trained language models[C]∥Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2020:9119-9130.

[7]	Reimers N, Gureuych, I. Sentence-BERT: sentence embeddings using siamese BERT-networks[C]∥Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2019: 3982-3992.

[8]	Gao T Y, Yao X C, Chen D Q. SimCSE: simple contrastive learning of sentence embeddings[C]∥Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2021: 6894-6910.

[9]	Wu X, Gao C C, Zang L J, et al. ESimCSE: enhanced sample building method for contrastive learning of unsupervised sentence embedding[C]∥Proceedings of the 29th International Conference on Computational Linguistics. New York: ACM Press,2022:3898-3907.

[10]	Zhang Y H, Zhu H J, Wang Y L, et al. A contrastive framework for learning sentence representations from pairwise and triple-wise perspective in angular space[C]∥Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: CAL, 2022: 4892–4903.

[11]	Chuang Y S, Dangovski R, Luo H Y, et al. DiffCSE: difference-based contrastive learning for sentence embeddings[C]∥Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: ACL, 2023: 4207-4218.

[12]	Liu J D, Liu J H, Wang Q F, et al. RankCSE: unsupervised sentence representations learning via learning to rank[C]∥Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2023: 13785-13802.

[13]	Wang H, Li Y G, Huang Z, et al. SNCSE: contrastive learning for unsupervised sentence embedding with soft negative samples[C]∥International Conference on Intelligent Computing. New York, USA: ICIC, 2023: 419-431.

[14]	He H L, Zhang J L, Lan Z Z, et al.Instance smoothed contrastive learning for unsupervised sentence embedding[C]∥Proceedings of the Thirty-Seventh AAAI Conference on Artificial Intelligence. Washington, DC: AAAI Press, 2023: 12863-12871.

[15]	Robinson J, Chuang C Y, Sra S, et al. Contrastive learning with hard negative samples[C]∥9th International Conference on Learning Representations. Virtual, 2021: joshr17.

[16]	Wu X, Gao C C, Su Y P, et al.Smoothed contrastive learning for unsupervised sentence embedding[C]∥Proceedings of the 29th International Conference on Computational Linguistics. New York, USA: ICCL, 2022: 4902-4906.

[17]	Kim T, Yoo K M, Lee S G. Self-guided contrastive learning for BERT sentence representations[C]∥Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Stroudsburg, PA: ACL, 2021: 2528-2540.

[18]	Oh D, Kim Y J, Lee H D, et al.Don't judge a language model by its last layer: contrastive learning with layer-wise attention pooling[C]∥Proceedings of the 29th International Conference on Computational Linguistics. New York, USA: ICCL, 2022: 4585-4592.

[19]	Deng J H, Wan F Q, Yang T, et al. Clustering-aware negative sampling for unsupervised sentence representation[C] ∥Findings of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2023: 8713-8729.