基于实体可靠路径与语义增强的知识图谱对齐

王红斌; 唐浩东; 线岩团; 刘博; 顾新亮

doi:10.13229/j.cnki.jdxbgxb.20240177

吉林大学学报(工学版) ›› 2025, Vol. 55 ›› Issue (11) : 3673 -3685. DOI: 10.13229/j.cnki.jdxbgxb.20240177

计算机科学与技术

基于实体可靠路径与语义增强的知识图谱对齐

王红斌 ¹^,² ,
唐浩东 ¹^,² ,
线岩团 ¹^,² ,
刘博 ³ ,
顾新亮 ³

作者信息 +

Knowledge graph alignment based on entity reliable path and semantic aggregates

Hong-bin WANG ¹^,² ,
Hao-dong TANG ¹^,² ,
Yan-tuan XIAN ¹^,² ,
Bo LIU ³ ,
Xin-liang GU ³

Author information +

文章历史 +

PDF (2224K)

摘要

针对知识图谱实体之间存在大量的多步骤关系路径以表明实体之间的语义关系，现有的方法很少考虑路径信息，也忽略了知识图谱关系结构与属性结构之间的邻域异质性问题。本文提出了实体可靠路径信息语义增强模型，该模型集成了知识图谱中的关系和路径结构信息以及异构信息，设计了一种初始可靠路径推理算法，用于捕获和聚合对齐实体及其异构邻居的多源信息，并将实体的关系结构、属性结构、实体名称路径集信息通过模型聚合进行语义增强，由此解决知识图谱对齐邻域异质性问题。本文在3个数据集（WK31-15K、DBP-15K和DWY-100K）上评估了实体可靠路径信息语义增强模型，将该模型与其他较先进的实体对齐方法进行比较，Hits@1提升了1.5%~3.2%，表明本文方法具有更好的性能。

Abstract

There are numerous multi-step relationship paths between entities in the knowledge graph to indicate semantic relationships between entities， as well as the neighborhood heterogeneity between relationship structures and attribute structures. In response to this problem， An entity reliable path information semantic augmentation model is proposed in this paper， which simultaneously captures and aggregates multi-source information of aligned entities and their heterogeneous neighbors， an initial reliable path reasoning algorithm to generate. The model aggregates the relationship structure， attribute structure， and entity name information reliable path of the entities for semantic augmentation， which solves the problem of domain heterogeneity in knowledge graph alignment. The paper evaluated the entity reliable path information semantic augmentation model on three datasets（WK31-15K， DBP-15K and DWY-100K）show that this model is improved by 1.5%~3.2%compared with the state-of-art entity alignment method Hits@1， which shows that the proposed method has better performance.

Graphical abstract

关键词

知识图谱 / 实体对齐 / 可靠路径信息 / 属性结构 / 语义增强

Key words

knowledge graphs / entity alignment / reliable path information / attribute structures / semantic augmentation

引用本文

引用格式 ▾

王红斌,唐浩东,线岩团,刘博,顾新亮. 基于实体可靠路径与语义增强的知识图谱对齐[J]. 吉林大学学报(工学版), 2025, 55(11): 3673-3685 DOI:10.13229/j.cnki.jdxbgxb.20240177

登录浏览全文

4963

注册一个新账户忘记密码

0 引言

知识图谱以结构化信息表示现实世界中的事实^［1］，针对不同的需求构建不同知识图谱（例如DBpedia^［2］、YAGO^［3］、Freebase^［4］、Probase^［5］），广泛应用于智能检索、推荐与问答^［6-8］、机器翻译等邻域^［9-12］。然而这些知识图谱仍然远远不够完整。实体对齐（也称为实体匹配^［13-15］）旨在识别不同知识图谱中的相同实体。传统的实体对齐方法^［16］利用字符串相似度或者规则挖掘等方法^［17］实现对齐。目前方法使用图神经网络（GNN）（GCN^［18］和GAT^［19］）通过嵌入实体并聚合相邻特征对齐^［15］。

但是目前方法仍存在局限性。一是基于GNN的模型（HGCN^［20］、RDGCN^［21］、NMN^［22］）没有考虑知识图谱的属性结构，而常见的知识图谱有关系结构和属性结构。二是现有方法很少考虑知识图谱的路径信息（即对齐实体的间接邻域）。本文通过路径信息挖掘对齐实体之间更多相似特征，使其单独作为一个模块进行嵌入。三是现有方法忽略了知识图谱的异质性。不同知识图谱中相同实体的邻域信息差距较大，被称为知识图谱邻域异质性。知识图谱之间的异质性会影响对齐性能。

本文提出了实体可靠路径信息语义增强模型（EPSA），该模型将实体的三元组分为关系三元组与属性三元组，挖掘实体路径信息提高对齐判断的准确性和鲁棒性；同时通过知识图谱语义增强模型强化并聚合实体名称路径信息、关系结构、属性结构信息解决实体异构邻域中的异质性问题。本文主要贡献总结如下：

（1）提出了实体可靠路径信息语义增强模型（EPSA），该模型考虑了知识图谱实体的属性结构与路径信息（即对齐实体的间接邻域）。通过实体的路径信息作为第三个维度嵌入聚合，有助于提高对齐判断的准确性和鲁棒性。

（2）设计了一种聚合多方异构信息的知识图谱语义增强模型，该模型将实体的名称路径信息、关系结构、属性结构三方面信息通过模型聚合进行语义增强，强化实体各结构之间的联系解决实体异构邻域中的异质性问题。

（3）本文方法在3个数据集（WK31-15K、DBP-15K和DWY-100K）上进行实验，实验结果表明EPSA显著优于目前9种最先进的方法。

1 相关工作

1.1　基于翻译模型

基于翻译的模型TransE^［23］将实体映射到低维向量以获得实体语义，MTransE^［24］使用两个TransE模型分别训练两个知识图谱的向量空间，通过实体训练线性变换对齐这两个向量空间。

在基于翻译模型的基础上，有些方法（例如IPTransE^［25］、BootEA^［26］、AHAB^［27］）开始专注于迭代发现更多新的对齐实体。IPTransE^［25］采用迭代方法识别不同知识图谱的相同实体。BootEA^［26］通过寻求所有标记和未标记实体的最大对齐可能性。尽管如此，迭代过程产生的不正确对齐实体会影响后续迭代的准确性。

1.2　基于GNNs的实体对齐

基于GNN的方法主要使用GCN或GAT获得两个知识图谱之间的相似结构信息，例如RDGCN^［21］、NMN^［22］、MuGNN^［28］）。其中基于GAT的模型（NAEA^［29］、KECG^［30］）采用自注意力机制聚合实体的相邻特征。基于GCN的模型（GCN Align^［31］、HMAN^［32］、VR-GCN^［33］、GMNN^［34］）使用卷积算子来聚合实体邻居的嵌入，并最终使对齐实体对的嵌入彼此接近。MuGCN^［28］将邻域结构图与实体嵌入相融合，但它没有明确地利用关系结构的邻域信息。MultiKE^［35］模型基于多视图学习方法将实体描述视图映射到不同的向量空间。然而，现有方法大多不考虑知识图谱的属性结构，只考虑关系结构，没有考虑实体的邻域路径信息，实体路径信息有助于提高对齐判断的准确性和鲁棒性。

1.3　考虑属性结构的实体对齐方法

为了获得更多实体的邻域信息，已有方法开始考虑实体的属性结构。例如，图1中蓝色方框表示关系三元组结构，绿色方框表示属性三元组结构。JAPE^［36］是第一个同时考虑关系和属性结构的模型，后来AttrE^［37］、MultiKE^［35］、GCN Align^［31］、HMAN^［32］、AttrGNN^［38］、COTSAE^［39］和JarKA^［40］也同时考虑了关系和属性结构。KDCoE^［25］和HMAN^［32］考虑了实体描述信息，IPTransE^［31］和HMAN^［30］考虑了实体的拓扑特征。RDGCN^［31］、HGCN^［30］、MultiKE^［35］和AttrGNN^［33］考虑了实体名称信息作为实体的输入特征。但上述方法未考虑知识图谱异质性。

2 问题定义

关于符号的使用。本文将一个知识图谱表示为6个部分

K G = (E, P, R, M, V, X, Y)

，其中

E 、 P 、 R 、 M 、 V

分别表示实体、实体路径信息、关系、属性与属性值。

X ⊆ E × R × E

表示关系三元组的集合；

Y ⊆ E × M × V

表示属性三元组的集合；

T p a t h ⊆ E × P × E

表示路径三元组的集合。

K G 1 = (E 1, P 1, R 1, M 1, V 1, X 1, Y 1)

、

K G 2 = (E 2,

P 2, R 2, M 2, V 2, X 2, Y 2)

表示要对齐的两个知识图谱。本文将

K G 1

与

K G 2

合并成一个原始知识图谱

K G a = (E a, P a, R a, M a, V a, X a,

Y a)

，其中，

E a = E 1 ⋃ E 2

，其他相关属性同理。最终目标是找到一组对齐的实体

L = (e i, e j) ∈ E 1 × E 2 | e i ≡ e j

，其中

≡

表示为实体对齐。本文使用粗体小写字母表示嵌入向量，使用粗体大写字母表示嵌入矩阵，表1列出了具体符号及其说明。

3 本文方法

本文提出了一种用于实体对齐的实体可靠路径信息语义增强模型（EPSA），该模型挖掘了不同知识图谱实体的邻域路径信息，考虑了知识图谱实体的路径信息，将实体的关系结构、属性结构、实体名称路径信息三方面通过模型聚合进行语义增强。该模型既提高了对齐判断的准确性和鲁棒性，又通过增强实体各结构之间的联系解决了实体异构邻域中的异质性问题。图2显示了本文EPSA模型的总体架构，本文模型分为6个部分：（1）实体嵌入。将知识图谱的实体名称、实体路径集、属性值进行预对齐嵌入，将嵌入的实体信息分为实体名称嵌入、实体路径嵌入、关系三元组嵌入与属性三元组嵌入模块。（2）实体路径匹配嵌入。分别将实体的名称与路径集嵌入并进行实体路径匹配，获得对齐实体相应路径信息。（3）关系三元组与属性三元组感知注意力嵌入。本模块使用一种变体注意力机制模型，分别在关系结构与属性结构模块上聚合实体的异构邻域特征。（4）GCN聚合模块。使用搭配Highway gates的双层GCN模型进一步聚合异构邻域的结构信息，并分别输出实体的路径结构、关系结构、属性结构的嵌入结果。（5）知识图谱语义增强。本模块将路径结构、关系结构、属性结构的两个嵌入结果进行语义增强，强化实体各部分之间的联系并聚合其输出结果。（6）实体对齐与训练。通过计算两个实体之间语义增强输出矩阵的曼哈顿距离实现实体对齐。训练的目的是使类似的多语言实体对尽可能对齐，并且通过替换头尾实体产生负三元组，通过训练增大负三元组与正确对齐三元组的曼哈顿距离。本文代码与数据集已公开至Githubhttps：∥github.com/tanghaodong/EPSA.git。

3.1　实体嵌入

实体的名称都是由单词或字符序列组成，所以我们将使用Skip-Gram^［42］中的文字嵌入预嵌入实体与属性值。

E M (w) = w o r d_e m b e d (w), w 具有 词嵌 入 c h a r_e m b e d (w), 其他

（1）

式中：EM（w）为已获得单词嵌入的嵌入函数；

w o r d_e m b e d (⋅)

为预训练的单词嵌入；

c h a r_

e m b e d (⋅)

为预训练的字符嵌入的平均向量。

设定

H e i = (w 1, w 2, ⋯, w n)

表示实体名称的集合，

e i ∈ ε a

，构建实体名称嵌入

x i e ∈ X e_i n i t ∈ R ε a × d

如下所示：

x i e = c o m ∑ w j ∈ H e i E M (w j)

（2）

式中：com（

⋅

）为SUM组成函数，同样属性值嵌入

x i v ∈ X v_i n i t ∈ R ν a × d

也使用这种方法进行构造。

在实体嵌入后将嵌入的模块信息分为实体名称嵌入、实体路径嵌入、关系三元组嵌入和属性三元组嵌入4个模块。将实体名称嵌入

x e

和实体路径嵌入

x p

放入实体路径匹配模块，实体名称嵌入

x e

和关系三元组放入关系模块，将实体名称嵌入

x e

、属性值嵌入

x v

和属性三元组放入属性模块。

3.2　实体路径匹配嵌入

通过实体嵌入模块获得实体名称与实体路径集嵌入。由于已知预对齐实体的小范围邻域之间匹配次数高的路径可以被认为是可靠的，其可以用来匹配其他实体大范围路径的判断^［37］。图3为实体路径匹配架构图。

通过建立每个预对齐实体对之间的路径邻域匹配，推导出匹配路径，最后选择匹配次数较多的路径形成可靠路径集。图4为预对齐实体之间的路径邻域匹配示意图。

首先，获得预对齐实体对

(e a 1, e a 2)

，相似矩阵

S

表示路径邻域

P N (e a 1)

与

P N (e a 2)

之间的相似度，其中

P N (⋅)

表示实体的路径邻域。如图4（a）所示，先选取

S

的每一行相似度最大的实体作为匹配邻居，例如

e 11

的相似度最高的匹配邻居为

e 12

，但是可能存在多个相互匹配的实体，例如

e 11

和

e m - 1 1

与

e n - 1 2

同时匹配，因此邻居匹配需要一对一的约束条件：

（1）实体匹配邻居的相似度必须达到一定的阈值；

（2）将满足阈值的相似度值由高到低排序，进行一对一匹配。由此可得，如果

e 21

与

e n - 1 2

相似度比

e m - 1 1

与

e n - 1 2

相似度低，那么选择

e m - 1 1

与

e n - 1 2

相互匹配。显然，并不是所有的实体都能找到匹配的邻居。

其次，根据匹配的实体对

(e i 1, e j 2)

，对其实体路径进行匹配得到

(p k 1, p t 2) ∈ X p

，如图

4 (b)

所示：

e i 1 ↔ e j 2 ⇒ (e a 1, p k 1, e i 1) ↔ (e a 2, p t 2, e j 2) ⇒ p k 1 ↔ p t 2

（3）

式中：

↔

为匹配关系；

(e a 1, p k 1, e i 1) ↔ (e a 2, p t 2, e j 2)

为路径三元组。

最后，统计每条匹配路径的匹配次数，

p k 1 ↔ p t 2

选择匹配次数较多的路径形成实体路径集输出嵌入矩阵

X p t

。

3.3　关系三元组感知注意力嵌入

关系三元组感知注意力模块。

X r ∈ R R a × 2 d

表示关系三元组的嵌入矩阵，

t

表示第

t

个实体，实体的关系

r t

的嵌入通过从关系三元组中平均其头部实体

H t

和尾部实体

T t

的嵌入近似，如下所示：

X t r = σ ∑ e i ∈ H t b i 1 x i e H t ∥ ∑ e j ∈ T t b j 2 x j e T t

（4）

式中：

x i e 、 x j e ∈ X e_i n i t

为实体的名称嵌入

e i

与

e j

；

| H t |

与

| T t |

分别为关系三元组中头实体与尾实体的集合大小；

b 1 ∈ R | ε a |

为头实体的权重向量参数，是为了分辨不同的头实体对关系

r t

的不同贡献。同理

b 2

表示尾实体的权重向量参数。

本文使用了感知注意力机制

G A T s

学习与关联实体中具有不同关系的邻居的权重，将邻域间的关系添加到了注意力系数的计算中，公式如下：

e i j r = G A T s r e l a t i o n (e i, e j; G i j r)

（5）

式中：

G A T s r e l a t i o n (⋅)

为关系感知注意力模块；

G i j r ∈ γ a

为头实体

e i

与尾实体

e j

的关系三元组集合

γ a

。

如式（5）所示，注意力系数不但取决于实体的特征，还取决于实体之间关系的特征。由于不同知识图谱之间同一实体的邻域不对称性，从实体

e i

到

e j

与实体

e j

到

e i

的关系会有很大的区别，这是知识图谱异质性的一个关键特性。所以通过注意力系数

e i j r

通过

s o f t m a x

的函数进行细化和归一化：

a i j r = ψ η (∑ (e i, r t, e j) ∈ G i j r e i j r ([x i e | | x j e] ⊙ X t r)

（6）

a i j r

为soft max系数，通过soft max系数

a i j r

的实体邻域之间不同实体邻居的不同重要性聚合邻域属性。结合soft max系数

a i j r

，可以得到结合邻域实体

e i

的关系邻域结构矩阵：

X i r t = σ ∑ e j ∈ N i r a i j r x j e

（7）

本文通过混合实体的名称嵌入和关系感知注意力嵌入

X r t

获得最终输出，其中

X r t

为关系邻域结构矩阵

X i r t

集合，

β 1

为最终结果中平衡

X r t

与

X e_i n i t

的权衡参数。

X r t = β 1 X r t + X e_i n i t

（8）

3.4　属性三元组感知注意力嵌入

属性三元组感知注意力嵌入模块与关系三元组的相似。

X m ∈ R Μ a × 2 d

表示属性三元组的嵌入矩阵，实体的属性

x g

的嵌入

X g m

通过从关系三元组中近似平均其有关联的头部实体

H g

和尾部属性值

V g

的嵌入构建属性三元组嵌入

X g m

，如下所示：

X g m = σ ∑ e h ∈ H g c h 1 x h e H g ∥ ∑ v k ∈ V g c k 2 x k v V g

（9）

式中：

x h e

和

x k v

分别为头实体

e n

与尾属性值

v k

；

| H g |

与

| V g |

分别为属性三元组中头实体与尾属性值的集合大小；

c 1

与

c 2

分别为头实体与尾属性值的权重向量参数。

使用属性感知注意力机制

G A T s

学习与关联实体中具有不同关系的邻居权重，公式如下：

v p q m = G A T s a t t r i b u t e (e p, v q; G p q m)

（10）

式中：

G A T s a t t r i b u t e (⋅)

为属性感知注意力模块；

G p q m ∈ Μ a

为头实体

e p

与尾属性值

v p

的属性三元组集合。注意力系数

v p q m

通过

s o f t m a x

的函数进行细化和归一化：

a p q m = ψ η (∑ (e p, m g, v q) ∈ G p q m v p q m ([x p e | | x q v] ⊙ X g m)

（11）

a p q m

为soft max系数，通过soft max系数am pq 的实体邻域之间不同实体邻居的不同重要性聚合邻域属性。结合soft max系数

a p q m

，可以得到结合邻域属性

v p

的属性结构邻域矩阵：

X p a t = σ ∑ v q ∈ N p m a p q m X p r t

（12）

本文通过混合实体的名称嵌入和属性感知注意力嵌入

X a t

获得最终输出，其中

X a t

为属性结构邻域矩阵

X p a t

集合，

β 2

为最终结果中平衡

X a t

与

X e_i n i t

的权衡参数。

X a t = β 2 X a t + X e_i n i t

（13）

3.5　GCN聚合

本文得到了分别包含两个知识图谱的实体路径信息、关系结构信息、属性结构信息的实体嵌入

X p t

、

X r t

、

X a t

。分别将3种结构的嵌入结果使用添加Highway gates的双层GCN模型聚合对应的异构邻域结构信息。而添加Highway gates的目的是控制多层神经网络中传输到节点的邻域信息的噪声^［43］。

X (f, l) = σ (D ˜ A ˜ D ˜ X (f, l - 1) W (f, l))

（14）

T (X (f, l)) = ψ (X (f, l) W T (f, l) + b T (f, l))

（15）

X (f, l + 1) = T (X (f, l)) ⊙ X (f, l) + (1 - T (X (f, l))) ⊙ X (f, l - 1)

（16）

式中：

f = p t, r t, a t

表示各模块嵌入；

A ˜ = A + I

为关系结构的邻接矩阵，

I

为单位矩阵；

D ˜

为

A ˜

的对角度数矩阵；

W (f, l)

为GCN中表示第

l

层的相关参数；

X (f, l)

为第

l

层的输出；

W T (f, l)

与

b T (f, l)

分别为权重矩阵和偏差向量。将实体路径结构、关系结构、属性结构的结果分别输入GCN中聚合不同特征以便进行语义增强时更好地聚合三者之间的联系与特点。

3.6　知识图谱语义增强

本文设计了一种新的实体对齐模型，称为知识图谱语义增强模型。该模型通过结合实体各异构信息并通过语义增强强化实体各结构之间的联系以解决知识图谱的异构邻域问题。首先将实体路径结构、关系结构、属性结构的输出结果

X p t

、

X r t

、

X a t

使用MFSA^［44］中的模型编码器方法将其嵌入并进行上下文编码，关系结构为：

H i r t = [L S T M f (X i r t), L S T M b (X i r t)]

（17）

关系结构的输出通过两层

B i L S T M

捕获来自不同方向的邻域信息进行编码形成最终的上下文表示。

B i L S T M

模型可以自动有效地从输入序列中学习知识图谱邻居特征。使用

B i L S T M

模型编码可以为后文语义增强并聚合提供便利。路径结构与属性结构的输出

X p t

、

X a t

也用同样的方法进行编码。

EPSA为每个实体构建更小的子图，将实体各结构的编码结果

H i p t

、

H i r t

、

H i a t

放入矩阵空间构建更小的子图，从而通过语义增强强化实体各结构之间的联系实现更精细的实体对齐。以下是语义增强的公式：

w i = e x p (c o s (H i r t, H i a t)) ∑ k e x p (c o s (H k r t, H k a t))

（18）

X i e i n = σ L (w i [H i r t ∥ H i a t])

（19）

式中：

w i

为语义增强权重参数，用来平衡关系结构和属性结构的编码结果之间的差异。得到实体路径结构、关系结构、属性结构的编码结果

H i p t

、

H i r t

、

H i a t

之间的语义增强权重参数后，将其放入矩阵空间构建更小的子图，然后通过

L i n e a r

连接函数进行连接聚合并使用

R e L U

函数激活。

使用MFSA^［44］中的解码器方法将语义增强后的结果进行解码并输出

X i e o u t

。

3.7　实体对齐与训练

本文通过知识图谱语义增强模块聚合得到结果

X i e o u t

后，使用曼哈顿距离

L 1

测量候选实体对的相似性。曼哈顿距离越小，表示候选实体对对齐的概率越高。为了捕捉实体各个方面的特征，先前的方法（例如HGCN^［20］、HMAN^［32］和NMN^［22］）通常将实体的多个嵌入连接起来，然后在损失函数中用连接的嵌入。本文对比不同知识图谱的两个实体之间最终输出结果之间的曼哈顿距离判断是否实体对齐，以下为损失函数

d f (e 1, e 2)

：

d f (e 1, e 2) = x e 1 f - x e 2 f L 1

（20）

式中：实体

e 1

与实体

e 2

分别来自知识图谱

G 1

与知识图谱

G 2

；

f = X i e o u t

。

本文的训练目标是保持对齐实体对（正对）的嵌入距离尽可能小，而未对齐实体对的嵌入距离（负对）尽可能大。

K ⁃ n e a r e s t

^［45］最近邻采样是最常用的负三元组生成方法，生成基于关系感知嵌入，属性感知嵌入、语义增强嵌入输出的负三元组

L p t'

、

L r t'

、

L a t'

、

L e o u t'

，最大化负对和正对之间的距离。在训练数据的指导下，通过反向传播对模型进行优化，以学习实体的嵌入。损失函数为：

ℒ = ∑ (a, b, c) ∈ k, (a', b', c') ∈ 𝕃 p t' a +' + θ . + ∑ (a, b, c) ∈ 𝕃, (a ″, b ″, c ″) ∈ 𝕃 r t' a + ″ + θ . + ∑ (a, b, c) ∈ 𝕃, (a ‴, b ‴, c ‴) ∈ 𝕃 a t' a + ″ + θ . + ∑ (a, b, c) ∈ L, (a ‴', b ‴', c ‴') ∈ L e o u t' a + ‴

（21）

式中：

⋅ +

表示

m a x 0, ⋅

；

L

为对齐实体的集合；

γ 1

、

γ 2

、

γ 3

、

γ 4

> 0

表示用于分辨正三元组与负三元组的超参数；

θ

为平衡3个损失部分的折衷参数。

4 实验结果与分析

4.1　数据集

本文在WK31-15K^［30］、DBP-15K^［35］和DWY-100K^{［45，18］} 3个知识图谱对齐常用的数据集上评估了EPSA模型。表2列出了所有数据集的统计数据。

WK31-15K包含从DBpedia收集的2个跨语言数据集：英语-德语（EN-DE）、英语-法语（EN-FR。每对跨语言知识图谱有2个版本：V1是稀疏的，V2的密度是V1的2倍。WK31-15K数据集包含4个子集：EN-DE（V1）、EN-DE（V2）、EN-FR（V1）和EN-FR（V2）。

DBP-15K也像WK31-15K一样地收集来自跨语言知识图谱DBpedia中的实体，包含3个子集：中文-英语（ZH-EN）、日语-英语（JA-EN）和法语-英语（FR-EN）。而DBP-15K中ZH-EN的属性值无法获取，无法构建属性三元组，因此在模型中只能使用JA-EN和FR-EN 2个数据集。为了区别于WK31-15K，将这2个子集分别标记为JA-EN（DBP）和FR-EN（DBP）。

DWY-100K包含2个大型单语言知识图谱：DBpedia和Wikidata（DBP-WD）、DBpedia和 YAGO3（DBP-YG），每个知识图谱都有100K个对齐的实体对。

4.2　DBP-15K和WK31-15K上的整体性能对比分析

在DBP-15K和WK13-15K数据集上，将EPSA与之前的9种先进的比对模型进行了比较：MTransE^［24］、IPTransE^［23］、JAPE^［36］、BootEA^［26］、AttrE^［37］、RDGCN^［21］、NMN^［22］、RAGA^［46］、RHGT^［47］。在数据集WK31-15K和DBP-15K中，为减少训练时间，本文只选择20%作为训练数据，并将剩余部分留给每次运行的验证（10%）和测试（70%）。嵌入维度大小=300。在训练期间，每10个训练周期为每个实体生成50个最接近的候选者作为负样本。其他配置为：学习率=0.01，

β 1

β 2

=1，

γ 1

γ 2

= 5，

θ

= 0.5。使用了100次训练周期的耐心早期停止策略，即如果验证损失在100个连续时期内没有减少，则停止训练。EPSA所有比较模型在跨语言数据集上的比较结果如表3所示。

表3显示了EPSA和所有比较模型在跨语言数据集上的比较结果，每个表格加粗的数字表示为当前数据集最佳性能。在WK31-15K中由2个跨语言数据集中实体稀疏密度不同的4个数据集组成，每个数据集分别由2个不同语言知识图谱组成。由于英语、法语、德语语种上类似，而目前预嵌入中会将数据集统一翻译成英文进行嵌入对齐，其跨语言数据集中实体相似度高，所以本模型WK31-15K上取得较好结果。而DBP-15K中日语、中文与英文语义差距较大，并且此数据集三元组数量与结构不统一，难以实现精准对齐，目前此数据集性能仍有较大提升空间。如表3所示，EPSA在所有数据集中与目前其他较优方法比较实现了最佳性能。

4.3　DWY-100K上的整体性能对比分析

由于只有少数模型在DWY-100K数据集上进行了评估，本文将EPSA与以下模型进行了比较：MultiKE^［35］、RDGCN^［2］、NMN^［22］、COTSAE^［39］、RHGT^［47］，在数据集DWY-100K中，由于与上述数据集相同的原因，选择30%作为训练数据，将剩余部分用于测试（70%）。并使用与NMN ［17］模型中相同的实体初始名称嵌入。为了降低训练的复杂性，本文设置了嵌入大小d=100，并学习线性变换以获得实体和属性值在DWY-100K中的初始名称嵌入。学习率为0.005，其他配置与上述相同。DWY-100K上所有模型的性能结果如表4所示。

由于DBpedia和YAGO都源自维基百科，导致77.60%的已发布等效实体的名称完全相同，而其余实体的名称非常相似，因此Hits@1在表4中基本能达到90%以上。而由于目前的最新性能已经接近于1，提升空间已经很小了，本文模型也只能接近于最新性能。

4.4　消融实验

表5显示了EPSA模型不同变体的消融实验的性能比较。EPSA“w/o EP”是对实体路径信息模块的消融实验，EPSA“w/o SA”是对知识图谱语义增强模块的消融实验，以分别证实本文实体路径信息模块与知识图谱语义增强模块性能的提升。当删除实体路径信息模块时，性能会下降，Hit@1下降0.9%~1.6%。但通过知识图谱语义增强模块聚合不同异质信息性能后，相比目前最佳模型效果依然得到提升；当删除知识图谱语义增强模块时，性能Hit@1下降0.7%~1.8%。但通过实体路径信息模块获得实体路径匹配信息后，相比目前最佳模型效果依然得到提升。

4.5　EN-DE(V2)上的性能对比分析

为了更好地评估EPSA的有效性，本文测试了EN-DE（V2）上的Hits@［1，3，5，10，50，100］的性能对比，实验结果如图5所示。

由图5可知，EPSA在所有评估指标上优于其他模型。尤其是当Hits@≤ 0时，EPSA明显优于其他模型。

为了进一步分析不同大小训练数据集下EPSA对比试验的有效性，本文以EN-DE（V2）数据集为例进行进一步评估。本文将训练数据集的比例从5%改变到30%，每一次增长5%，验证数据集保持在10%，实验结果如图6所示。

图6说明了不同比例的训练数据集的Hits@［1，5］性能。EN-DE（V2）上所有Hits@1的性能都随着比例的提高而提高，而EPSA的性能依然保持了领先，并且EPSA具有很强的鲁棒性，模型在较少的训练数据下仍能获得令人满意的结果。

5 结束语

对齐实体不仅具有相似的关系结构，还存在大量的多步骤关系路径，以表明实体之间的语义关系。本文提出一种用于实体对齐的实体可靠路径信息语义增强模型（EPSA），该模型挖掘不同知识图谱实体的邻域路径信息，考虑了知识图谱实体的路径信息，将实体的关系结构、属性结构和实体名称路径信息三方面通过模型聚合进行语义增强。该方法考虑了知识图谱实体的路径信息，提高对齐判断的准确性和鲁棒性，同时将每个实体的关系结构、属性结构、实体路径结构的输出结果进行编码并嵌入低维空间中，然后使用语义增强模型聚合实体信息，由此增强实体各结构之间的联系，以解决实体异构邻域中的异质性问题。与最先进的方法相比，该模型在各种情况下都能获得最佳的对比结果，在Hits@1上高于性能最佳的模型。

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	刘峤, 李杨, 段宏, 等. 知识图谱构建技术综述[J].计算机研究与发展, 2016, 53(3): 582-600.

[2]	Liu Q, Li Y, Duan H, et al. Knowledge graph construction techniques[J]. Jounraal of Computer Research and Development, 2016, 53(3): 582-600.

[3]	Lehmann J, Isele R, Jakob M, et al. DBpedia—a large-scale, multilingual knowledge base extracted from wikipedia[J]. Semantic Web, 2015, 6(2): 167-195.

[4]	Suchanek F, Kasneci G, Weikum G. YAGO: a core of semantic knowledge unifying WordNet and wikipedia[C]∥Proceedings of the 16th International Conference on World Wide Web, New York, USA, 2007:697-706.

[5]	Bollacker K, Evans C, Paritosh P, et al. Freebase: a collaboratively created graph database for structuring human knowledge[C]∥Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data, New York, USA, 2008: 1247-1250.

[6]	Xu B, Xu Y, Liang J, et al. CN-dbpedia: a never-ending Chinese knowledge extraction system[C]∥Proceedings of the International Conference on Industrial, Engineering and Other Applications of Applied Intelligent Systems.Berlin: Springer, 2017: 428-438.

[7]	张婷婷, 欧阳丹彤, 孙成林, 等. 融合协同过滤的神经Bandits推荐算法[J]. 吉林大学学报: 理学版, 2024, 62(1): 92-99.

[8]	Zhang Ting-ting, Ouyang Dan-tong, Sun Cheng-lin, et al. Neural bandits recommendation algorithm based on collaborative filtering[J]. Journal of Jilin University (Science Edition), 2024, 62(1): 92-99.

[9]	孟令鑫, 才华, 付强, 等. 基于关系记忆与路径信息的多跳知识图谱问答算法[J]. 吉林大学学报: 理学版, 2024, 62(6): 1391-1400.

[10]	Meng Ling-xin, Cai Hua, Fu Qiang, et al. Multi-hop knowledge graph question answering algorithm based on relational memory and path information[J]. Journal of Jilin University (Science Edition), 2024, 62(6): 1391-1400.

[11]	李鑫, 王文迪, 张伟, 等. 基于知识嵌入技术的制度文件推荐算法[J]. 吉林大学学报: 理学版, 2024, 62(6): 1377-1383.

[12]	Li Xin, Wang Wen-di, Zhang Wei, et al. Recommendation algorithm for institutional documents based on knowledge embedding technology[J]. Journal of Jilin University (Science Edition), 2024, 62(6): 1377-1383.

[13]	化青远, 彭涛, 崔海, 毕海嘉. 基于知识图谱中路径推理的多轮对话模型[J]. 吉林大学学报: 理学版, 2025, 63(1): 76-82.

[14]	Hua Qing-yuan, Peng Tao, Cui Hai, et al. Multi round conversational model based on path reasoning in knowledge graph[J]. Journal of Jilin University (Science Edition), 2025, 63(1): 76-0082.

[15]	何山, 肖晰, 张嘉玲. 面向领域知识图谱的实体关系抽取模型仿真[J]. 吉林大学学报: 理学版, 2025, 63(2): 465-471.

[16]	He Shan, Xiao Xi, Zhang Jia-ling. Simulation of entity relationship extraction model for domain knowledge graph[J]. Journal of Jilin University (Science Edition), 2025, 63(2): 465-471.

[17]	费敏学, 黄东岩, 郭晓新. 改进蜣螂算法优化机器学习模型[J]. 吉林大学学报: 理学版, 2025, 63(4): 1117-1121.

[18]	Fei Min-xue, Huang Dong-yan, Guo Xiao-xin. Improve dung beetle algorithm to optimize machine learning model[J]. Journal of Jilin University (Science Edition), 2025, 63(4): 1117-1121.

[19]	汪雨竹, 彭涛, 朱蓓蓓, 等. 基于元学习的小样本知识图谱补全[J]. 吉林大学学报: 理学版, 2023, 61(3): 623-630.

[20]	Wang Yu-zhu, Peng Tao, Zhu Bei-bei, et al. Few-shot knowledge graph completion based on meta learning[J]. Journal of Jilin University (Science Edition), 2023, 61(3): 623-630.

[21]	Lu W, Wang P, Ma X, et al. Enrich cross-lingual entity links for inline wikis via multi-modal semantic matching[J]. Information Processing & Management, 2020, 57(5): 102271.

[22]	王雪鹏, 刘康, 何世柱, 等. 基于网络语义标签的多源知识库实体对齐算法[J].计算机学报, 2017, 40(3): 701-711.

[23]	Wang Xue-peng, Liu Kang, He Shi-zhu, et al. Multi-source knowledge bases entity alignment by leveraging semantic tags[J]. Chinese Journal of Computers, 2017, 40(3): 701-711.

[24]	Zhang C, Song D, Huang C, et al. Heterogeneous graph neural network[C]∥Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Anchorage, USA, 2019: 793-803.

[25]	庄严, 李国良, 冯建华. 知识库实体对齐技术综述[J]. 计算机研究与发展, 2016, 53(1): 165-192.

[26]	Zhuang Yan, Li Guo-liang, Feng Jian-hua. A survey on entity alignment of knowledge base[J]. Journal of Computer Research and Development, 2016, 53(1): 165-192.

[27]	乔晶晶, 段利国, 李爱萍. 融合多种特征的实体对齐算法[J]. 计算机工程与设计, 2018, 39(11): 3395-3400.

[28]	Qiao Jing-jing, Duan Li-guo, Li Ai-ping. Entity alignment algorithm based on multi-features[J]. Computer Engineering and Design, 2018, 39(11): 3395-3400.

[29]	Kipf N, Welling M. Semi-supervised classification with graph convolutional networks[C]∥Proceedings of the 5th International Conference on Learning Representations, Toulon, France, 2016: 160902907.

[30]	Veličković P, Cucurull G, Casanova A, et al. Graph attention networks[C]∥Proceedings of the 6th International Conference on Learning Representations, Vancouver, Canada, 2018: 171010903v3.

[31]	Wu Y, Liu X, Feng Y, et al. Jointly learning entity and relation representations for entity alignment[C]∥Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, Hong Kong, China, 2019: 240-249.

[32]	Wu Y, Liu X, Feng Y, et al. Relation-aware entity alignment for heterogeneous knowledge graphs[C]∥Proceedings of the 28th International Joint Conference on Artificial Intelligence, Macao, China, 2019: 5278-5284.

[33]	Wu Y, Liu X, Feng Y, et al. Neighborhood matching network for entity alignment[C]∥Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, Virtual, 2020: 6477-6487.

[34]	Bordes A, Usunier N, García D A, et al. Translating embeddings for modeling multi-relational data[C]∥Proceedings of the 26th International Conference on Neural Information Processing Systems, Lake Tahoe, USA, 2013: 2787-2795.

[35]	Chen M, Tian Y, Chang K. Co-training embeddings of knowledge graphs and entity descriptions for cross-lingual entity alignment[C]∥Proceedings of the 27th International Joint Conference on Artificial Intelligence, Jeju, South Korea, 2018: 3998-4004.

[36]	Zhu Q, Wei H, Sisman B, et al. Collective multi-type entity alignment between knowledge graphs[C]∥Proceedings of the 2020 World Wide Web Conference, Taipei, China, 2020: 2241-2252.

[37]	Kipf T, Welling M. Semi-supervised classification with graph convolutional networks[C]∥Proceedings of the 5th International Conference on Learning Representations, Toulon, France, 2017: 160902907.

[38]	Chen L, Gu W, Tian X, et al. AHAB: aligning heterogeneous knowledge bases via iterative blocking[J]. Information Processing & Management, 2019, 56(1): 1-13.

[39]	Cao Y, Liu Z, Li C, et al. Multi-channel graph neural network for entity alignment[C]∥Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy, 2019: 1452-1461.

[40]	Wu Y, Liu X, Feng Y, et al. Neighborhood matching network for entity alignment[C]∥Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, Virtual, 2020: 6477-6487.

[41]	Sun Z. A benchmarking study of embedding-based entity alignment for knowledge graphs[C]∥Proceedings of the VLDB Endowment, Tokyo, Japan, 2020: 2326-2340.

[42]	Wang Z, Lan X, Zhang Y, et al. Cross-lingual knowledge graph alignment via graph convolutional networks[C]∥Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium, 2018: 349-357.

[43]	Yang H W, Zou Y, Shi P, et al. Aligning cross-lingual entities with multi-aspect information[C]∥Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, Hong Kong, China, 2019: 4430-4440.

[44]	Ye R, Li X, Fang Y, et al. A vectorized relational graph convolutional network for multi-relational network alignment[C]∥Proceedings of the 28th International Joint Conference on Artificial Intelligence, Macao, China, 2019: 4135-4141.

[45]	Xu K, Wang L, Yu M, et al. Cross-lingual knowledge graph alignment via graph matching neural network[C]∥Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy, 2019: 3156-3161.

[46]	Zhang Q, Sun Z, Hu W, et al. Multi-view knowledge graph embedding for entity alignment[C]∥Proceedings of the 28th International Joint Conference on Artificial Intelligence, Macao, China, 2019: 5429-5435.

[47]	Sun Z, Hu W. Cross-lingual entity alignment via joint attribute-preserving embedding[C]∥Proceedings of the International Semantic Web Conference, Vienna, Austria, 2017: 628-644.

[48]	Trisedya B, Qi J, Zhang R. Entity alignment between knowledge graphs using attribute embeddings[C]∥Proceedings of the 33th AAAI Conference on Artificial Intelligence, Hawaii, USA, 2019: 297-304.

[49]	Liu Z, Cao Y, Pan L, et al. Exploring and evaluating attributes, values, and structures for entity alignment[C]∥Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, Virtual, 2020: 6355-6364.

[50]	Yang K, Liu S, Zhao J, et al. COTSAE: co-training of structure and attribute embeddings for entity alignment[C]∥Proceedings of 34th AAAI Conference on Artificial Intelligence, New York, USA, 2020: 3025-3032.

[51]	Chen B, Zhang J, Tang X, et al. JarKA: modeling attribute interactions for cross-lingual knowledge alignment[C]∥Proceedings of the Pacific-Asia Conference on Knowledge Discovery and Data Mining, Singapore, Singapore, 2020: 845-856.

[52]	Chen M, Tian Y, Chang K, et al. Co-training embeddings of knowledge graphs and entity descriptions for cross-lingual entity alignment[C]∥Proceedings of the 27th International Joint Conference on Artificial Intelligence, Jeju, South Korea, 2018: 3998-4004.

[53]	Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]∥Proceedings of the 26th International Conference on Neural Information Processing Systems, Lake Tahoe, USA, 2013: 3111-3119.

[54]	Rahimi A, Cohn T, Baldwin T. Semi-supervised user geolocation via graph convolutional networks[C]∥Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, Melbourne, Australia, 2018: 2009-2019.

[55]	Liu P, Li H, Wang Z, et al. Multi-features based semantic augmentation networks for named entity recognition in threat intelligence[J]. International Conference on Pattern Recognition, 2022, 7: 250243626.

[56]	Sun Z, Hu W, Zhang Q, et al. Bootstrapping entity alignment with knowledge graph embedding[C]∥Proceedings of the 27th International Joint Conference on Artificial Intelligence, Stockholm, Sweden, 2018: 4396-4402.

[57]	Zhu R B, Ma M, Wang P. RAGA: relation-aware graph attention networks for global entity alignment[C]∥Advances in Knowledge Discovery and Data Mining: 25th Pacific-Asia Conference, Virtual, 2021: 501-513.

[58]

Cai W S, Ma W J, Zhan J Y, et al. Entity alignment with reliable path reasoning and relation-aware heterogeneous graph transformer[C]∥Proceedings of the 31st International Joint Conference on Artificial Intelligence and the 25th European Conference on Artificial Intelligence, Vienna, Austria, 2022: 1930-1937.

基金资助

云南省重点研发计划项目(202202AD080003)

AI Summary AI Mindmap

PDF (2173KB)

访问

被引

详细

导航

Received	Accepted	Published
2024-02-23
Issue Date
2026-06-15

摘要

Abstract

Graphical abstract

关键词

Key words

引用本文

0 引 言

1 相关工作

1.1 基于翻译模型

1.2 基于GNNs的实体对齐

1.3 考虑属性结构的实体对齐方法

2 问题定义

3 本文方法

3.1 实体嵌入

3.2 实体路径匹配嵌入

3.3 关系三元组感知注意力嵌入

3.4 属性三元组感知注意力嵌入

3.5 GCN聚合

3.6 知识图谱语义增强

3.7 实体对齐与训练