双曲空间互学习捆绑推荐模型HyperMLBR

刘婕; 李琳; 柯豪乐; 谢伟平

doi:10.20056/j.cnki.ZNMDZK.20250511

中南民族大学学报（自然科学版） ›› 2025, Vol. 44 ›› Issue (05) : 654 -663. DOI: 10.20056/j.cnki.ZNMDZK.20250511

物理与电子信息科学

双曲空间互学习捆绑推荐模型HyperMLBR

刘婕 ¹ ,
李琳 ² ,
柯豪乐 ² ,
谢伟平 ¹

作者信息 +

HyperMLBR：Hyperbolic space mutual learning bundle recommendation model

Jie LIU ¹ ,
Lin LI ² ,
Haole KE ² ,
Weiping XIE ¹

Author information +

文章历史 +

PDF (1646K)

摘要

在许多工程与商务应用中，项目与商品捆绑是一种广泛采用的推荐策略.但是现有方法对捆绑推荐中交互数据的特征认识存在不足，而且欧氏空间的互学习方法难以在双曲空间中充分发挥视图之间互补优势，因此提出了一种双曲空间互学习的捆绑推荐模型（HyperMLBR）.该模型设计了图掩码模块和互学习模块，利用掩码自编码器和在线知识蒸馏技术，促使两个视图在双曲空间中进行有效的协作建模.最后HyperMLBR模型与其他模型在Youshu和NetEase数据集上进行性能分析、消融实验和互学习效果分析，实验结果表明：HyperMLBR模型具有有效性和动机的正确性.

Abstract

Project and commodity bundling is a widely used recommendation strategy in many engineering and business applications. However， the existing methods have insufficient understanding of the characteristics of interaction data in bundle recommendation， and the Euclidean mutual learning methods fail to fully exploit the complementary advantages between views in hyperbolic space. Therefore， a hyperbolic space mutual learning bundle recommendation model （HyperMLBR） is proposed. The model designs a graph masking module and a mutual learning module， utilizing masked autoencoder and online knowledge distillation technique to promote effective collaborative modeling of two views in hyperbolic space. HyperMLBR model and other models were analyzed in the Youshu and NetEase data sets for performance analysis， ablation experiment and mutual learning effect analysis. The experimental results demonstrate that the HyperMLBR model is effective and its motivation is correct.

Graphical abstract

关键词

捆绑推荐 / 交互数据 / 双曲空间 / 互学习

Key words

bundle recommendation / interactive data / hyperbolic space / mutual learning

引用本文

引用格式 ▾

[Author(id=1273234251168957157, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1189606078770897777, orderNo=0, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1273234251227677417, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1189606078770897777, authorId=1273234251168957157, language=EN, stringName=Jie LIU, firstName=Jie, middleName=null, lastName=LIU, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=¹, address=Wuhan University of Technology，a. School of Civil Engineering and Architecture； b. School of Computer Science and Artificial Intelligence，Wuhan 430070，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1273234251273814766, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1189606078770897777, authorId=1273234251168957157, language=CN, stringName=刘婕, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=¹, address=^1.武汉理工大学，土木工程与建筑学院，武汉 430070, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1273234251034739417, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1189606078770897777, xref=1., ext=[AuthorCompanyExt(id=1273234251047322330, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1189606078770897777, companyId=1273234251034739417, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=Wuhan University of Technology，a. School of Civil Engineering and Architecture； b. School of Computer Science and Artificial Intelligence，Wuhan 430070，China), AuthorCompanyExt(id=1273234251064099548, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1189606078770897777, companyId=1273234251034739417, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=^1.武汉理工大学，土木工程与建筑学院，武汉 430070)])]), Author(id=1273234251319952115, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1189606078770897777, orderNo=1, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=cathylilin@whut.edu.cn, emailSecond=null, emailThird=null, correspondingAuthor=1, authorType=1, ext={EN=AuthorExt(id=1273234251378672379, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1189606078770897777, authorId=1273234251319952115, language=EN, stringName=Lin LI, firstName=Lin, middleName=null, lastName=LI, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=², address=null, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1273234251424809727, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1189606078770897777, authorId=1273234251319952115, language=CN, stringName=李琳, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=², address=^2.武汉理工大学，计算机与人工智能学院，武汉 430070, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1273234251110236896, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1189606078770897777, xref=2., ext=[AuthorCompanyExt(id=1273234251122819810, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1189606078770897777, companyId=1273234251110236896, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=^2.武汉理工大学，计算机与人工智能学院，武汉 430070)])]), Author(id=1273234251475141378, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1189606078770897777, orderNo=2, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1273234251533861641, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1189606078770897777, authorId=1273234251475141378, language=EN, stringName=Haole KE, firstName=Haole, middleName=null, lastName=KE, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=², address=null, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1273234251579998988, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1189606078770897777, authorId=1273234251475141378, language=CN, stringName=柯豪乐, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=², address=^2.武汉理工大学，计算机与人工智能学院，武汉 430070, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1273234251110236896, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1189606078770897777, xref=2., ext=[AuthorCompanyExt(id=1273234251122819810, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1189606078770897777, companyId=1273234251110236896, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=^2.武汉理工大学，计算机与人工智能学院，武汉 430070)])]), Author(id=1273234251638719247, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1189606078770897777, orderNo=3, firstName=null, middleName=null, lastName=null, nameCn=null, orcid=null, stid=null, country=null, authorPic=null, dead=0, email=null, emailSecond=null, emailThird=null, correspondingAuthor=0, authorType=1, ext={EN=AuthorExt(id=1273234251710022423, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1189606078770897777, authorId=1273234251638719247, language=EN, stringName=Weiping XIE, firstName=Weiping, middleName=null, lastName=XIE, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=¹, address=Wuhan University of Technology，a. School of Civil Engineering and Architecture； b. School of Computer Science and Artificial Intelligence，Wuhan 430070，China, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null), CN=AuthorExt(id=1273234251760354076, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1189606078770897777, authorId=1273234251638719247, language=CN, stringName=谢伟平, firstName=null, middleName=null, lastName=null, prefix=null, suffix=null, authorComment=null, nameInitials=null, affiliation=null, department=null, xref=¹, address=^1.武汉理工大学，土木工程与建筑学院，武汉 430070, bio=null, bioImg=null, bioContent=null, aboutCorrespAuthor=null)}, companyList=[AuthorCompany(id=1273234251034739417, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1189606078770897777, xref=1., ext=[AuthorCompanyExt(id=1273234251047322330, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1189606078770897777, companyId=1273234251034739417, language=EN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=Wuhan University of Technology，a. School of Civil Engineering and Architecture； b. School of Computer Science and Artificial Intelligence，Wuhan 430070，China), AuthorCompanyExt(id=1273234251064099548, tenantId=1045748351789510663, journalId=1189533126771896327, articleId=1189606078770897777, companyId=1273234251034739417, language=CN, country=null, province=null, city=null, postcode=null, companyName=null, departmentName=null, remark=^1.武汉理工大学，土木工程与建筑学院，武汉 430070)])])] 刘婕,李琳,柯豪乐,谢伟平. 双曲空间互学习捆绑推荐模型HyperMLBR[J]. 中南民族大学学报（自然科学版）, 2025, 44(05): 654-663 DOI:10.20056/j.cnki.ZNMDZK.20250511

登录浏览全文

4963

注册一个新账户忘记密码

输入：给定用户与项目交互矩阵<inline-formula xmlns：msxsl="urn：schemas-microsoft-com：xslt"><mml：math xmlns：mml="http：//www.w3.org/1998/Math/MathML"><mml：mi>X</mml：mi></mml：math></inline-formula>，用户与捆绑包交互矩阵Y以及捆绑包与单个项目的附属关系矩阵<inline-formula xmlns：msxsl="urn：schemas-microsoft-com：xslt"><mml：math xmlns：mml="http：//www.w3.org/1998/Math/MathML"><mml：mi>Z</mml：mi></mml：math></inline-formula>.

近年来，捆绑推荐受到了越来越多的关注，捆绑推荐通过学习用户的历史交互，直接向用户推荐一个包含相似项目的捆绑包.捆绑推荐的目标是通过学习用户的历史交互信息，准确预测用户与捆绑包互动的概率.大多数现有的方法都是从用户-捆绑包交互图（即捆绑包视图）和用户-项目-捆绑包交互图（即项目视图）中学习用户和捆绑包嵌入^［1-4］.模型从这两个视图学到的知识是不同的，且模型在这两个视图上的学习趋势也不同.因此，两个视图对用户偏好的不同学习趋势将导致不同的推荐结果.那么如何使两个视图可以学习各自推荐结果中包含的知识将是进一步提高模型推荐性能的关键.然而，这种重要的协作关系在现有的工作^［1-3］中没有得到很好的利用，对两个视图的松散建模难以保证知识传递的效果^［5］.最近的工作MIDGN^［6］（Multi-view Intent Disentangle Graph Networks）和CL²BRec^［7］（Cross-level relational graph Contrastive Learning for Bundle Recommendation）意识到了该问题，并利用对比学习框架改进从不同视图学到的表征.然而，将两个视图中具有不同树状程度的交互图均匀嵌入到欧几里得空间的方式存在着严重的失真问题^［8-9］.嵌入本身的不准确会在视图协作建模的过程中引入更多负面的噪声，影响互学习的效果.本文认为对于用户与项目之间交互关系的利用程度还可以进一步提高，项目视图更注重捆绑包与项目之间相似性.Attlist^［2］（Hierarchical Self-attentive Recommendation Model）和GRAM-SMOT^［10］（GRaph Attention Mechanism and SubModular OpTimization）引入了注意力机制去建模同一个捆绑包中不同项目的重要性.这种方式是利用了捆绑包和项目之间的附属关系，没有充分考虑到用户-项目交互图中不同数据对捆绑包预测贡献程度的差异.

针对上述问题，本文提出了一种基于双曲空间的互学习捆绑推荐模型（Hyperbolic Space Mutual Learning Bundle Recommendation Model， HyperMLBR）.HyperMLBR主要有以下两个创新点，一是针对没有充分考虑用户-项目交互图中不同数据对捆绑包预测贡献程度具有差异的问题，本文将用户和项目的交互划分为两个不同的集合，分别对应重要交互和次重要交互.利用图掩码模块对重要交互集合中的边进行不同概率的遮盖和恢复，从而加强模型对重要交互的学习力度，帮助项目视图得到更好的实体表征.二是针对视图之间学习倾向不同的问题，本文采用在线蒸馏的方式，在学习到相对准确的实体嵌入之后，通过互学习框架使两个视图不断提取软标签中包含的互补知识.而且，为了更好地结合双曲空间和相互学习的优势，本文还提出了基于双曲距离的互学习损失函数，以便两个视图更好地传递知识.

1 相关研究

1.1 捆绑推荐方法

比起项目推荐，捆绑推荐有着交互类型复杂，数据更加稀疏等特点，技术难度更高.现有研究大致可以分为两类：基于深度学习的方法^［1-2］和基于图的方法^{［3，6-7］}.典型的传统深度学习方法就是依靠深度神经网络，通过共享底层参数层或者利用注意力机制的方式去学习实体的表征.CHEN等^［1］提出了一个名为DAM（Deep Attentive Multi-Task Model）的模型，采用了分解注意力网络来聚合捆绑包中的项目，以此表示捆绑包的特征.HE等^［2］提出了一种自注意力聚合层来捕获用户和捆绑包特征的一致性，并以此为权重构建用户和捆绑包的实体表征.HE等^［11］通过一致性感知门控网络，并结合两个基于注意力的用户偏好模型，共同捕获用户对捆绑包的偏好.

但是，这些方法难以利用推荐系统数据中潜在的结构特征，对捆绑推荐中复杂的实体关系建模较为松散.后来，图神经网络开始逐渐在推荐领域被使用^［12-14］，图神经网络对于图数据强大的建模能力，使得模型可以更好地从用户的交互图中学习到用户的偏好，极大地提高了推荐的准确性.BGCN^［3］（Bundle Graph Convolutional Network）是图神经网络在捆绑推荐领域的经典应用.BGCN将整个交互图划分为两个不同的级别：捆绑包级别和项目级别.然后分别在两个级别内进行图卷积操作以捕获用户的不同偏好.DENG等^［15］提出一个BundleNet（Bundle Recommendation Network）框架，该框架基于历史数据构建的用户-项目-捆绑包三方交互图，并将捆绑推荐问题形式化为三方图中的连接预测问题.VIJAIKUMAR等^［10］提出了基于图注意力机制的模型GRAM-SMOT和一个基于度量学习的损失函数.这种损失函数可以将与用户和捆绑包交互的项目拉近，并将不相关的项目相对于给定的边距推得更远.ZHAO等^［6］提出了一种名为多视图意图分离图网络模型MIDGN，该模型能够以更细的粒度精确、全面地捕捉用户意图和项目关联的多样性.WANG等^［7］提出了一种跨级关系图对比学习的捆绑推荐模型CL²BRec.该方法将用户-项目和用户-捆绑包的交互图视为局部交互关系视图，将捆绑包-项目图视为局部依赖关系视图，将完整的用户-捆绑包-项目视为全局结构视图，最终构建了一种跨级别捆绑推荐模型.

1.2 非欧式空间的应用

在人工智能的诸多领域，数据常会在欧氏空间中进行表示，并且各领域都在欧氏空间的基础上取得显著成就，例如自然语言处理领域的Transformer^［16］、图像分类领域的ResNet^［17］、推荐系统领域的神经协同过滤^［18］等.但是，传统的基于向量内积公式的相似度计算方式在某些情况下存在违反三角不等式的问题^［19］，而且欧氏空间在嵌入某些类型的数据（例如树状数据、无标度数据或球形数据）时会遭受较大的失真^［20］.在这种情况下，非欧氏空间可以为相应数据提供更好的学习基础.非欧式空间根据曲率的不同可以划分为双曲空间（曲率小于0）和椭圆空间（曲率大于0）^［21］.两个空间有着各自的几何特性和优势.

近年来，学者们发现推荐系统中的用户交互数据大多呈现出长尾效应，其分布呈现为一条长尾向右下方延伸的曲线，即幂律分布.KE等^［5］通过计算Youshu和NetEase两个数据集的双曲度（Gromov’s δ-hyperbolicity），验证了捆绑推荐中的交互图具有幂律分布特性.这种现象在推荐系统中常称之为长尾效应，即小部分项目受到了大部分的关注和喜欢，而大部分项目仅受到少数用户的关注.然而，欧氏空间难以在保持低失真的同时嵌入具有上述特征的数据^［22-23］.双曲空间和双曲嵌入为解决这个问题提供了一个有希望的方向.双曲空间有着指数级的空间增长速度，恰好于幂律分布的数据相互匹配.同时，其强大的分层数据建模能力也适用于树状结构的数据.许多学者开始尝试在双曲空间中解决传统的项目推荐任务.HGCF^［24］（Hyperbolic Graph Collaborative Filtering）利用双曲空间的优势开发了一种新颖的项目推荐模型，可以在双曲空间中有效地学习用户和项目的嵌入.LGCF^［25］（Lorentz Graph Collaborative Filtering）提出了一种模型，其中模型的所有操作都在双曲空间中完成，以减少空间映射操作带来的负面影响.然而将双曲空间应用于捆绑推荐的工作却很少.HyperMBR^［5］（Hyperbolic Mutual Learning model for Bundle Recommendation）将双曲图卷积与互学习相结合用于捆绑推荐，在双曲空间中准确地学习了用户嵌入，但是捆绑包视图和项目视图仍相互隔离且独立训练，对于项目视图中交互图的不同边也没有进行区分.

2 任务描述

本文分别定义U=

{u 1, u 2, ⋯, u M}

，B=

{b 1, b 2, ⋯, b N}

且

I = {i 1, i 2, ⋯, i J}

为用户、捆绑包和单个项目的集合，其中

M

、

N

和

J

分别表示三个实体集的元素数量.根据用户的历史交互记录和捆绑包构成信息，定义了两个交互矩阵

X M × N = {x u b u ∈ U, b ∈ B}

（用户-捆绑包），

Y M × J = {y u i u ∈ U, i ∈ I}

（用户-项目），以及捆绑包和项目之间的附属关系矩阵

Z N × J = {z b i b ∈ B, i ∈ I}

，其中

x u b = 1

或

y u i = 1

表示用户

u

与捆绑包

b

或项目

i

发生过交互（点击、评论、收藏等）.如果

z b i = 1

表示捆绑包

b

包含项目

i

.根据上述定义，捆绑推荐任务可以被描述为如下形式：

输出：用户

u

最有可能发生交互的K个捆绑包组成的推荐列表.

3 HyperMLBR模型设计

3.1 HyperMLBR模型整体框架

HyperMLBR模型包含两个不同的视图以及三种不同的损失函数，即边际排名损失函数、互学习损失函数和图掩码预测损失函数，整体框架如图1所示.两个视图中编码模型采用的是HyperMBR^［5］模型，确保两个视图本身学习到的嵌入更加准确，以减少知识传递过程中产生的误导.边际损失函数作为有监督的损失函数，每个视图都会受到它的指导，尽可能往正确的方向优化，不会随意受到另一个视图的影响.通过监督学习，两个视图会逐渐对测试集中的每一个用例给出自己预测的标签.同时，图掩码预测损失函数则会指导项目视图的编码器更加注重有效交互的学习.

由于两个视图的输入和嵌入初始化都不同，最终学习到的表征也不同，因此它们对同一个用例给出的预测值也会有所不同.根据另一个视图的预测找出每一个测试用例其他最有可能的结果，可以增加自身结果的后验熵，从而帮助模型收敛到更鲁棒的结果.因此本文进一步引入了互学习损失函数，两个视图视作有着共同目标的同级模型，在向另一个视图传递知识的同时，也在接受另一个视图的知识.最后，三个损失函数以不同的权重组成最终的损失函数，共同优化模型.

3.2 边际排名模块设计

本文采用边际排名损失^［5］来优化模型参数.该损失函数分为两个部分，首先需要利用负样本集

N

来估计正样本

j

的近似排名.其中负样本集N是在训练之前随机采样生成的.近似排名估计的具体公式表示如下：

r a n k (i, j) ≈ r i, j = ∑ k ∈ N | μ + d ℍ 2 (u i, b j) - d ℍ 2 (u i, b k) | +

，（1）

其中

d H u i, b k

是用户

i

和捆绑包

k

之间的双曲距离，

⋅ + = m a x (0, ⋅)

表示取非负部分，即近似排名的最小值就是0.

μ ∈ R +

是安全边际参数，表示需要将负样本推离的最小距离.最后，根据每个样本的近似排名，边际排名损失的计算定义如下：

L i, j M R L = l o g (1 + r i, j)

.（2）

3.3 图掩码模块设计

项目视图更注重捆绑包与项目之间相似性，项目是目标用户与可能喜欢的捆绑包之间的桥梁.基于此，用户-项目交互图中的边可以根据用户交互过的项目是否被用户交互过的捆绑包所包含分为两类.这两类交互可被定义如下：

ℰ 1 = {(u, i) Y u i = 1, X Z u i > 0}

，（3）

ℰ 2 = {(u, i) Y u i = 1, X Z u i = 0}

，（4）

其中

ℰ 1

表示用户-项目交互图中更重要的边，这些边为捆绑包的预测做出了更多的贡献；

ℰ 2

表示用户-项目交互图中次重要的边.受计算机视觉领域中掩码自编码器的启发^［26］，本文在部分被屏蔽的用户-项目图上进行信息传播，然后利用图掩码预测损失函数指导编码器重建显著缺失的信息，并进一步推测潜在的有效交互.

首先，最简单遮掩边的方式是固定遮掩概率，对

ℰ 1

中的每一条边进行等概率的遮盖.然而，Youshu和NetEase数据集存在明显的长尾效应，每个实体的交互密度变化非常明显.所以合理的方式是根据边两端节点的度来计算该节点的交互密度，并根据交互密度设定该条边的遮掩概率.对于

ℰ 1

中的每一条边

(u, i)

计算对应两端实体的交互密度：

d e n s i t y (u, i) = d e g (u) + d e g (i) 2

，（5）

其中

d e g (u)

表示用户

u

在用户-项目交互图中的度.为了缓解长尾效应带来的度分布差距过大的问题，本文设定

s u i = d e n s i t y (u, i)

.基于此，设定每条边的遮掩概率如下：

p u i = p l + s u i - s m i n s m a x - s m i n (p u - p l)

，（6）

其中，

p l

和

p u

是超参数，分别是遮掩概率的下限和上限.式6保证了一条边两端的实体交互密度越高，这条边被遮掩的概率就越高.定义被遮掩边的集合为

ℰ m a s k

，经过双曲图卷积模块的信息传播之后，可以得到用户和项目位于双曲空间的实体表征

e u I, e i I

.可以利用这两个实体表征去预测被遮掩的边，并构建损失函数，损失函数如下：

L M P = ∑ (u, i) ∈ ℰ m a s k l o g (1 + ∑ k ∈ N | μ + d H 2 (u, i) - d H 2 (u, k) | +)

，（7）

其中

d H (u, i)

表示

u

和

i

嵌入之间的双曲距离.

3.4 互学习模块设计

捆绑推荐中两个视图有着截然不同的学习倾向，而且存在着结果互补的可能.HyperMBR^［5］获得了相对准确的实体嵌入，但是两个视图之间的学习过程仍然互相隔离，无法从另一个视图中学习到有益的知识.利用跨视图的互学习方法去促进两个视图之间的相互增强，同时考虑到传统的基于向量内积的优化方式不利于嵌入在双曲空间的优化，本文提出的模型并没有采用常规的基于概率的软标签作为知识蒸馏学习的目标，而是使用了一个更适合双曲空间的知识蒸馏损失.

在获得用户和捆绑包的嵌入（例如

e u B, e b B, e u I, e b I

）之后，针对两个双曲空间

H I

和

H B

，使用式8^［5］计算嵌入之间的双曲距离.

d H K (x, y) = K a r c o s h (- x, y H / K)

，（8）

其中

d H K (x, y)

表示的是

x

和

y

之间的双曲距离，而

⋅, ⋅ H

是双曲面中的向量内积操作，

x, y H = - x 0 y 0 + x 1 y 1 + … + x d y d

然后，使用softmax将双曲距离转换为用于知识蒸馏的对象.具体描述如下：

p I u I, b I = s o f t m a x (d H K I e u I, e b I / τ)

，（9）

p B (u B, b B) = s o f t m a x (d H K B (e u B, e b B) / τ)

，

其中

τ

是一个称为温度的超参数.后验预测（软标签）

p I

和

p B

揭示了实体之间的隐藏关系，并显示了两个视图学习倾向的差异，这些差异在训练数据中并未明确包含.通过将彼此的软标签视为自身的附加训练经验，两个视图可以学习到更全面的知识.然后，使用KL散度来促进两个视图之间的相互学习.KL距离可以表述如下：

K L (p I p B) = ∑ j C P I (x j) l o g p I (x j) p B (x j)

，（10）

其中

C

是为每个用户随机采样的捆绑包的数量.最终的互学习损失函数如下：

L M L = α K L (p I p B) + (1 - α) K L (p B p l)

，（11）

其中

α

是一个超参数，用于控制两个视图之间的相互学习程度.

α

越高，项目视图向捆绑包视图传递知识的力度就越大.

最后，将三个损失函数组合在一起作为最终的损失函数.公式如下：

L F i n a l = L M R L + λ L M L + β L M P

，（12）

其中

λ

和

β

分别是用于加权互学习损失和图掩码预测损失的超参数.

4 实验与结果分析

4.1 实验设置及评价指标

本文所使用的数据集Youshu和NetEase，NetEase数据集是由CAO等^［4］爬取自网易云音乐平台.与NetEase数据集相似，Youshu是CHEN等^［1］从优书网爬取的真实数据.这两个数据集也是捆绑推荐领域使用最为广泛的公共数据集^{［1，4，6，10］}.训练集、验证集和测试集的划分与官方设置保持一致，划分比例为7∶1∶2，划分基准是用户与捆绑包的交互个数.数据的划分情况如表1所示.所有的实验都是在GPU上进行运算，GPU型号为NVIDIA GTX 3090，显存24GB，CUDA版本为10.2，服务器的内存容量为256GB，Python版本为3.7.7，PyTorch版本为1.9.1.

在实验中，对于每个基线模型，本文遵循引用参考文献中提供的最佳参数.优化器选用Adam，训练时并采用4096的批量大小.对于使用BPR loss的模型，负样本数量设置为1.HyperMBR模型学习率为1e-3，训练批量大小为4096，捆绑包视图和项目视图中双曲空间的曲率初始值分别设为2.0和1.0.对于边际排名损失，将边际

μ

设置为1.5，负样本数量设置为256.HyperMLBR模型学习率设置为1e-3，分别调整边际超参数

μ

、图掩码采样概率下限

p l

和上限

p u

、互学习系数

α

、互学习损失权重

λ

、图掩码损失权重

β

和蒸馏温度

τ

，调整范围为

{0.5,1, 1.5,2}

、

{0,0.2, 0.4, 0.6, 0.8, 1.0}

、

{0.1, 0.3, 0.5, 0.7, 0.9}

、

{0.05,0.1,0.5,1, 2}

、

{0,0.005,0.01,0.1,0.5,1, 2}

和

{0.8,0.9,1.0,1.1,1.2}

.训练时的批量大小为4096，嵌入的维度设置为实验的最优参数64，优化器采用Adam.

H I

和

H B

的曲率选择在范围

{1,2, 3,4}

内.值得一提的是两个双曲空间的曲率不一定相同.

在推荐系统领域，模型最终会向用户推荐K个用户交互概率最高的对象，也称为TopK推荐.捆绑推荐领域普遍采用的评价指标是

R e c a l l @ K

和

N D C G @ K

^{［1，3，6，10］}.本文所使用的基线模型（DAM、Attlist、BGCN、GRAM-SMOT、MIDGN和CL²BRec）在其原论文中对性能指标的计算方式略有不同.DAM，GRAM-SMOT用的是留一法（leave-one-out），用户的一个交互记录会被随机删除用作模型测试.在测试阶段，这两个模型会对测试集中的每个正样本随机挑选99个用户从未交互过的捆绑包作为负样本，以此来计算

R e c a l l @ K

以及

M A P @ K

.这种方式无需对所有捆绑包计算推荐分数，能够减少时间消耗，加快训练进程.而Attlist、BGCN、MIDGN和CL²BRec则是对全部的捆绑包候选集计算

R e c a l l @ K

和

N D C G @ K

，训练耗时较长，但对模型性能要求更加严格.为了保证评价指标的严格性和不同模型性能的可比性，本文统一采用后一种方式进行指标的计算.

指标

R e c a l l @ K

是指召回命中率，衡量的是模型的召回能力，即模型推荐的K个捆绑包中有多少是用户真实交互过.计算公式如下：

R e c a l l @ K = H i t_N u m @ K K .

（13）

N D C G @ K

则在

R e c a l l @ K

的基础上，进一步考察模型对正负样本的排序能力，希望用户喜欢的捆绑包能够在排序结果中相对靠前.最好的情况就是模型能把所有正样本都排在负样本前面，此时

N D C G @ K

的分数最高，为1.计算公式如下：

N D C G @ K = D C G @ K I D C G @ K,

（14）

D C G @ K

的计算方式如下：

D C G @ K = ∑ i = 1 K r e l i l o g 2 (i + 1),

（15）

其中，

r e l i ∈ 0,1

表示根据模型推测的概率排序后的位置i的捆绑包是否命中，1为命中.

I D C G @ K

则是指最理想的排序情况下的

D C G @ K

的分数，即所有正样本都排在负样本前面的情况.

4.2 总体性能和结果分析

本文将HyperMLBR与基线模型、HyperMBR进行比较，表2和表3分别展示了模型在Youshu和NetEase上

R e c a l l @ K

和

N D C G @ K

指标的表现情况.从表中可以看到HyperMLBR的性能与其他模型相比得到了进一步的提升.

从实验结果可见，HyperMLBR在两个数据集上比HyperMBR的

R e c a l l @ K

指标分别提高1.44%~7.95%和6.04%~20.08%；比HyperMBR的

N D C G @ K

指标分别提高4.47%~7.31%和5.71%~22.07%.HyperMLBR模型性能的提升可以归因于以下三个原因：

（1）图掩码模块加强了项目视图的学习效果.图掩码模块加强了项目视图中较为重要边的学习力度，并通过边遮掩重构的方式重建了显著缺失的信息，并进一步推测潜在的有效交互，提升了项目视图的学习效果，最终帮助模型提升了整体性能.

（2）互学习模块起到了视图之间相互增强的效果.两个视图之间的相互学习成功帮助两个视图学到了更全面的实体表征，最终提升了模型的性能.

（3）双曲空间缓解了嵌入的失真问题.模型充分考虑了捆绑推荐中交互图的树状结构，并利用双曲空间对于这类数据强大的嵌入能力，使得模型能够学到更准确的实体表示，从而让视图之间传递更准确的知识，减少了误导.

4.3 消融实验

为了探究和分析HyperMLBR模型中图掩码模块以及跨视图的互学习模块对整体性能以及模型其他模块的影响，本文在Youshu和NetEase数据集上设计了4个消融实验模型，分别如下：

（1）w/o IV（Item View）和w/o BV（Bundle View）：这两个变体在训练阶段保持一致，仍然是两个视图同步训练，但是在最终预测阶段，w/o IV只保留捆绑包视图的预测结果，w/o BV只保留项目视图的预测结果.这两个变体实验是为了验证加入图掩码模块、互学习模块之后，两个视图是否如期望的一样能够得到增强.

（2）w/o Hyp（without Hyperbolic）：这个变体将模型中的编码器改为传统的基于欧式空间的图卷积模型，探究互学习模块在失去了相对准确嵌入的基础后，是否还能起到相互增强的目的.

（3）w/o MP（without mask predict）：这个变体去掉了图掩码模块，探究不对项目视图中的交互数据进行有区别的学习对模型性能的影响.

（4）w/o ML（without Mutual Learning）：这个变体实验在HyperMLBR的基础上移除了互学习模块，探究跨视图的相互学习对模型性能的影响.

实验结果如表4所示，可得出如下结论：

（1）图掩码模块是有效的.为了评估图掩码模块是否对模型性能有贡献，本文设计了变体模型HyperMLBR w/o MP，该变体模型在HyperMLBR中移除了图掩码模块.这个变体模型在两个数据集上都出现了不同程度性能的下降，这就证明项目视图确实更加注重项目和捆绑包之间的相似度，更偏向于向用户推荐那些包含用户历史交互过的项目的捆绑包.

（2）跨视图的互学习模块是有效的.为了评估互学习模块是否对模型性能有贡献，本文设计了一个模型的变体，使其在式12中删除互学习损失.本文将该变体模型称为HyperMLBR w/o ML.该变体模型在NetEase数据集上的Recall@5和NDCG@5指标上分别下降13.24%和15.77%，在Youshu数据集上分别下降3.39%和4.14%.这证明了促使两个视图相互学习的重要性.同时，w/o IV和w/o BV两个变体模型的指标出现了不同程度的下降，这说明相互学习让视图之间传递了自身学习到的知识，但视图本身仍然保留了自身的优势，无法被完全取代.而且在增添了互学习的损失函数之后，两个视图的表现都比原先更好，这说明互学习模块确实使得两个视图实现相互增强的目的.

（3）准确的嵌入减少了互学习过程中的误导.w/o Hyp模型中，让模型在欧式空间中执行对应操作，并确保其他条件与双曲空间完全一致.该变体模型在NetEase数据集上的Recall@5和NDCG@5指标上分别下降17.07%和18.46%，在Youshu数据集上的Recall@5和NDCG@5分别下降11.51%和10.06%.变体模型在两个数据集上的性能甚至略微不如HyperMBR.这说明准确的实体嵌入，是互学习模块的基础.如果模型的底层嵌入本身就带有较大的误差，视图本身的预测结果就会带有较大的错误，这个错误会在相互学习的过程中传递给对方，进一步放大了错误，最终导致模型性能下降.

4.4 互学习效果分析

为了进一步探索互学习模块的作用，本文进行了相关实验来研究以下两个问题：（1）两个视图在训练过程中是否从彼此中提取了知识？（2）两个视图是否加强了彼此？

为了证明知识确实在两个视图之间被蒸馏，即两个视图会达成一定程度的公式，输出更相似的logits，本文可视化了训练期间KL距离的变化曲线.训练时会给予两个视图一个热身过程，以便它们有时间学到一定水平的基础知识，而不是过早地将未成熟的知识传递给彼此.因此，从第10个epoch开始计算KL距离的变化，结果如图2所示.互学习模块的加入显著减小了两个视图logits之间的KL距离，这证明随着训练的进行两个视图确实从彼此中学到了知识，并逐渐在推荐结果上达成了一定程度的共识.而且可以看到KL距离一直处于大于0的状态，这说明尽管两个视图互相作为对方的教师模型，传递知识，两者还是存在自身的特点，保持着与对方的差异.

为了验证两个视图是否加强了彼此，在图3中展示了基于单视图和双视图计算的

R e c a l l @ 20

指标.捆绑包视图预测使用

d ℍ B (e u B, e b B)

，而项目视图预测使用

d ℍ I (e u I, e b I)

.从实验结果中得出以下结论：1）互学习模块显著提高了所有三种预测类型的推荐性能.2）单一视图的性能远远不及双视图，说明在两个视图学到的知识之间存在强烈的互补性，并证明使用互学习模块来鼓励它们相互加强的动机是合理的.

5 结语

经过对捆绑推荐的分析，发现捆绑推荐中捆绑包视图和项目视图有着各自的学习倾向，并且这种不同的学习倾向会使得最终推荐结果产生变化，而且用户-项目视图中不同边具有不同的重要性.两个视图的独立训练以及最终推荐结果的简单相加，未能有效利用两个视图各自的优势，而且对于不同边的重要性建模也不够理想.针对这两个问题，本文提出了一种双曲空间互学习的捆绑推荐模型HyperMLBR，该模型通过图掩码模块加强了项目视图中嵌入的学习，然后利用互学习损失函数促使两个视图向对方学习，在保持自身优势的同时，学习对方的长处，最终达到互相增强的目的.最终的实验结果和效果分析不仅表明了两个模块的有效性，也表明了互学习模块确实如先前分析的一样产生了正向效果，而且说明了一个准确的嵌入是互学习模块的重要基础.

参考文献

原文顺序 | 出版日期 | 本文引用

[1]

CHEN L， LIU Y， HE X， et al. Matching user with item set： Collaborative bundle recommendation with deep attention network［C］//Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence. Macao：International Joint Conferences on Artificial Intelligence Organization， 2019： 2095-2101.

[2]	HE Y， WANG J， NIU W， et al. A hierarchical self-attentive model for recommending user-generated item lists［C］//Proceedings of the 28th ACM International Conference on Information and Knowledge Management. Beijing： ACM， 2019： 1481-1490.

[3]	CHANG J， GAO C， HE X， et al. Bundle recommendation with graph convolutional networks［C］//Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. Virtual Event：ACM， 2020： 1673-1676.

[4]	CAO D， NIE L， HE X， et al. Embedding factorization models for jointly recommending items and user generated lists［C］//Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. Tokyo：ACM， 2017： 585-594.

[5]	KE H， LI L， WANG P， et al. Hyperbolic mutual learning for Bundle recommendation［C］// Database Systems for Advanced Applications. Cham： Springer Nature Switzerland， 2023： 417-433.

[6]	ZHAO S， WEI W， ZOU D， et al. Multi-view intent disentangle graph networks for bundle recommendation［J］. Proceedings of the AAAI Conference on Artificial Intelligence， 2022， 36（4）： 4379-4387.

[7]	WANG N， SUN J， LI J. Cross-level relational graph contrastive learning for bundle recommendation［C］//2023 IEEE International Conference on Web Services. Chicago： IEEE， 2023： 112-117.

[8]	CHEN W， FANG W， HU G， et al. On the hyperbolicity of small-world and treelike random graphs［J］. Internet Mathematics， 2013， 9（4）： 434-491.

[9]	RAVASZ E， BARABÁSI A L. Hierarchical organization in complex networks［J］. Physical Review E， Statistical， Nonlinear， and Soft Matter Physics， 2003， 67（ 2）： 026112.

[10]	VIJAIKUMAR M， SHEVADE S， MURTY M N. GRAM-SMOT： Top-N personalized bundle recommendation via graph attention mechanism and submodular optimization［C］// Machine Learning and Knowledge Discovery in Databases. Cham： Springer International Publishing， 2021： 297-313.

[11]	HE Y， ZHANG Y， LIU W， et al. Consistency-aware recommendation for user-generated item list continuation［C］//Proceedings of the 13th International Conference on Web Search and Data Mining. Houston：ACM， 2020： 250-258.

[12]	WANG X， HE X， WANG M， et al. Neural graph collaborative filtering［C］//Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. Paris：ACM， 2019： 165-174.

[13]	YING R， HE R， CHEN K， et al. Graph convolutional neural networks for web-scale recommender systems［C］//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. London：ACM， 2018： 974-983.

[14]	葛尧，陈松灿. 面向推荐系统的图卷积网络［J］. 软件学报， 2020， 31（4）： 1101-1112.

[15]	DENG Q， WANG K， ZHAO M， et al. Personalized bundle recommendation in online games［C］//Proceedings of the 29th ACM International Conference on Information & Knowledge Management. Virtual Event：ACM， 2020： 2381-2388.

[16]	VASWANI A， SHAZEER N， PARMAR N， et al. Attention is all you need［C］//Proceedings of the Neural Information Processing Systems. Long Beach： NIPS Foundation， 2017， 30：5998-6008.

[17]	HE K， ZHANG X， REN S， et al. Deep residual learning for image recognition［C］//2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Las Vegas：IEEE， 2016： 770-778.

[18]	HE X， LIAO L， ZHANG H， et al. Neural collaborative filtering［C］//Proceedings of the 26th International Conference on World Wide Web. Perth：International World Wide Web Conferences Steering Committee， 2017： 173-182.

[19]	HSIEH C K， YANG L， CUI Y， et al. Collaborative metric learning［C］//Proceedings of the 26th International Conference on World Wide Web. Perth：International World Wide Web Conferences Steering Committee， 2017： 193-201.

[20]	NICKEL M， KIELA D. Poincaré embeddings for learning hierarchical representations［EB/OL］. 2017： 1705.08039.

[21]	LI H， HESTENES D， ROCKWOOD A. A universal model for conformal geometries of Euclidean， spherical and double-hyperbolic spaces［M］Berlin：Springer Berlin Heidelberg， 2001.

[22]	CHAMI I， YING R， RÉ C， et al. Hyperbolic graph convolutional neural networks［J］. Advances in Neural Information Processing Systems， 2019， 32： 4869-4880.

[23]	ZHANG S， CHEN H， MING X， et al. Where are we in embedding spaces？［C］//Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining. Virtual Event：ACM， 2021： 2223-2231.

[24]	SUN J， CHENG Z， ZUBERI S， et al. Hgcf： Hyperbolic graph convolution networks for collaborative filtering［C］// Proceedings of the Web Conference 2021. Ljubljana： SIGWEB 2021： 593-601.

[25]	WANG L， HU F， WU S， et al. Fully hyperbolic graph convolution network for recommendation［C］//Proceedings of the 30th ACM International Conference on Information & Knowledge Management. Virtual Event：ACM， 2021： 3483-3487.

[26]	HE K， CHEN X， XIE S， et al. Masked autoencoders are scalable Vision learners［C］//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans： IEEE， 2022： 16000-16009.