空间转录组学(Spatial transcriptomics,ST)技术通过整合基因表达谱、空间坐标信息与组织形态图像,为精确解析生物组织内基因表达的空间分布模式提供了机会
[1]。然而,ST数据具有高维、高稀疏、高噪声等特点,需要高效准确的算法和计算资源进行处理。作为解析基因表达空间异质性和细胞互作关系的核心要素,空间位置信息不仅明确了检测位点的组织解剖定位,更为揭示组织微环境中的功能分区提供了几何坐标基础。
空间域识别旨在划分具有一致性基因表达和组织形态特征的空间连续区域。精准识别空间结构域是解析组织异质性和细胞功能机制的重要前提。近年来,基于深度学习的空间域识别方法在处理高维大规模数据时展现出显著优势
[2]。其中,图卷积网络(Graph convolutional net work,GCN)通过对空间位点的特异性拓扑关系进行建模,成为了当前处理复杂ST数据的主流工具
[3]。SpaGCN算法通过融合组织学特征将二维坐标扩展到三维来构建无向加权图,并结合迭代聚类算法实现对空间异质性的解析
[4]。conST通过引入了深度图信息框架,利用对比学习技术提高了图卷积网络编码层所捕获的低维潜在嵌入的质量
[5]。STAGATE通过自适应学习邻域斑点的注意力权重的编码器实现空间信息的无监督聚合
[6]。stLearn能够通过非负矩阵分解和自监督学习方法利用图卷积网络提取空间潜在分布模式,后结合位点的对应基因表达信息实现了对组织微环境的精细解析
[7]。DeepST构建多模态融合框架,利用预训练卷积网络提取组织图像特征生成增强矩阵,结合变分图自编码器与去噪自编码器提升潜在表征的判别能力
[8]。GraphST通过设计多层次的神经网络结构实现了以端到端的学习方式自动提取复杂的空间模式
[9]。SEDR可以在无基础真相的情况下,通过特定的对比学习目标函数约束网络学习到鲁棒的空间特征表示
[10]。EfNST通过EfficientNet架构来优化空转数据的图像学信息,通过结合图像信息来辅助增强模型对空间域识别的精度
[11]。
尽管上述方法通过图神经网络实现了多模态数据的整合,但这些算法采用的单视图模型提取特征的视角较为单一,不能充分利用全局结构信息。针对上述挑战,本研究提出了一种基于多视图图卷积网络的空间域识别方法SpaMGCN。该方法通过融合空间邻近依赖与基因表达相关性的双尺度结构建模,实现对复杂ST数据的多维度特征解析,从全局视角揭示组织结构的层级化信息。SpaMGCN以共享多视图图卷积网络为基础框架,同步学习ST数据的多模态结构特征,并嵌入深度聚类模块通过增强潜在表征的紧凑性优化特征空间,从而提升模型对数据复杂关联性的捕捉能力。在多个公开数据集上的基准实验表明,相较于现有先进方法,SpaMGCN在空间域识别精度、聚类表征的几何紧凑性及类别可分性等关键指标上均展现出显著优势。
1 模型介绍和方法
1.1 SpaMGCN模型介绍
SpaMGCN是一个用于解读ST数据的多视图图卷积框架(
图1),通过整合空间位置信息与基因表达谱,实现对ST数据的联合特征表示的深度学习。模型工作流程包含四个核心模块:图构建、特征提取、特征整合与特征优化(
图1-A)。首先,在图构建模块,SpaMGCN构建的空间邻接图和特征邻接图从不同角度刻画了斑点间的相关关系。对于空间邻接图,采用r半径定义点间的空间依赖性,为局部特征提取提供空间结构约束;对于特征邻接图,通过余弦相似性计算点间的表达谱相关性,构建不依赖空间位置的全局关联网络,用于捕获空间距离较远但基因表达模式相似的斑点特征。其次,在特征提取模块,模型基于多视图图卷积网络架构,将空间邻接图与特征邻接图分别映射至潜在表示空间,生成包含原位表达模式的空间特征与反映全局表达相关性的基因特征,实现特征信息的并行提取。接着,在特征整合模块,模型采用线性融合策略对空间特征与基因特征进行深度整合生成可为后续分析提供兼具局部特异性与全局关联性的特征表示。最后,在特征优化模块,模型通过解码器网络重构原始基因表达谱,以重构损失约束潜在特征空间,迫使模型学习到能够准确还原原始表达信息的紧凑特征表示
[12];并结合深度嵌入聚类模块
[13],将无监督聚类目标融入训练过程,通过优化聚类损失函数,进一步提升嵌入特征的类间区分度与类内紧凑性。在下游分析方面(
图1-B),SpaMGCN能够对最终的嵌入特征进行多任务ST数据分析:包括空间域识别、可视化表征、标记基因功能验证、聚类结果细化及空间功能域深度解析等。
1.2 空间邻接图与特征图的构建
1.2.1 空间邻接图构建
通过采用组织中斑点的空间位置,来衡量相邻斑点间的空间相似性。对于第个斑点,其在组织切片中的空间位置用二维坐标表示,为充分利用空间位置信息,构造空间邻接图,该图由空间邻接矩阵和基因表达矩阵组成。其中空间邻接矩阵由每个斑点的空间坐标确定,具体而言,利用r半径方法,将空间位置坐标转化为矩阵形式,参数用于确定邻接图的紧凑性。为准确描述空间关系,令每个斑点与最近的六个邻斑点连接,距离度量方式采用欧氏距离。为包含个斑点的空间邻接矩阵,表示标准化的基因表达矩阵,其中为过滤后的基因个数,如果斑点和斑点之间的欧氏距离小于预定义的半径r,则设置;否则设置。欧式距离计算公式如下:
。
1.2.2 特征邻接图构建
为充分利用基因表达的潜在结构信息,构建特征邻接图。特征邻接图由基因表达矩阵和基因表达谱组成。其中,基因表达矩阵采用K近邻方法构建,邻居斑点间距离度量方式采用余弦相似性来确定,默认设置。若斑点是斑点的邻居,则设置;否则设置。为进一步简化计算过程,并有效提取主要特征以增强分析的准确性,采用主成分分析法(Principal component analysis,PCA)降低基因表达谱的维度。余弦相似度计算公式如下:
1.3 多视图图卷积自编码器
图卷积网络作为一种功能强大的图神经网络,能够直接处理图数据,并有效利用图结构信息。它可以聚合邻居的信息,捕获节点之间的依赖关系,进而生成富有信息的嵌入表示。为了从基因表达和空间结构中精准提取最为相关的信息,本研究采用多视图GCN编码器,对空间邻接图和特征邻接图进行卷积操作。多视图GCN编码器由4个部分构成:
1) 空间卷积
为了实现基因表达信息与空间位置信息的有机结合,同时捕捉空间邻接信息,对空间邻接矩阵和基因表达执行卷积操作,以此聚合邻居节点的空间信息。接下来,多层空间卷积网络遵循以下层次传播规则:
。
式中:表示斑点在第层的特征,初始;为激活函数,用于进行非线性变换;为添加自循环的空间邻接矩阵,其中为斑点对应的空间邻接矩阵,为单位矩阵;为对应的度矩阵;为第层的权重。
2) 特征卷积
与空间卷积类似,为了获得更全面的基因表达信息,并推算出特征图中斑点的基因表达,对特征邻接矩阵和基因表达进行特征卷积,其运算公式如下:
。
式中:表示斑点在第层的特征,初始值,用于实现非线性变换;为添加自循环的空间邻接矩阵,为斑点对应的空间邻接矩阵,为单位矩阵;为对应的度矩阵;其中为第的权重。
此外,为了实现空间特征和基因表达特征的有效整合,采用线性相加得到最终的嵌入特征:
式中:为嵌入特征;为空间特征;为基因特征;表示基因特征权重的超参数。
3) 解码器
解码器的运算公式如下:
式中:是重构的基因表达矩阵;是最终的嵌入特征;和分别是解码器的权重和偏置。
4) 重构损失
重构损失用于衡量重构基因表达与原始基因表达之间的差异。通过最小化如下重构损失来确保所得的嵌入捕获了足够的生物学信息:
式中:是斑点的数量;与分别是原始基因表达矩阵与重构基因表达矩阵中的第个样本。
1.4 深度嵌入聚类
SpaMGCN运用深度嵌入聚类方法,以迭代的方式将斑点划分到不同的组别中,旨在优化聚类结果。具体而言,采用scikit-learn库中的K-means
[14]算法,依据学习得到的潜在表征来初始化聚类中心。设C为初始簇的个数。使
来索引这些点,
则用于标记初始簇。
第一步计算软赋值,通过Student's t-distribution计算软赋值,用来评估点嵌入和聚类中心嵌入之间的相似度:
。
第二步迭代细化聚类,其所采用的关键技术是辅助目标分布(Auxiliary target distribution)方法
[15]。该方法考虑到在聚类过程中,直接使用原始的软分配可能会导致聚类中心不稳定或聚类质量不高的问题。算法通过引入一个更合理的目标分布,引导模型优化聚类分配,即对于那些已经被模型分配到某个聚类且置信度较高的样本,给予更大的权重,以强化这些分配。通过强调高置信度样本,辅助目标分布有助于模型学习更清晰的聚类边界。避免了某些聚类中心因样本过多而主导学习过程,导致其他聚类中心学习不足的问题。相比直接使用软分配,辅助目标分布可以减少噪声样本对聚类中心更新的干扰,提高算法的稳定性。
具体的,我们通过基于的辅助目标分布,从具有高置信度的分配中进行学习,从而对聚类进行迭代细化。辅助目标分布的计算方式为:
第三步定义目标函数,利用软分配和辅助目标分布,通过KL散度定义目标函数,其表达式为:
这一过程通过不断迭代优化该目标函数,实现对斑点的有效聚类,使同一簇内的斑点在潜在表征空间中具有更高的相似性,不同簇之间的差异更加显著,使得嵌入特征更适用于聚类任务。
2 结果与分析
2.1 SpaMGCN有效检测了人类背外侧前额叶皮层的层级结构
ST数据的结构解析精度高度依赖模型的表征学习能力。由于人类背外侧前额叶皮层(DLPFC)
[16]数据集拥有清晰的层次结构,所以本研究基于DLPFC数据的12个切片(
图2-A为切片#151673),对SpaMGCN的表示学习性能开展系统性评估。实验选择7个算法STAGATE、SpaGCN、Scanpy
[17]、conST、stLearn、Seurat
[18]、EfNST进行对比,采用调整兰德指数ARI
[19]量化12个切片的空间域识别精度(
图2-B)。结果显示,SpaMGCN以平均
ARI=0.50的性能显著优于对比方法。
以包含完整七层结构(6个皮质层+WM层)的切片#151673为例,SpaMGCN的域识别性能呈现显著优势(
图2-C),且唯一实现了与基准真相高度一致的Layer_5、Layer_6与WM区域的划分。反观Scanpy,因缺乏空间约束,聚类结果呈现离散分布,未能检测到2~6层的结构边界,严重阻碍了空间域的有效解析;stLearn的SME聚类高度依赖HE染色图像质量,图像信息的噪声会导致形态学特征提取偏差,所以stLearn的聚类结果Layer_1~Layer_6以及WM的层级结构边界模糊;SpaGCN一定程度反映了切片的层次结构,但是层间划分不明确且存在严重的斑点混杂现象;STAGATE与EfNST的聚类结果有明显的层次结构,但与SpaMGCN相比STAGATE与EfNST的聚类结果层与层的边界模糊,这可能是由于EfNST过度依赖于图像质量,STAGATE没有充分利用空间信息所引起的;Seurat的降维聚类过分依赖于基因表达信息,对空间坐标的利用停留在“邻域平均”层面,难以捕捉细胞间复杂的空间依赖关系,这使得除了WM区域外,Seurat的聚类结果无法看出明显的层级结构。
我们对切片#151673进行了UMAP
[20]可视化分析(
图3)进一步印证了这一结论。其中UMAP是常用的数据降维和可视化工具,通过对高维数据进行非线性映射,保持数据点之间的邻近关系。在空间转录组学中,每个观测位点的基因表达谱被视作一个高维向量,UMAP方法在保留数据局部邻域关系以及全局拓扑结构的前提下,将这些向量投影到共享的低维空间中,形成易于观察的聚类模式,使得我们可以在2维空间来观察数据的聚类结果。在UMAP图中,Scanpy、stLearn以及Seurat 的皮质层斑点呈混杂聚集;SpaGCN仅能区分WM与Layer_6;STAGATE的Layer_1与Layer_2边界模糊;conST的Layer_2到Layer_4边界混杂;STAGATE与EfNST都能很好地区分Layer_4到Layer_6以及WM,但是Layer_1到Layer_3边界混杂;而SpaMGCN清晰呈现各层的有序排列,精准反映了皮层从浅至深的发育层级
[21-22]。
2.2 SpaMGCN深入解析了人类乳腺癌的组织空间异质性
乳腺癌组织具有复杂的结构和异质性,利用空间转录组学技术解析肿瘤微环境,可以更好地理解不同细胞类型之间的空间关系,尤其在揭示肿瘤内/间异质性及组织紊乱机制中具有不可替代的价值
[23]。本研究基于人类乳腺癌组织的10x Visium数据集,验证SpaMGCN对复杂癌症组织的解析能力。该数据集包含20个精细标注的空间域,可归为四种形态学类别:浸润性导管癌(IDC)、健康组织(Healthy)、导管原位癌/小叶原位癌(DCIS/LCIS)和肿瘤周围低恶性特征区域(Tumor_edge)
[24](
图4-A)。
在多指标量化性能对比实验中,SpaMGCN在多项聚类指标如调整互信息(Adjusted mutual information,AMI)
[25]、标准化互信息(Normalized mutual information,NMI)
[26]和福克斯·马洛斯指数(Fowlkes-Mallows index,FMI)
[27]中显著高于其他方法(
图4-B),在空间域识别可视化中(
图4-C),SpaMGCN展现出与人工标注极高的空间一致性,其识别的区域1(IDC_4)、区域8(Tumor_edge_2)等关键病灶区域,不仅边界划分清晰连续,且域内斑点呈现生物学意义上的空间聚集性;值得注意的是EfNST在分析人类乳腺癌异质性任务上取得了不错的效果,可以识别出部分较为复杂的组织结构,这可能得益于组织学图像对于复杂组织结构识别的辅助作用,相较之下,SpaGCN、stLearn与Seurat的聚类结果存在严重的域间混淆,健康组织与肿瘤边缘区域的点混杂分布。Scanpy、STAGATE和conST虽能识别主要肿瘤区域,但存在少量离群点干扰,且不同区域间边界划分较为粗糙。
为深入剖析人类乳腺癌组织的空间结构异质性与基因表达模式关联,本研究从空间距离变异、空间可变基因和区域标记基因三个维度,对人类乳腺癌组织的空间聚类结果展开深度解析。首先基于Ripley's L函数
[28]量化各空间域的聚类或分散点分布的空间格局。发现区域1(IDC_4)、区域9(Healthy_1)及区域12(IDC_8)呈现显著的空间聚集特征(
图5),而其他域多表现为随机或离散分布。这种聚集性差异暗示了肿瘤微环境中不同功能区域的空间组织特性。
针对上述高聚集性区域,进一步筛选前10个差异表达基因并开展功能富集分析
[29]。分析结果表明,空间域1与细胞增殖和炎症反应密切相关,在免疫细胞的迁移与定位过程中发挥作用,这可能涉及肿瘤微环境中免疫细胞的活性以及其对肿瘤生长的抑制作用。空间域9在免疫反应、肿瘤免疫监视以及抑制肿瘤生长方面具有重要意义;空间域12则与免疫反应、细胞外基质重塑和细胞黏附相关,参与细胞分化与转移过程免疫系统的功能紧密相连,特别是在抗原呈递、T细胞激活和免疫反应调节方面(
图6)。
在肿瘤微环境的空间异质性研究中,基因表达的空间分布模式是解析健康-肿瘤组织边界、肿瘤侵袭路径及免疫细胞募集机制的关键线索。为深度阐释乳腺癌组织的区域特异性特征并验证空间域识别效能,本研究对4种典型形态区域:浸润性导管癌、健康组织、导管/小叶原位癌及肿瘤边缘区的标记基因表达模式进行空间可视化(
图7),结合生物学功能分析揭示其临床意义。标记基因CXCL14
[30-32]在区域1(浸润性导管癌)显著富集,作为趋化因子通常与炎症反应和免疫细胞的招募密切相关。CXCL14在乳腺癌组织中极有可能参与肿瘤微环境中免疫细胞的调节过程,进而影响肿瘤的生长与转移,与肿瘤的侵袭性以及免疫逃逸机制存在关联。标记基因AC087379.2
[33-35]在区域10(导管/小叶原位癌)特异性高表达,AC087379.2是一个非编码RNA,其可能涉及基因表达调控、细胞增殖或分化,通过影响关键的信号通路来促进肿瘤的发展,与原位癌向浸润癌转化的关键分子事件相关。标记基因APOE
[36]在区域15(肿瘤边缘区)中富集,作为脂质代谢枢纽分子,APOE参与脂质代谢和运输过程。在乳腺癌中,其高表达可能支持肿瘤细胞的膜脂合成与能量代谢重构,为侵袭性细胞提供物质基础。标记基因MALAT1
[37-38]显著富集在区域9(健康组织),这是一种长链非编码RNA,在多种细胞过程,如细胞增殖、迁移和分化中发挥作用。该区域的高表达模式提示MALAT1的生理功能可能与健康组织的结构维持及肿瘤发生的早期防御机制相关。
2.3 SpaMGCN精准揭示了小鼠冠状大脑的细微组织结构
为验证SpaMGCN在无人工注释的复杂数据集上的有效性,本研究将其应用于包含细微解剖结构的小鼠冠状脑组织10x Visium数据集。小鼠冠状大脑数据集是研究大脑结构和功能的重要资源,覆盖多个解剖区域,例如皮层和海马体等,它为全面理解整个大脑结构提供了支持。该数据集虽缺乏基准真相,但成年小鼠冠状大脑结构注释文献
[39]为空间域识别的准确性验证提供了重要参考。定量分析显示,SpaMGCN识别出的空间域与标注结果高度吻合,在空间平滑度、区域准确性以及完整性等关键指标如轮廓系数(Silhouette coefficent,SC)和DB指数(Davies-Bouldin index,DB)中均显著优于对比方法(
图8)。这一结果表明,SpaMGCN通过聚类分配策略,在特征空间中实现了不同区域的有效分离。
基于Allen参考图谱进一步表明,SpaMGCN能够精准识别注释中的精细空间结构(
图9)。以小鼠海马体这一核心脑区为例,其特征性的绳索状结构对应阿蒙角锥体层,可细分为CA1/CA2、CA3区域,箭头状结构则代表齿状回(DG)层。对比实验显示:DeepST、GraphST以及SpaGCN皆未能准确识别连续的海马体组织,导致DG区域与CA3区域分离且漏检CA1区域;STAGATE、SEDR和 Scanpy虽能识别海马体轮廓,但Scanpy识别的CA1区域存在范围狭小、平滑度不足及点级噪声问题,STAGATE与SEDR界定的CA3区域则存在过度扩展现象。相较之下,SpaMGCN清晰表征了海马体的精细组织结构,准确划分出DG(区域15)、CA3(区域6)和CA1(区域12)等结构。值得注意的是,通过与小鼠脑图谱的比对分析,仅SpaMGCN成功识别出功能复杂的下丘脑后核区域(区域5),该区域在体温调节和能量平衡等生理过程中发挥关键作用。
综上所述,SpaMGCN通过高效整合基因共表达依赖性和空间相邻依赖性信息,在复杂ST数据的识别精度和细微生物结构解析能力上均达到较高水平,展现出强大的方法学优势和临床转化应用潜力。
2.4 参数优化及消融实验
SpaMGCN模型在特征提取阶段所采用的策略是基于多视图的特征融合,通过对空间转录组学数据的基因表达信息以及空间位置信息来构建多视图模型,利用共享的编码器对斑点信息进行学习。并且为了实现空间特征和基因表达特征的有效整合,采用线性相加的方式,得到最终的嵌入特征。其中涉及表示基因特征权重的超参数
,我们在DLPFC数据集的多个切片上进行验证,可知当
取值范围在0.2左右时,所得的最终嵌入在进行下游任务时能取得相对稳定且良好的效果(
图10),这可能是因为相较于基因特征,空间特征在执行空间域识别下游任务时拥有更加重要的作用。
为验证SpaMGCN算法模型各模块的作用机制,我们在DLPFC数据集的#151673切片上进行了消融实验。该实验系统地去除了深度嵌入聚类模块、空间视图、特征视图和细化聚类模块,以评估它们各自对模型性能的贡献(
图11)。w/o-DEC表示无深度嵌入聚类模块;w/o-S表示无空间视图;w/o-F表示无特征视图;w/o-X表示无细化聚类模块。SpaMGCN的ARI值明显优于其他变体(
图11),表明这些模块的集成有利于空间域的识别。
此外,在ST数据分析中,初始聚类结果可能会受到噪声或局部不一致性的影响,导致某些区域的空间域识别不够准确。因此,SpaMGCN在算法中加入了细化聚类模块,通过对初始聚类结果进行后处理,确保每个点的类别标签与其周围大多数邻居的标签一致,从而提高聚类的准确性和稳定性。在12个切片的消融实验中(
图12),有细化聚类模块的SpaMGCN算法的ARI值,显著高于无细化聚类的值。
3 结论
本研究提出一种基于多视图图卷积网络的空间域识别方法SpaMGCN,该方法利用多视图图卷积模块,从拓扑邻接图中提取空间位置相关的全局结构特征,并且从特征邻接图中捕获基因表达驱动的局部功能特征,通过线性融合策略实现两类特征的有机整合,使模型能够全面捕捉数据中隐含的空间依赖性与生物学功能关联性。此外,方法引入深度嵌入聚类模块对融合后的特征表示进行微调,有效捕捉基因表达模式与空间组织形态之间的复杂关系,进一步优化空间域聚类的性能。为了验证这些模块的有效性,本研究进行了消融实验,证实了各功能模块对SpaMGCN聚类性能的增强效果。
在多个公开数据集上,SpaMGCN与其他方法进行了系统性对比实验。结果表明,SpaMGCN在空间域划分的多项评估指标上均显著优于对比方法。尤其在处理边界清晰的DLPFC组织样本和细胞类型高度混杂的复杂数据集(如人类乳腺癌组织)时,SpaMGCN识别的空间域与已知组织学注释的一致性均达到更高水平,展现出对不同数据特征的强适应性。对比分析进一步证实,无论组织样本的细胞异质性高低或目标区域的尺度大小,SpaMGCN均能稳定地识别具有生物学意义的空间功能单元,展现出鲁棒的复杂结构解析能力,为解析ST数据复杂组织的空间域,揭示分子调控网络的空间异质性提供了高效的计算工具。当前的研究聚焦于对ST数据空间信息以及位点分子信息进行特征提取,而浪费了ST数据所自带的组织图像学信息,未来我们将针对ST数据的组织图像信息进行进一步分析,用以辅助增强模型对于数据的分析能力。