钙化性主动脉瓣病(calcific aortic valve disease,CAVD)是最常见的心血管瓣膜疾病,已成为主动脉瓣狭窄和瓣膜关闭不全的主要原因,尤其是在老年人中
[1]。CAVD早期症状不明显,在临床前阶段,左室流出在很大程度上不受影响,随着瓣膜不断硬化、钙化和狭窄,主动脉瓣口面积缩小,从而引发心内膜下心肌缺血、心肌细胞减少和纤维化,左室纵向应变能力减弱,最终发展为心衰
[1-2]。大量随访研究表明,随着年龄的增长,CAVD的患病率急剧上升,>25%的人群65岁后发病,>50%中人群85岁后发病。在欧洲,70岁以上老年人约1%~3%有不同程度的瓣膜狭窄或钙化累积;在我国,随着人口老龄化的加剧,钙化性主动脉瓣狭窄合并冠心病患者的数量日益增加。目前60岁以上老年人的发病率约为3.7%,70岁以上人群发病率约为10%,与发达国家相差无几,甚至高于发达国家。考虑到寿命的延长,预计到2030年,全球CAVD负担将达到450万美元
[3]。
手术治疗仍然是对抗CAVD唯一有效的治疗方法,但手术存在高成本、围手术期并发症和终身抗凝治疗并发症方面的风险和限制
[4]。研究表明,如果在CVAD发病早期进行相关干预,可以延缓手术时间,提高患者生活质量,减少医疗支出
[5]。但目前缺乏特异的早期CAVD诊断手段,只有在瓣膜出现明显病变后才能通过超声心动图和心电图等方法被检测到
[6]。血清学方法具有灵敏度高、预测性强、创伤小等优点,是多种疾病预测、诊断不可缺少的检测手段,但是目前还没有任何血清学预测CVAD的试剂被批准,其关键点就在于对于CAVD环境中复杂的细胞网络和细胞信号传导研究缺乏
[7-8]。
目前已知CAVD是一种进行性疾病,一般包括3个阶段。瓣膜内皮细胞损伤→脂质沉积→炎症反应构成了启动阶段。接下来,各种特定分子信号被激活,胶原蛋白和骨基质蛋白沉积,促进瓣膜间质细胞(valvular interstitial cells,VICs)的分化和微钙化
[9]。最后,发生大块的瓣膜钙化、骨化,引起瓣膜狭窄。VICs属于干细胞的一种,瓣膜完整时VICs处于静止状态,一旦瓣膜受到损伤,VICs暴露于血液当中,免疫细胞浸润,VICs就会被激活,从而启动纤维化、钙化、骨化进程
[9-10]。按照该理论,假如需要寻找CAVD早期预测标志物,可以顺着免疫、干细胞激活和钙化方向来研究。
CAVD疾病进程的特异性标志物的寻找离不开组学研究方法的运用。组学研究可以从全局角度出发,对受检样本情况进行全面观察,以获取更加全面的样本信息。融合多种技术手段的综合应用,能够迅速发现具备最大潜力的疾病预测或诊断标志物。鉴于此,在本研究收集基因表达数据库(GEO数据库)的CAVD数据集,利用生物信息学、机器学习,从免疫、干细胞、成骨3个层面,结合临床标本验证的方式来寻找潜在的预测和诊断CAVD标志物。
1 材料与方法
1.1 资料
本研究中CAVD相关资料来源于GEO数据库。通过对高通量基因表达数据库(Gene Expression Omnibus,GEO)中CAVD数据进行搜索、筛选,选择含有临床标本的正常对照和钙化组织的数据集,排除添加特异性干扰后进行检测的数据集。GSE51472数据集中共有15个样本,其中5个正常样本,5个钙化样本。GSE12644数据集中共有20个样本,其中10个正常样本,10个钙化样本。GSE83453数据集中共有27个样本,其中8个正常样本,9个钙化样本。GSE55492数据集中共有19个样本,其中10个正常样本,9个钙化样本。
1.2 材料
青霉素-链霉素溶液、胰酶、碱性磷酸酯酶显色试剂盒购于碧云天公司;DMEM高糖细胞培养基购于TransGenBiotech公司;胎牛血清购于TransGenBiotech公司;辣根酶标记山羊抗兔IgG(H+L)、辣根酶标记山羊抗小鼠IgG(H+L)购于中杉金桥公司;2×SYBR Green qPCR Master Mix购于CWBIO公司。本研究中所使用的细胞来源于课题组前期进行永生化的小鼠瓣膜间质细胞。
1.3 方法
1.3.1 相关基因集获取
1.3.2 差异表达基因(differentially expressed genes,DEGs)分析
该部分使用R软件完成。调用R软件的limma包对 GSE51472、GSE12644和GSE55492 3个数据集的样本进行均一化后合并分析。以|logFC|≥1.0和Padjust<0.05为标准筛选DEGs,并使用R包ggplot2绘制火山图。取DEGs与免疫、干细胞、成骨相关基因集的交集,绘制韦恩图。利用Cytoscape中的MCC算法进行Hub基因分析。
1.3.3 机器学习方式筛选、识别生物标志物
将1.2.2分析得到与免疫相关的Hub基因进行机器学习。主要采用最小绝对收缩和选择算法(least absolute shrinkage and selection operator,LASSO)逻辑回归和支持向量机-递归特征消除(support vector machine-recursive feature elimination,SVM-RFE)算法。本研究调用R包 glmnet 中的cv.glmnet函数进行拟合LASSO模型。为了验证 SVM-RFE 模型,使用十倍交叉验证来选择与免疫相关的特征基因。
以上述3个数据集分析产生的数据为基础,调用GSE83453数据集生成受试者工作特征(receiver operating characteristic,ROC)曲线进行验证,以评估所确定的生物标志物的预测性能。
1.3.4 基因富集分析(gene set enrichment analysis,GSEA)
为了确定关键基因相关的信号通路,将取交集得到的免疫、干细胞、成骨3个层面的基因进单基因GSEA分析,并用 R软件包clusterProfiler 进行可视化。
1.3.5 临床标本检测
临床标本主要来自于本院超声科诊断为CAVD患者以及健康体检人群,其中CAVD患者纳入28名(10名钙化患者,钙化组;18名瓣膜狭窄患者,瓣膜狭窄组),健康体检者纳入21名(健康人群组)。受试者知情同意后抽取受试者外周血,离心机分离血浆,-80 ℃冰箱保存,待收集完成后统一取出进行酶联免疫吸附试验(enzyme-linked immunosorbent assay,ELISA)分析。该实验获得我院临床伦理委员会批准。
1.3.6 CCK8检测
细胞消化、重悬,按照2×104/孔的量接种至96孔板中,每个实验组设置3个复孔。放入培养箱中继续培养,分别于第1、2、3、4天对细胞进行CCK8检测。检测前3 h,在即将检测的96孔板孔中加入10 μL CCK-8溶液,加样的过程中尽量不要产生气泡,放入孵箱继续培养,到时间后用酶标仪测定96孔板450 nm处的吸光度。
1.3.7 ALP活性及染色体检测
对数期生长细胞接种于24 孔板,细胞贴壁后进行相应处理。待到时间点后,将培养板取出,PBS轻柔洗涤3次。染色时,加入按照试剂盒说明书提前配置好的ALP染色试剂,500 μL/孔。3~6 min在显微镜下观察染色情况,待显色充分后丢弃染液,加入水冲洗干净,显微镜下观察、分析。
1.3.8 实时荧光定量PCR(qPCR)检测
采用10 cm培养皿培养细胞并进行相应处理,待到时间点后取出培养皿,PBS轻柔细胞3次,加入1 mL Trizol进行细胞裂解,加入氯仿、异丙醇、无水乙醇等,经离心、萃取、沉淀得到总RNA。每个样本取样2 μL进行琼脂糖凝胶电泳,检验RNA质量。
质检合格后采用逆转录试剂盒对RNA进行逆转录,42 ℃孵育15 min,85 ℃加热5 s,从qPCR扩增仪中取出放入-20 ℃冰箱保存备用。q-PCR扩增时,将扩增试剂(10 μL)、引物(0.8 μL)、模板(2 μL)和水(7.2 μL)按试剂盒说明书依次添加。混匀后的扩增样本放入q-PCR扩增仪,按照预设的程序进行扩增(预变性95 ℃、300 s,变性95 ℃、20 s,退火 55 ℃、20 s,延伸72 ℃、20 s)。
1.4 统计学方法
利用graphpad prism 8.4软件对数据进行统计分析。计量资料使用均数±标准差(x±s),所有试验均重复3次;采用独立样本t检验进行组间比较。检验水准α=0.05。
2 结果
2.1 DEGs分析以及其与免疫、干细胞、成骨相关基因集的交集
将GSE51472、GSE12644和GSE55492 3个数据集合并分析后,共得到102个差异表达基因。瓣膜钙化主要涉及免疫浸润、干细胞激活及成骨钙化3个方面。从Amigo数据库下载了涉及免疫浸润、干细胞激活以及成骨钙化3方面的基因集,并分别将它们与DEGs基因取交集。结果显示DEGs中,与免疫相关的有51个基因;与骨形成的有2个基因(GREM1和CHAD);与干细胞相关的有KIT基因(
图1)。
2.2 机器学习寻找CAVD潜在生物标志物
由于骨形成和干细胞相关的基因数目较少,该部分至只对免疫相关基因进行机器学习分析。首先对51个基因进行蛋白质相互作用(protein-protein interaction,PPI)网络构建,将构建好的网络导入Cytoscape通过MCC算法筛选出PPI网络中排名前20的靶点。将这个20个Hub基因使用LASSO 回归算法和SVM-RFE算法进行潜在标志物探索,最终LASSO回归算法得到以下基因
:IL7R、TREM1、TLR2、CCL5、CCL21。SVM-RFE算法得到以下基因:
CD28、CXCL8、CD27、CCR1、CTSS、CXCL13、IL7R等(
图2)。将二者取交集发现只有IL7R基因处于重叠区间。
2.3 GSEA分析
分别对免疫相关的IL7R,成骨相关的GREM1、CHAD,干细胞相关的KIT进行单基因GSEA分析。结果显示以上4个基因涉及多条信号通路,如Adaptive immune response、Natural killer cell mediated cytotoxicity、Lysosome。有趣的是,每个基因均有免疫相关通路涉及(
图3)。
2.4 数据集验证机器学习结果
为了验证找到的基因是否具有诊断CAVD的价值,使用GSE83453数据集的数据绘制受试者工作特征(receiver operating characteristic,ROC)曲线。结果显示IL7R对CAVD的诊断特异性和敏感性达到了100%;GREM1的曲线下面积(area under the curve,AUC)为0.72(95%CI=0.47~0.96);CHAD的AUC为0.86(95%CI=0.71~1.0);KIT的AUC为0.72(95%CI=0.46~0.98),如
图4所示。
2.5 临床及细胞实验标本验证生物标志物
抽取受试者外周血分离血浆检测IL7R表达水平,结果显示健康人群组、瓣膜狭窄组和钙化组均无明显差异。利用携带有表达IL7R的腺病毒感染永生化VICs,CCK8实验结果显示,过表达IL7R后,VICs增殖能力提高;ALP染色体加深;多数成骨相关基因表达上升,见
图5。
3 讨 论
CAVD是发达国家中最普遍的瓣膜疾病,随着预期寿命的延长,未来几十年其发病率又会进一步增加。随着我国老龄化的加剧,退行性心脏瓣膜钙化占总体心脏瓣膜疾病的比例也越来越高
[11]。CAVD起病隐匿,早期不易发现,而诊断为瓣膜钙化后,相当部分患者已错过手术治疗时机,错失治疗机会。因此,寻找用于早期诊断CAVD或早期干预CAVD进展的生物标志物或靶点成为近年来各大制药公司和科研工作者的主要研究目标,而鉴定具体的治疗靶点或生物标志物,并研究与CAVD疾病进展关系是目前需要跨越的主要障碍。近年来相关研究指出CXCL16、GPM6A、BEX2、S100A9和SCARA5可以作为诊断CAVD的标志物,然而这些研究很少有采集临床数据进行验证
[12]。
目前已知CAVD疾病演变包括以下几个阶段,瓣膜内皮细胞受损,免疫细胞浸润,VIC激活,纤维化、钙化沉积,最终导致瓣膜适应性变差,影响人体血流动力学,出现临床症状
[13]。以往的关注点主要集中于免疫细胞浸润和VIC细胞钙化,并且这些研究各自为政,并没有将免疫浸润和钙化联系起来。在本研究中,将CAVD的3个阶段(免疫细胞浸润、VIC激活和钙化)一起分析,探究他们这3个阶段的生物标志物。本研究下载了GEO数据库中GSE51472、GSE12644和GSE55492 3个数据的数据,将其载入R语言对它们进行均一化,进行统一分析,找到3个数据集共同的差异表达基因,最终只得到102个差异表达基因,远远低于预期。之所以得到的差异基因严重低于预期,有以下几点原因:①即使是单个的数据集,差异表达的基因远远低于肿瘤或其他疾病的数据集。②瓣膜组织本身存在的细胞量较少,多数是由纤维组织构成。况且用于实验的瓣膜组织多来源于中老年人,组织中的细胞量就更少,所以导致瓣膜相关的数据量较少。③上述3个数据集来源于不同的检测平台,意味着在进行均一化以及后续的分析时不得不丢弃相当量的数据,导致得到的差异基因数目较少。以上结果提醒对于低表达的数据集或不同平台检测的数据在进行合并分析前需要仔细评估。将从Amigo数据库下载的免疫、干细胞、成骨相关基因集与分析得到的DEGs分别取交集,本研究发现免疫相关的有51个基因,成骨相关的只有2个基因,干细胞相关的只有1个基因。提示在CAVD组织中免疫细胞的量可能占据大部分,并且免疫细胞可能扮演着重要角色。由于本研究发现的与骨形成和干细胞相关基因较少,因此后续机器学习主要关注免疫相关基因,最后再来统一验证它们的诊断价值。将51个免疫相关基因进行PPI网络绘制,结果提示处于核心位置的基因多数为趋化因子家族(CXCL13、CXCL10、CXCL8等)。将PPI网络导入Cytoscape中进行MCC运算寻找Hub基因,取排名前20的基因进行后续的机器学习。
机器学习已经成为生物信息学中的一个有用工具,它可以从大量数据中找到有价值的信息
[14]。机器学习算法通过分析训练数据来发现隐藏的模式,创建模型,并基于其中最准确的模型进行预测。在基因组学、蛋白质组学、系统生物学等领域,已经广泛应用了流行的机器学习技术,如LASSO回归算法和支持向量机。LASSO回归算法是一种广泛应用的机器学习技术,不仅可以对特征进行排序,还可以选择最重要的特征进行分类。支持向量机是一种二分类模型,是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。在本研究中,采用了上述2种不同的算法对合并分析后得到的DEGs基因潜在诊断价值进行评估,通过LASSO 回归算法得到5个潜在生物标志物基因;通过SVM算法得到7个潜在生物标志物基因。将LASSO回归算法和SVM算法得到的基因取交集,只有IL7R同时通过了LASSO回归算法和SVM算法检验。IL7R的功能需要白细胞介素2受体γ链,这是各种细胞因子受体共有共同γ链,包括白细胞介素2、4、7、9和15。IL7R已被证明在淋巴细胞发育过程中起关键作用,但尚无关于IL7R在CAVD疾病中的报道,只有有限的关于IL7R可以引起骨流失的研究
[15]。
为了探究免疫、干细胞和成骨相关基因对于CAVD的诊断价值,将上述分析得到的免疫相关基因(IL7R),干细胞相关基因(KIT)和成骨相关基因(GREM1、CHAD)放入另一个数据集GSE83453进行ROC曲线绘制。结果显示4个基因均表现出较好的预测性能,特别是IL7R的特异性和敏感性均为100%。为了进一步研究得到的生物标志物在CAVD中的潜在分子机制,进行了GSEA分析。单基因GSEA富集分析显示,上述4个基因的作用机制涉及化学信号传导、溶酶体、NK细胞、T细胞相关信号,提示他们的主要功能可能还是集中在炎症或免疫方面。早前的研究证据表明,CAVD和动脉粥样硬化的病理过程相似。CAVD被广泛认为是一种活跃的炎症过程,其特征在于各种促炎机制。本研究的PPI和GSEA的通路分析结果验证了这一点。多项研究已经报道,在严重的主动脉瓣狭窄患者的瓣膜内存在大量B细胞,这表明增加的B细胞数量可能加重主动脉瓣衰竭的发展。因此,针对消耗成熟B细胞的策略已被提出作为潜在的治疗方案在研究中
[16]。此外,相关研究表明在钙化瓣膜组织中存在淋巴细胞、吞噬细胞、组织细胞和肥大细胞的浸润。多项研究已经报告了CXCL16和S100A9在动脉粥样硬化中促进巨噬细胞浸润,并推动疾病进展的能力,这也暗示它们在CAVD演化进展中也可能发挥着协同作用
[17]。至于本研究中新发现的GREM1、CHAD和KIT尚未见有关于它们在CAVD疾病中的报道。GREM1属于骨形态发生蛋白超家族(bone morphogenic protein,BMP)拮抗剂成员,含有胱氨酸结构,通常形成同源或异源二聚体
[18]。作为BMP的拮抗剂,该基因可能在调节器官发生和组织分化中发挥作用。在小鼠中,该蛋白已被证明在肢芽生长期间将SHH信号从极化区传递到外胚层脊。CHAD是一种被认为介导软骨细胞黏附的软骨基质蛋白,它可以在整合素介导下促进软骨细胞、成纤维细胞和成骨细胞的附着
[19]。KIT编码一种酪氨酸激酶受体。它最初被确定为猫肉瘤病毒致癌基因v-kit的同源基因,通常被称为原癌基因c-Kit。在细胞因子配体干细胞因子激活下KIT蛋白磷酸化,继而参与多种细胞的增殖、分化、迁移和凋亡,从而在造血、干细胞维持、配子发生、黑色素形成以及肥大细胞的发育、迁移和功能中发挥重要作用
[20]。已发现KIT突变与胃肠道间质瘤、肥大细胞病、急性髓性白血病和斑疹病有关。
通过数据集的验证,认为IL7R在本研究中最具预测价值,因此收集CAVD患者和健康体检者血浆进行IL7R的检测。结果显示虽然在健康人群组、瓣膜狭窄组和钙化组可以看到IL7R有上升趋势,但是组间并无统计学差异。鉴于数据集检测采集的标本是瓣膜组织,而检测的标本是外周血血浆,提示瓣膜组织中升高的物质可能不会大量游离到外周血中;或瓣膜组织较小,从瓣膜组织中游离出来的物质被血液稀释,以至于抽取外周血难以对CAVD中高表达物质进行检测。为了探究IL7R对于CAVD疾病进展的作用,在VIC细胞中过表达IL7R,并对VIC细胞的生物学表型进行初步探索,结果显示IL7R可以促进VIC细胞增殖,提升VIC成骨能力。因此推测,尽管IL7R不能被视为外周血CAVD诊断标志物的潜在候选者,但其在CAVD中的过量表达可能导致瓣膜间质细胞的骨化钙化并在CAVD疾病进展扮演重要角色。
贵州省科技厅科技计划资助项目(编号:黔科合基础〔2020〕1Y424、黔科合基础-ZK〔2021〕一般396)