在RNA剪接过程中,同一个pre-mRNA会因为选择了不同的剪接位点,从而产生不同的剪接异构体,这个过程被称为可变剪接(Alternative splicing,AS),也常被称为选择性剪接
[1]。有研究指出,人类基因组中约95%的多外显子基因存在可变剪接现象
[2-3]。在可变剪接中,断裂基因的GT-AG法则是识别剪接信号的一个重要依据。断裂基因的一个重要特点是每个外显子和内含子的连接处有一段高度保守的序列,特别是几乎所有的内含子5'端都以GT二联体为起始,3'端以AG二联体为结束,这种连接方式在真核生物中普遍存在,因此被人们称为GT-AG法则
[4]。可变剪接与多种疾病的发生发展密切相关,它可以通过作用于癌细胞的不同生物学过程来影响肿瘤的进展,既往研究显示可变剪接事件发生在癌组织中的概率高于正常组织,可变剪接在外显子和内含子上均可发生
[5-10]。因此,疾病相关可变剪接事件的鉴定有助于癌症的早期发现和治疗。
肺癌是一种全球范围内发病率和死亡率都极高的肿瘤,2022年发表于《中华医学杂志》的一项研究指出肺癌是我国癌症死亡的主要原因
[11]。肺癌主要分为小细胞肺癌和非小细胞肺癌,其中,肺腺癌(Lung adenocarcinoma,LUAD)是非小细胞肺癌的一种常见亚型,它的发病率和致死率位居前列。在非小细胞肺癌中,基因
BCL2L1的不同剪接异构体会影响Bcl-XL蛋白中的BH1、BH2和BH3结构域,进而调控癌细胞的凋亡过程
[12-14]。Zhang等
[15]发现位于基因
MYH14和
ESYT2中的两个显著差异外显子跳跃事件与LUAD密切相关。Gorgoulis等
[16]发现基因
MDM2促进肺癌的发生发展,该基因的可变剪接对癌细胞中的p53蛋白有重要的调节作用。Moll等
[17]指出基因
MDM2本身由p53诱导。Lin等
[18]发现
PRSS3转录本及其亚型在肺癌中表达不同,通过靶向不同的下游基因表现出相反的功能和临床结果,通过位点特异性iCpGI去甲基化可使
MZF1上调
PRSS3-
V3的表达,在肺腺癌细胞中发挥抗肿瘤作用。
RBM10已被证明通过跳过外显子9来影响Notch调节基因
NUMB的选择性剪接,
NUMB中外显子9的保留(促增殖)是肺癌中最常见的选择性剪接之一
[19-21]。Yan等
[22]发现
RAC1B能够促进LUAD细胞增殖和肿瘤生长,而在LUAD中经常突变的剪接因子RBM10被进一步鉴定为
RAC1B的负调节因子。因此,基因的可变剪接在癌症的发生发展过程中起着重要的调控作用。
基于GEO数据库(
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE40419)
[23]的77个LUAD样本和癌旁正常样本对的RNA-Seq数据,识别了其中发生的差异AS事件,通过分析这些差异可变剪接事件在LUAD样本和癌旁正常样本中的分布,筛选得到在LUAD中特异性的AS事件,并对这些AS事件进行了功能分析。
1 数据与方法
1.1 基于RNA-Seq数据构建AS事件集
本文所用的RNA-Seq数据源自GEO数据库的GSE40419数据集,该数据集提供了87个LUAD样本和77个癌旁正常样本的表达谱数据,其中一一匹配成对的有77对样本。基于这77对RNA-seq数据构建了可变剪接事件集。
如
图1所示,针对3种常见的AS模式:可变3'剪接位点(A3SS)、可变5'剪接位点(A5SS)和外显子跳跃(SE),使用rMATS软件对样本的AS事件进行定量分析,得到样本中AS事件中的剪接率(IncLevel),即A3SS和A5SS事件选择近端剪接位点(Proximal)和SE事件选择包含中间外显子的概率,差异剪接率(IncLevelDifference)即LUAD样本和癌旁正常样本之间的剪接率差值,以及Benjamini-Hochberg校正后的
P值和错误发现率(False discovery rate,FDR)。在识别AS事件过程中,设定发生可变剪接的阈值为0.1,FDR值为0.5,得到LUAD样本和癌旁正常样本对的差异剪接事件。
通过整合77对样本的差异剪接事件,构建了AS事件集1(Set1)。在Set1中,剔除X/Y染色体上发生的AS事件,建立AS事件集2(Set2)。进一步,对AS事件去重,最终得到LUAD样本与癌旁正常样本差异的AS事件集合3(Set3),结果如
表1所示。
1.2 特异性AS事件的识别方法
为了观察AS事件在不同样本对中的发生情况,统计了3类差异AS事件中任意两组LUAD-癌旁正常样本对中AS事件的交集,称为AS事件重叠率;以及3类差异AS事件中每一个事件在不同样本中出现的频次,称为AS事件的样本重复率。统计方法如下。
(1) AS事件重叠率:对任意一类AS事件,假设有两组LUAD-癌旁正常样本对,分别为S1和S2,样本对S1有N1个事件,样本对S2有N2个事件,两组样本对事件集的交集有n个事件,则在样本对S1中重叠率为n/N1,在样本对S2中重叠率为n/N2。
(2) AS事件的样本重复率:对任意一类AS事件,假设77个LUAD-癌旁正常样本对中共发生了M个事件,其中,第i个事件在m个样本对中出现,则记该事件的样本重复率为m。
本研究使用信息熵来判断AS事件在LUAD样本和癌旁正常样本中剪接率的一致性。定义AS事件的信息熵(H)为,其中,p2 为第i个AS事件满足差异剪接率小于0的样本占全部样本的比值,。H的取值范围为[0,1],当H=0时,认为该AS事件满足一致性;当H=1时,认为该AS事件完全不一致;当0<H<1时,认为该AS事件不完全满足一致性。
2 结果分析与讨论
2.1 可变剪接事件剪接率和差异剪接率分布
基于Set2数据集,针对3类AS模式,统计了LUAD样本和癌旁正常样本中剪接率和差异剪接率的分布,如
图2所示。结果显示,LUAD样本和癌旁正常样本中绝大多数AS事件的剪接率具有显著的偏向性,事件集中分布在[0,0.1]和(0.9,1.0]区间内,如
图2(a)—(c)所示,占总事件的比值约为25%~45%。在3类模式的分析中,剪接率均集中分布于两端,表明差异可变剪接事件对剪接位点的选择偏好明显。通过比较癌症和癌旁正常样本的差异剪接率,发现3类模式AS事件的差异剪接率在[-1.0,-0.9)和(0.9,1.0]范围内分布最多,如
图2(d)—(f)所示,占比均大于40%,表明癌症和癌旁正常样本具有明确的剪接位点选择性。
此外,分析了Set3集合中的剪接率和差异剪接率分布情况。通过对比发现,AS事件在不同样本对之间存在一定差异,而这种差异性对AS事件剪接率整体分布的影响不大,因此可得出如下推断:第一,AS事件在不同个体之间存在一定的差异,但也有部分AS事件是在多个个体中普遍存在的;第二,剪接位点的选择与是否患癌关系密切,即同一个AS事件在多个样本中剪接位点的选择方式与是否患癌较为一致。
根据Set3集合中的AS事件,对可变剪接位点是否满足GT-AG法则进行了分析,计算了满足规则的AS位点比例,结果如
图3所示。在A3SS剪接模式中,99.9%的AS位点为AG;在A5SS剪接模式中,99.4%的AS位点为GT;在SE剪接模式中,100%的3'端AS位点为AG,99.9%的5'端AS位点为GT。3类模式的AS事件中,与AS位点配对供体和受体端的剪接位点为GT/AG的比例基本一致。
2.2 高频AS事件的识别
在Set3集合中任意取77个样本对中的两组样本对进行统计,并分析AS事件重叠率分布情况,结果如
图4所示。第一,3类AS事件中的样本重叠率呈右偏分布,且均低于0.25;第二,3类AS事件中,重叠率分布最多的区间均为(0.06,0.07];第三,SE事件的重叠率分布最为集中,主要分布在(0.05,0.09],A3SS事件的重叠率分布较为集中,A5SS事件的重叠率分布较为分散。根据样本对之间的重叠率可以发现,AS事件的发生在不同的个体中存在一定的差异,但也有部分AS事件是在多个个体中普遍存在的。
综上所述,在77个LUAD癌旁正常样本对中,AS事件发生的差异性与样本的来源不同有一定的关系,因此,想要在理论上判断出可作为LUAD检测的生物标志物,需要将差异AS事件集按其在不同样本对中出现的频次进行分类讨论。
通过统计AS事件重复率,发现在LUAD中3类差异AS事件大多只在一个样本中出现,只有少量差异AS事件在多个样本中重复出现,3类AS事件在77对样本中的实际最大重复样本率(
m)分别为A3SS(
mmax=31),A5SS(
mmax=35)和SE(
mmax=55),结果如
图5所示。按差异AS事件在77个LUAD-癌旁正常样本对中出现的频次将Set3集合分为两类:高频AS事件和低频AS事件,并分析其剪接率分布。在
图5中可以看出,
m=18是一个在3类AS事件类型中均较为明显的高重复率的分界点,因此,
m>18的部分认为是高频AS事件,
m≤18的部分认为是低频AS事件,我们认为高频AS事件是对LUAD有普遍影响的事件。最终,得到的高频AS事件包括6个A3SS事件、11个A5SS事件、64个SE事件。
对于3类AS事件的高频AS事件集,分析讨论了LUAD中每一个AS事件在样本对中剪接率的分布规律,
图6展示了部分AS事件的剪接率分布,共发现有76个AS事件在LUAD与癌旁正常样本中的剪接率有显著差异(
P<0.01),即剪接位点的选择与是否患癌有较为明显的偏好性。IncLevelDifference小于0表明该事件在正常样本中倾向于选择近端剪接模式、包含中间exon的剪接模式,IncLevelDifference大于0表明该事件在正常样本中倾向于选择远端剪接模式、不包含中间exon的剪接模式;共有5个AS事件在LUAD与癌旁正常样本中剪接率无显著差异,结果如
表2所示。
2.3 特异性AS事件的识别与分析
针对77对LUAD样本中在多个样本对发生的AS事件,进一步分析了AS事件剪接率一致性(
H)的分布规律,结果如
图7所示。
选取3类AS事件中完全满足一致性的高频AS事件作为LUAD的特异性事件,即认为同时满足
H=0和
m>18的AS事件为LUAD特异的可变剪接事件,最终筛选得到LUAD特异性AS事件集,结果如
表3所示。
2.4 特征基因功能分析
通过比对AS事件与基因组注释文件,获取发生了特异性AS事件的基因,将这些与LUAD特异性AS事件对应的基因称为特征基因。由于同一个基因可能发生不同的AS事件,因此,51个特异性AS事件共发生在42个特征基因。
为了探究这些特征基因的生物学功能,首先利用GeneCards数据库(
https://www.genecards.org/)进行功能注释,发现数据集中有11个特征基因与癌症的发生发展密切相关。这11个基因分别是
LRRFIP2(SE)、
DVL1(A5SS)、
POSTN(SE)、
NUMB(SE)、
CLK1(SE)、
MUC1(A3SS)、
ITGB4(SE)、
CTNND1(SE)、
VEGFA(SE)、
MAP3K7(SE)和
MYO18A(SE),其中有9个基因涉及SE事件,这暗示着它们的可变剪接异构体可能在蛋白质结构和功能层面对基因表达调控产生较大影响。为进一步系统性地揭示这些基因的分子机制,进行了通路富集(GO,KEGG)和蛋白质互作网络(PPI)分析,结果如
图8所示,发现其中有14个基因,即
NCOR2(A5SS)、
DVL1(A5SS)、
NUMB(SE)、
CTNND1(SE)、
LMO7(SE)、
MAP3K7(SE)、
TPM1(A5SS,SE)、
SYNE2(SE)、
MYH14(SE)、
LIMCH1(SE)、
MYO6(SE)、
FN1(A3SS,SE)、
VEGFA(SE)和
SPAG9(SE),显著富集于多个与癌症进展(特别是细胞迁移、侵袭和增殖)相关的生物学通路中,且这些基因在同一个PPI网络中。
首先,在信号通路方面,基因
NCOR2、
DVL1和
NUMB与Notch信号通路相关,该通路在细胞正常形态发生的多个过程中起作用,包括多能祖细胞的分化、细胞的增殖和凋亡以及细胞边界的形成;同时,基因
LRRFIP2和
DVL1可以激活Wnt信号通路,进而调控癌症的进展。其次,在细胞黏附与细胞骨架方面,基因
CTNND1、
LMO7和
MAP3K7参与上皮细胞间或上皮细胞和细胞外基质的黏着连接;基因
TPM1、
SYNE2、
MYH14、
LIMCH1和
MYO6与肌动蛋白结合,和肌动蛋白丝结合活性等生物学过程相关,且显著性较高,在分子功能和细胞组分两个方面均排前五,而肌动蛋白可能对癌症的迁移和增殖有一定影响。2018年,李炯等
[24]发现肌动蛋白通过调节分子CAP1对肺癌细胞的迁移和增殖起促进作用,并推测可能与CAP1参与细胞肌动蛋白骨架和细胞周期调控有关。此外,基因集还显著参与调控细胞形态的发生(
FN1、
DVL1、
TPM1、
MYH14、
VEGFA和
SPAG9等,
P=
)。
以上通路富集结果与已报道的单个基因功能高度一致。例如,在Notch通路中富集的
NUMB作为抑癌基因对肺癌等多种癌症均具有调控作用,
NUMB的可变剪接可以产生6种不同的功能异构体,在癌症进程中起重要作用,其外显子9的保留可以促进癌细胞增殖,且是肺癌中最常见的可变剪接之一
[20,25]。
POSTN被报道参与肺癌的迁移与侵袭
[26]。同时,有研究发现基因
CLK1的编码蛋白可能在控制剪接位点的选择中起间接作用,数据表明其可变剪接与胃癌密切相关
[27]。基因
MUC1、
ITGB4、
CTNND1、
MAP3K7和
VEGFA等也分别与TP53介导的转录、癌症侵袭、细胞凋亡和癌症分期与进展等过程有关,基因
MYO18A可能参与调控巨噬细胞的表达和激活。
3 结论
本研究旨在通过分析LUAD中AS事件剪接率的分布规律,找到与LUAD发生发展密切相关的AS事件与基因,即特异性AS事件与特征基因。识别了77对样本的3类AS事件,首先按照同一AS事件在不同样本中出现的频次(m)筛选出高频AS事件(m>18),然后根据剪接率的信息熵(H)筛选出满足剪接率一致性的高频AS事件,将其定义为LUAD的特异性AS事件集,并对LUAD的特异性AS事件和特征基因进行功能分析。最终,通过GeneCards数据库发现了11个基因与癌症的发生发展密切相关,其中NUMB和POSTN已有研究证明与肺癌有关,且NUMB的可变剪接(外显子9的保留)可以促进肺癌细胞增殖;通过通路分析发现了14个基因显著富集于多个与癌症进展(特别是细胞迁移、侵袭和增殖)相关的生物学通路中,包括Notch信号通路、Wnt信号通路和细胞黏附与细胞骨架等。
本研究也存在一定的局限性。第一,本研究所用样本量仅77对,未来需要更大规模的数据来验证这些特异性AS事件和特征基因的普遍性。第二,本研究结论主要基于生物信息学的理论分析,对于筛选出来的特异性AS事件和特征基因作为LUAD潜在生物标志物的可能性,仍迫切需要后续的生物实验进行深入的功能验证和机制探讨。