高通量测序技术在肿瘤的RNA可变剪接和选择性多聚腺苷酸化研究中的应用

万宇欣 ,  曹小鹏 ,  刘煊 ,  徐景祥

赣南医科大学学报 ›› 2025, Vol. 45 ›› Issue (08) : 739 -749.

PDF (691KB)
赣南医科大学学报 ›› 2025, Vol. 45 ›› Issue (08) : 739 -749. DOI: 10.3969/j.issn.1001-5779.2025.08.003
肿瘤学·基础与临床

高通量测序技术在肿瘤的RNA可变剪接和选择性多聚腺苷酸化研究中的应用

作者信息 +

Application and progress of high-throughput sequencing technology in the study of RNA alternative splicing and alternative polyadenylation in tumors

Author information +
文章历史 +
PDF (706K)

摘要

RNA可变剪接(Alternative splicing, AS)和选择性多聚腺苷酸化(Alternative polyadenylation, APA)是真核生物的关键转录后调控机制,通过生成多样化的mRNA转录本,极大增加了基因表达的复杂性和蛋白质组的多样性,在细胞生理和病理过程中扮演重要角色,尤其对肿瘤的发生发展具有深远影响。高通量测序技术的出现为大规模研究AS和APA事件提供了有力工具。常规二代测序(Next-generation sequencing,NGS)因其读长短的局限性,难以精确解析复杂多变的剪接模式和APA位点,而三代测序技术具有长读长的特点能够有效解决这一问题。本文综述了NGS和长读长测序(Long-read sequencing,LRS)在分析及鉴定肿瘤相关RNA AS和APA事件中的应用进展。文献复习表明,LRS在肿瘤研究领域展现出显著潜力。相较于NGS,LRS能够更准确地鉴定复杂的AS模式,识别精确的剪接位点和APA位点,并解析完整的转录本异构体结构,有助于发现新的肿瘤特异性剪接变异体和APA事件。LRS为全面绘制肿瘤中的AS和APA图谱、深入探究其在肿瘤发生发展中的作用机制开辟了新途径。未来,该技术有望在发现新的肿瘤诊断生物标志物、预后评估指标以及开发基于RNA剪接调控的精准治疗策略方面发挥重要作用。

Abstract

Alternative splicing (AS) and alternative polyadenylation (APA) constitute pivotal post-transcriptional regulatory mechanisms in eukaryotes. By generating diverse mRNA isoforms, they substantially enhance the complexity of gene expression and proteomic diversity, playing critical roles in cellular physiological and pathological processes particularly exerting profound impacts on tumor initiation and progression. The advent of high-throughput sequencing technologies has empowered large-scale investigations of AS and APA events. Due to its limitations in read length, conventional second-generation sequencing (NGS) is difficult to accurately analyze complex and variable splicing patterns and APA sites. The third-generation sequencing technology has the characteristics of long read length and can effectively solve this problem. This review synthesizes advances in applying NGS and long-read sequencing (LRS) to characterize tumor-associated RNA alternative splicing and alternative polyadenylation events. Literature analysis demonstrates the significant potential of long-read sequencing in oncology research. Compared to NGS, LRS enables more accurate identification of complex alternative splicing patterns, precise mapping of splice sites and APA sites, and resolution of complete transcript isoform structures, facilitating the discovery of novel tumor-specific splicing variants and APA events. Long-read sequencing technology paves new path for comprehensively mapping AS/APA landscapes in tumors and elucidating their mechanistic roles in tumorigenesis. Future applications hold promise for discovering novel tumor diagnostic biomarkers, prognostic indicators, and developing precision therapeutic strategies targeting RNA splicing regulation.

Graphical abstract

关键词

长读长测序 / 可变剪接 / 选择性多聚腺苷酸化 / 肿瘤

Key words

Long-read sequencing / Alternative splicing / Alternative polyadenylation / Tumor

引用本文

引用格式 ▾
万宇欣,曹小鹏,刘煊,徐景祥. 高通量测序技术在肿瘤的RNA可变剪接和选择性多聚腺苷酸化研究中的应用[J]. 赣南医科大学学报, 2025, 45(08): 739-749 DOI:10.3969/j.issn.1001-5779.2025.08.003

登录浏览全文

4963

注册一个新账户 忘记密码

RNA结构对RNA功能至关重要,RNA结构变异能够调控基因表达和细胞功能,进而影响疾病的发生发展。RNA可变剪接(Alternative splicing,AS)是指前体mRNA(pre-mRNA)通过不同的剪接方式产生不同转录本的过程,可以增加基因的多样性1。而多聚腺苷酸化是mRNA加工成熟的重要步骤之一,通过在mRNA3'端添加一段多聚腺苷酸有助于维持mRNA的稳定性及调控mRNA的翻译,选择性多聚腺苷酸化(Alternative polyadenylation,APA)则是mRNA在不同的多聚腺苷酸化位点发生截短,产生不同长度3'非编码区(3'UTR)或不同的编码区末端2
高通量测序技术的出现极大促进了RNA结构变异的研究,二代测序(Next-generation sequencing,NGS)使研究者能够发现并鉴定更多的RNA变异类型,但NGS由于短读长的技术特点无法系统全面分析结构复杂的RNA变异。以人类基因组为例,人类基因组中约50%的序列为重复序列3。在传统的短读长测序技术中,由于读长较短,通常在几百个碱基对以内,这些短读长数据难以跨越重复序列区域。当短读长数据进行基因组组装时,重复序列的存在容易产生大量拼接断点,导致组装结果碎片化且连续性降低,从而造成序列位置判断错误,引发组装错误或产生大量组装缺口。最新三代测序技术具有长读长的特点能够有效解决这一问题,如Nanopore测序技术凭借数百万碱基对的超长读长,可大幅减少拼接断点数量,并且无须依赖短片段组装即可获取完整的基因组信息,展现跨越基因组重复区域、高GC含量区域等复杂结构的显著优势4。在转录组层面,Nanopore测序技术能直接读取完整的RNA序列,精准鉴定AS、APA、长链非编码RNA全长结构等复杂的RNA结构变异5。长读长测序(Long-read sequencing,LRS)在RNA结构与功能的研究中展现出巨大的应用前景。本文就高通量测序技术在肿瘤的RNA AS和APA研究中的应用进行综述,以期为肿瘤的机制研究提供新思路。

1 二代测序和长读长测序在肿瘤可变剪接中的应用

二代测序基于对大量平行化短DNA片段进行测序,通常读长为50~300 bp,能够快速产生大量的序列数据。一项针对乳腺癌外显子组的研究通过二代测序发现了多个乳腺癌特异性可变剪接事件,其中乳腺癌易感基因1(Breast cancer susceptibility gene 1,BRCA1)的剪接形式在肿瘤中发生显著改变:正常时其编码蛋白参与DNA损伤修复与细胞周期调控,而乳腺癌中产生的多种剪接异构体可导致BRCA1功能异常,进而增加发病风险6

长读长测序技术能够产生长度可达数万甚至数十万碱基读长,可覆盖整个转录本的长度,从而能够直接读取完整的mRNA序列信息。HAN D等7通过Nanopore长读长测序对比前列腺癌转录组与正常组织转录组,发现多个差异可变剪接异构体,关键基因雄激素受体(Androgen receptor,AR)的剪接异构体在肿瘤组织中表达显著不同,且与恶性程度相关;这些异构体可能改变AR编码的雄激素受体的结构与功能,影响其激素敏感性,进而推动前列腺癌细胞增殖和存活。

1.1 可变剪接在肿瘤发生发展中的作用

AS是真核生物调控基因表达的重要机制,能够增加生物体内蛋白质的多样性,参与肿瘤的发生发展,影响肿瘤细胞的增殖、凋亡、转移和血管生成8。常见的AS类型包括外显子跳跃、外显子互斥、内含子保留、外显子5'端选择性剪接和外显子3'端选择性剪接(图1)。研究表明,剪接因子SRSF6可调控基因的AS事件,而异常AS将促进肿瘤的发生9。如线粒体基因Bcl-x通过AS产生2种不同的剪接异构体Bcl-xl和Bcl-xs,其中Bcl-xl抑制细胞凋亡,而Bcl-xs促进细胞凋亡。多聚嘧啶区结合蛋白1(Polypyrimidinetract binding protein 1,PTBP1)过表达可促进Bcl-x剪接,产生促进细胞凋亡的Bcl-xs10。研究发现,多聚尿嘧啶结合剪接因子60[Poly(U) binding splicing factor 60,PUF60]缺失会促使CDC25C基因发生外显子跳跃,进而导致无义介导mRNA衰减和CDC25C蛋白减少并抑制细胞增殖,PUF60被认为是肺癌的细胞周期调节因子和致癌剪接因子11。这些研究揭示了AS在肿瘤发生发展中的重要作用,异常剪接事件可以作为肿瘤特异性生物标志物,并为癌症治疗提供新靶点。

1.2 二代测序分析肿瘤可变剪接的优势与不足

NGS作为一种高通量测序技术极大推动基因组学研究。与早期的Sanger测序相比,NGS能够在一次运行中并行处理数百万到数十亿个核酸片段,其高通量、大数据量以及成本相对较低的优势,使NGS技术在基因组学、转录组学、表观遗传学、癌症研究等多个领域得到广泛应用12。mRNA的AS在多种肿瘤中能增加蛋白质组的多样性,异常的AS可参与调控肿瘤细胞增殖和转移,在肿瘤发生发展、药物治疗及耐药等方面发挥重要作用。研究对8 705个肿瘤样本的转录组和全外显子组测序数据分析发现,相比于正常组织,肿瘤组织中的AS事件明显增加13。SMART A C等14基于RNA测序(RNA-sequencing,RNA-seq)开发的算法可鉴定肿瘤转录组中内含子保留事件衍生出的新抗原表位,进而发现AS异常导致肿瘤产生大量新抗原,有助于更全面地了解肿瘤免疫。CHEN H等15研究表明,肝细胞癌的发生过程中,异常剪接产生了大量的AS转录本和肿瘤特异转录本。

短读长RNA-seq技术在AS分析中具有一定优势。对于较短的核酸片段,NGS的准确性较高,有助于对已知的基因区域进行详细分析,尤其是在检测单核苷酸变异(Single nucleotide variant,SNV)和插入/缺失(Indels)方面。另外,NGS还可以结合生物信息学工具进行精细分析,如使用LeafCutter等工具进行无注释的RNA剪接定量,有助于揭示AS的调控机制16

然而,受限于NGS短读长的技术特点,其数据分析通常依赖于生物信息学算法进行序列拼接,以推断选择性剪接事件。这种方法难以精确还原全长AS转录本的真实序列,也无法对其表达水平进行准确定量,因而在肿瘤中制约了对AS事件的大规模系统性探索,并限制了其临床转化应用的潜力。同一基因的异构体可能仅通过远距离外显子组合区分,而二代测序短读长难以覆盖全长转录本,尤其在重复外显子或长内含子区域,依赖统计模型推测外显子连接,易将不同异构体错误合并或拆分17。NGS依赖深度覆盖的定量策略,但对低丰度异构体灵敏度不足,外显子连接位点可能因覆盖不足而被遗漏。

尽管短读长RNA-seq方法存在一定局限性,但通过使用适当的工具来测量AS事件(表1),仍可以获得样品中不同AS亚型的数据,从而进行比较评估。在实际研究中,研究者可以根据研究目的和需求,选择合适的RNA-seq方法,以更好地进行RNA AS分析,深入了解基因表达调控机制以及其在疾病发生发展中的作用。

1.3 长读长测序准确鉴定肿瘤可变剪接的优势与不足

三代测序是指单分子测序技术,在测序过程中不需要涉及PCR扩增,不仅可实现对每一条DNA分子的单独测序,而且还可避免潜在的PCR扩增错误和偏好性。目前,三代测序有单分子荧光测序和纳米孔测序,其代表公司分别为Pacific Bioscience和Oxford Nanopore Technologies。与NGS相比,长读长RNA-seq方法在RNA AS分析方面具有显著优势。它能够直接获得完整的、未经剪接的RNA分子全长序列,从而准确确定AS位点以及外显子的连接关系,尤其对于包含多个外显子或长内含子的复杂基因转录本,能提供全面准确的结构信息,有助于发现新的AS异构体27。同时避免了短读长拼接带来的误差,能准确区分同一基因的异构体,即使它们仅通过远距离外显子组合区分,在分析重复外显子或长内含子区域时,也能提供可靠的AS事件,其中Nanopore三代测序技术不仅能进行cDNA全长测序,还能用于单细胞水平全长转录本分析。这些技术特点使三代测序在基因结构注释、表观遗传修饰及RNA AS等领域研究具有独特的优势。

LRS在系统检测异常AS异构体及其潜在新抗原方面具有很大价值。OKA M等28采用MinION平台,对22个非小细胞肺癌(Non-small cell carcinoma,NSCLC)细胞系及7例临床肺癌样本(涵盖肺腺癌与肺鳞癌)进行全长转录本测序系统性地构建了NSCLC异常转录本目录,并揭示了大量新型异常转录本,其中部分亚型经蛋白质组学分析确认为肽段表达产物,为深入了解肿瘤免疫逃逸机制和靶向新抗原开发提供了重要资源。WRIGHT D J等5对人神经母细胞瘤SH-SY5Y细胞进行Nanopore cDNA测序,发现与特定位点相关的AS异构体数量显著变化,其中一些异构体可能导致早衰综合征等疾病相关蛋白的改变,还鉴定了新的基因、rRNA和miRNA簇等,为理解胚胎干细胞分化过程及疾病相关基因变化提供了重要信息。SUN Q等29通过使用LRS对结直肠癌中的AS事件进行系统全面分析,发现了数千个未加注释的剪接异构体,其中一些新的转录本与结直肠癌患者的生存密切相关,拓宽了人们对结直肠癌发生发展的理解。CHEN H等15通过LRS在肝细胞癌中发现了362个新的AS异构体,且这些AS转录本具有肿瘤特异性,可能在癌症干性和上皮-间充质转化介导的细胞侵袭和迁移中起重要作用。此外,HUANG K K等30在胃癌全长转录组测序分析中揭示了不同分子亚型的胃癌具有丰富的启动子多样性和复杂的AS事件,研究人员对10个胃癌(Gastric cancer,GC)细胞系进行了全长转录组分析获得了60 239个非冗余的全长转录本,鉴定出4种不同的分子亚型,为GC的进一步研究提供了丰富的全长转录组数据资源。在乳腺癌的研究中,LRS发现了3 059个肿瘤特异性剪接事件,其中一些与患者的生存率显著相关,成为潜在的免疫治疗靶点31。LRS揭示了肿瘤中丰富的剪接变异,显著提高了我们对癌症转录组复杂性的理解,并为个性化治疗提供了新的可能性。

长读长RNA-seq方法也存在一些不足,它的通量相对较低,一次测序运行处理的RNA分子数量少,数据产出速度慢,难以获取大规模转录组数据,限制了其在大规模样本研究中的应用。其成本较高,对于需要多次重复实验的大规模研究,经济负担重。此外,长读长数据量大且复杂,对生物信息学分析工具和计算资源要求高,需要强大的计算能力和专业软件进行处理分析,增加了数据分析的难度和时间成本32

2 二代测序和长读长测序在肿瘤选择性多聚腺苷酸化中的应用

APA是一个复杂的生物学过程,受到多种因素的调控,能通过多种机制影响肿瘤生物学行为。XU X等33通过对417例中国非小细胞肺癌(Non-small cell lung cancer,NSCLC)患者的747个组织样本进行二代测序,识别和量化APA事件,评估其预后价值,进行3′aQTL定位和3′aTWAS分析,确定NSCLC相关的APA事件,并揭示潜在的上游调节因子。

SUN W J等34以雄激素依赖型前列腺癌细胞系LNCaP为模型,结合PacBio三代全长转录组测序(Isoform-sequencing,Iso-Seq)和Illumina RNA测序技术,首次绘制了雄激素二氢睾酮(Dihydrotestosterone,DHT)处理后的3'UTR全景图,发现DHT处理后细胞内APA事件整体增加;进一步研究发现,表达变化和APA改变的基因主要富集于脂质代谢相关通路,这些基因在DHT刺激下倾向于使用近端PASs,导致3'UTR缩短,缺失了miRNA的结合位点,使其逃脱miRNA的抑制,最终上调蛋白质表达。

2.1 选择性多聚腺苷酸化在基因表达调控中的作用

APA是真核生物常见的转录后修饰,它是mRNA成熟过程中由于选择不同多聚腺苷酸化信号(Polyadenylation site, PAS)而产生含不同长度3'UTR转录异构体的过程。APA通过影响mRNA稳定性、翻译效率以及蛋白质的细胞定位来调控基因表达,并广泛参与生物体的生理病理过程。mRNA的3'UTR含有RNA结合蛋白、miRNAs和lncRNAs等调控元件的识别/结合位点,这些调控元件能在转录后水平上调控基因表达2。由于3'UTR存在不同的PAS而产生不同的RNA异构体,进而改变3'UTR所包含的miRNA结合位点,从而影响mRNA的稳定性(图2)。研究发现,ER阳性乳腺癌组织中PRELID1基因mRNA的3'UTR显著缩短,与长亚型相比,短亚型显著提高了PRELID1基因mRNA稳定性和翻译效率,随着PRELID1表达水平提高,肿瘤细胞生长速度加快,肿瘤患者生存率显著降低35。除了包含决定mRNA稳定性的序列外,3'UTR还含有与mRNA翻译因子相互作用的元件,可以调控mRNA的翻译效率。研究发现,脑源性神经营养因子BDNF基因通过APA可产生不同长度3'UTR的2种转录本,长3'UTR在静息期起翻译抑制因子的作用,而短3'UTR介导主动翻译以维持BDNF蛋白产生的基础水平,而当神经元激活后,长3'UTR会快速被激活并翻译36。另外,3'UTR的APA还可影响由不同mRNA转录本产生的蛋白质的定位,研究发现,具有短3'UTR和长3'UTR的CD47亚型编码相同的蛋白质,但由较短亚型编码的蛋白质定位于内质网,而较长亚型编码的蛋白质定位于细胞质膜37

2.2 选择性多聚腺苷酸化在肿瘤发生发展中的作用

APA与肿瘤的发生与发展有紧密联系,研究发现,肿瘤组织中基因的总体APA比正常组织短,且癌细胞系中的APA比肿瘤样本中的缩短更广泛38。在肿瘤细胞中,原癌基因通常使用近端PAS形成短3'UTR亚型,3'UTR的缩短导致miRNA结合位点减少和一些mRNA不稳定元件消失,mRNA更趋于稳定,翻译效率显著提高,使相关基因蛋白质表达水平升高39。LI M等40通过双分子荧光互补结合CRISPR技术,首次揭示肿瘤抑制因子QKI蛋白通过调控RNA结合蛋白PABPN1的相分离影响结直肠癌中的APA过程,QKI表达降低或核定位减少会削弱PABPN1的相分离能力,导致近端APA位点优先使用,生成3'UTR缩短的转录本,从而增强癌细胞增殖和迁移能力。研究人员将乳腺癌的肿瘤组织与正常组织进行比较分析时,同样发现了肿瘤样本中大量基因发生3'UTR缩短的变化41。ALMERIC E等42的最新研究进一步揭示,在乳腺癌中,ADAR1通过介导3'UTR的A-to-I(G)RNA编辑,破坏miRNA结合位点或形成新蛋白结合基序,从而增强癌蛋白表达并驱动肿瘤增殖。值得注意的是,该研究通过免疫共沉淀(Co-immunoprecipitation,Co-IP)证实了ADAR1与多聚腺苷酸化核心因子CSTF2存在蛋白互作,表明RNA编辑与3'末端加工机器存在协同调控,这为理解肿瘤中3'UTR长度动态变化提供了新视角43。进一步研究显示,3'UTR较短的mRNA转录本由于不受miRNA的抑制而具有更高的稳定性,能产生10倍以上蛋白44。随着APA事件发生,一旦细胞选择近端PAS产生短的3'UTR,就有可能消除miRNA或RBP的结合位点,导致mRNA表达失调并诱导癌变。

APA调节因子可以通过改变mRNA的多聚腺苷酸化模式调控药物转运蛋白的表达,进而影响肿瘤细胞对药物的摄取和外排。研究表明,卵巢癌细胞中APA机制可调控ABC转运蛋白ABCC1基因的表达,从而引起卵巢癌化疗耐药的发生45。肺腺癌中miR-34会抑制全长HDM4 mRNA的表达,但短的HDM4亚型由于3'UTR的缩短逃避了miR-34的调控,因此肺腺癌肿瘤组织中短的HDM4亚型表达水平更高,使肿瘤细胞对药物的敏感性降低46。乳腺癌对新辅助化疗(Neoadjuvant chemotherapy, NAC)的耐药性是由一种具有短3'UTR(p62-SU,662-nt)的新型p62 mRNA异构体驱动的,它能摆脱miRNA介导的抑制,并导致p62-SU蛋白表达增加47。APA在肿瘤耐药性中的作用是多方面的,深入研究APA在肿瘤耐药性中的具体机制,有助于发现新的治疗靶点,为克服肿瘤耐药性提供新的策略。

2.3 二代测序分析肿瘤选择性多聚腺苷酸化的优势与不足

NGS凭借高通量检测能力,在肿瘤APA研究中具有独特优势。传统研究方法仅局限于单个或少数基因的分析,难以揭示肿瘤复杂的APA调控网络。而基于NGS中RNA-seq其识别单碱基的错误率低(<0.1%),适合大规模样本分析,能对全基因组或转录组进行测序,获取海量转录本信息,可分析覆盖数千个基因的APA事件。在肿瘤细胞中,NGS能够识别出广泛存在的3'UTR缩短现象,揭示了APA调控网络的复杂性。如在乳腺癌研究中,利用RNA-seq技术可发现多个基因的3'UTR发生缩短,其中部分基因与肿瘤增殖、侵袭和转移相关,为乳腺癌诊断和治疗提供新靶点与思路48。在结直肠癌研究中,通过RNA-seq技术不仅能够识别到已知基因的APA事件变化,还发现部分新的APA异构体与肿瘤分期存在显著关联,有望成为判断患者预后的新型分子指标49。此外,NGS能从全转录组层面系统分析APA调控网络,通过对肝癌样本的测序分析,成功揭示出多个与肿瘤血管生成、细胞代谢重编程相关基因的APA模式改变,这些发现为靶向药物研发提供了全新的分子靶点50。借助NGS,科研人员可以深入探究APA在不同癌症类型中的特异性调控机制,助力癌症精准诊疗策略的制定与优化。

但目前NGS在肿瘤APA分析中的应用缺乏统一标准,这给研究结果的比较和临床转化带来了很大困难。不同实验室在进行NGS检测时,不同建库方法会影响RNA提取等步骤,进而影响测序数据质量与准确性,还可能引入偏差致APA事件检测出现假阳性或假阴性。测序深度低无法检测低频APA事件,深度高则增加实验成本与数据分析难度,从而影响APA分析的实验结果。由于NGS的读长短,无法覆盖全长转录本,会导致APA异构体的错误拼接,在解析某些lncRNA的APA事件时,短读长难同时跨越外显子和内含子区域,无法准确识别APA位点51。NGS的短读长导致序列拼接难度大,遇复杂APA事件只能获片段化信息,在研究肿瘤相关APA事件时易遗漏重要信息,影响对肿瘤发病机制理解。因此,研究肿瘤APA需要结合LRS,弥补NGS短读长不足,完整解析复杂APA事件。

2.4 长读长测序在选择性多聚腺苷酸化中的优缺点及应用

复杂APA事件涉及基因内含子区域的PAS,需LRS定位。三代测序技术如Pacific Bioscience和Oxford Nanopore Technologies有长读长优势,能更准确确定APA位点,获得完整的转录本信息并分析基因的APA事件,有助于理解APA在肿瘤发展中的作用(图2)。三代测序技术的读长较长,可直接获取从5'端到3'端的完整转录本序列,能准确识别转录本的可变多聚腺苷酸化位点,无需对RNA进行打断和拼接,避免了因拼接错误导致的分析偏差52。而且与传统的基于oligo(dT)引物的方法相比,三代测序技术可以不依赖于poly(A)位点的注释信息,从而避免了因引物与转录本内部连续的A序列错配而导致的假阳性问题,提高了APA检测的准确性和可靠性。

然而,LRS数据本身的特点以及其所揭示的复杂基因结构信息,使其数据分析和处理需要更强大的计算资源和专业的生物信息学工具(如Iso-Seq、FLAIR、SCAPTURE),对研究人员的技术水平要求较高。单细胞APA分析工具SCAPE虽基于贝叶斯混合模型提升了准确性,但计算资源消耗大,限制了大规模应用53。此外,多聚腺苷酸位点的注释仍依赖基因组质量,复杂物种的APA研究需结合多组学数据优化。为更好地使用LRS检测细胞的APA,许多科研人员开发了不同的软件。基于二代短读长测序数据开发的大部分APA分析存在精度较低的问题,为了提高APA的分析精度及充分利用三代LRS在APA研究中的优势,ZOU X等54开发了适用于LRS数据分析的3aQTL-pipe工具,通过识别3'aQTL(APA数量性状位点),可处理大规模转录组数据并分析APA的定量水平,也可通过简单的命令进行下游APA关联的遗传变异位点分析。TANG P等55利用fractionation-seq鉴定了数百个APA基因,许多选择远端poly(A)的转录本保留在染色质或核基质中,而选择近端poly(A)的转录本则被释放到细胞质中,其利用Nanopore LRS进一步验证了这一发现。除了上述提到的软件,还有其他许多软件可以用于检测APA的变化(表2)。

3 小结与展望

虽然NGS凭借其高通量、低成本的优势在目前的组学研究中占据主导地位,然而读长短的特点使得其难以准确检测肿瘤样本中复杂的RNA结构变异。LRS能够一次性读取完整的转录本信息,使研究人员能够更全面系统地分析基因变异,鉴定基因的AS和APA事件。

肿瘤RNA结构变异研究面临诸多挑战,包括检测技术的局限性、LRS的成本与精度限制、肿瘤异质性及其动态性、功能验证的难度以及RNA修饰与结构变异的交互作用解析。以纳米孔测序技术为例,其初始的错误率可高达5%~15%,这一较高的错误率主要源于纳米孔测序过程中对碱基信号的识别和解读存在一定的误差。当DNA分子通过纳米孔时,产生的电信号特征并非完全清晰可辨,由于碱基信号的微弱和相似性,导致在识别同聚物区域的碱基时,难以准确判断重复碱基的个数,容易出现插入或缺失错误,增加了碱基识别错误的可能性。在高度重复序列中,相同或相似的碱基序列反复出现,使得纠错算法难以准确判断正确的碱基顺序,从而导致假阳性结果的出现,严重影响了数据的可靠性。与短读长测序技术相比,LRS单次运行成本显著偏高。这主要是因为LRS设备的研发和生产成本较高,仪器的精密程度和技术复杂性要求更高,所需的试剂和耗材价格也相对昂贵。因此,在大规模队列研究中,高昂的设备采购费、运行费和试剂耗材费等,使许多研究团队难以承受,很大程度上限制了LRS在大规模研究中的应用。提升测序准确性是LRS发展的关键方向之一。新型测序化学的开发为实现这一目标提供了可能,如PacBio的Revio系统采用了先进的测序化学技术,能够有效减少测序过程中的错误。该系统通过优化DNA聚合酶的性能,使其能够更精准地匹配和连接核苷酸,提高了碱基识别的准确性,使得测序错误率显著降低。

未来的研究可以致力于开发更加智能、高效的纠错算法,结合机器学习和深度学习技术,使算法能够自动学习LRS数据中的错误模式和特征,从而实现更准确的纠错。利用深度学习模型对测序数据进行预处理,识别潜在的错误位点,再通过传统的纠错算法进行精确校正,能够提高纠错的效果和效率。未来还可通过改进生物信息学工具、开发结合长读长和短读长测序的整合方法来提高测序精度,通过单细胞测序与LRS的结合更好地解析肿瘤细胞的异质性,结合大规模临床数据和功能验证实验进一步探索RNA变异的生物学意义。通过这些研究推动肿瘤RNA结构变异研究向前发展,并为肿瘤诊断与治疗开辟新的途径。

参考文献

[1]

REIXACHS-SOLÉ MEYRAS E. Uncovering the impacts of alternative splicing on the proteome with current omics techniques[J]. Wiley Interdiscip Rev RNA202213(4):e1707.

[2]

TIAN BMANLEY J L. Alternative polyadenylation of mRNA precursors[J]. Nat Rev Mol Cell Biol201718(1):18-30.

[3]

LANDER E S. Initial impact of the sequencing of the human genome[J]. Nature2011470(7333):187-197.

[4]

KONO NARAKAWA K. Nanopore sequencing: review of potential applications in functional genomics[J]. Dev Growth Differ201961(5):316-326.

[5]

WRIGHT D JHALL N A LIRISH Net al. Long read sequencing reveals novel isoforms and insights into splicing regulation during cell state changes[J]. BMC Genomics202223(1):42.

[6]

RUIZ DE GARIBAY GFERNANDEZ-GARCIA IMAZOYER Set al. Altered regulation of BRCA1 exon 11 splicing is associated with breast cancer risk in carriers of BRCA1 pathogenic variants[J]. Hum Mutat202142(11):1488-1502.

[7]

HAN DLABAF MZHAO Yet al. Androgen receptor splice variants drive castration-resistant prostate cancer metastasis by activating distinct transcriptional programs[J]. J Clin Invest2024134(11):e168649.

[8]

ZHANG YQIAN JGU Cet al. Alternative splicing and cancer: a systematic review[J]. Signal Transduct Target Ther20216(1):78.

[9]

WAN LYU WSHEN Eet al. SRSF6-regulated alternative splicing that promotes tumour progression offers a therapy target for colorectal cancer[J]. Gut201968(1):118-129.

[10]

STEVENS MOLTEAN S. Modulation of the apoptosis gene Bcl-x function through alternative splicing[J]. Front Genet201910:804.

[11]

XU NREN YBAO Yet al. PUF60 promotes cell cycle and lung cancer progression by regulating alternative splicing of CDC25C[J]. Cell Rep202342(9):113041.

[12]

SATAM HJOSHI KMANGROLIA Uet al. Next-generation sequencing technology: current trends and advancements[J]. Biology (Basel)202312(7):997.

[13]

KAHLES ALEHMANN K VTOUSSAINT N Cet al. Comprehensive analysis of alternative splicing across tumors from 8 705 patients[J]. Cancer Cell201834(2):211-224.e6.

[14]

SMART A CMARGOLIS C APIMENTEL Het al. Intron retention is a source of neoepitopes in cancer[J]. Nat Biotechnol201836(11):1056-1058.

[15]

CHEN HGAO FHE Met al. Long-read RNA sequencing identifies alternative splice variants in hepatocellular carcinoma and tumor-specific isoforms[J]. Hepatology201970(3):1011-1025.

[16]

LI Y IKNOWLES D AHUMPHREY Jet al. Annotation-free quantification of RNA splicing using LeafCutter[J]. Nat Genet201850(1):151-158.

[17]

ENGSTRÖM P GSTEIJGER TSIPOS Bet al. Systematic evaluation of spliced alignment programs for RNA-seq data[J]. Nat Methods201310(12):1185-1191.

[18]

SHEN SPARK J WLU Z Xet al. rMATS: robust and flexible detection of differential alternative splicing from replicate RNA-Seq data[J]. Proc Natl Acad Sci USA2014111(51):E5593-E5601.

[19]

ANDERS SREYES AHUBER W. Detecting differential usage of exons from RNA-seq data[J]. Genome Res201222(10):2008-2017.

[20]

TIAN LJABBARI J STHIJSSEN Ret al. Comprehensive characterization of single-cell full-length isoforms in human and mouse with long-read sequencing[J]. Genome Biol202122(1):310.

[21]

KADI MALJUNG NITO Set al. UNAGI: an automated pipeline for nanopore full-length cDNA sequencing uncovers novel transcripts and isoforms in yeast[J]. Funct Integr Genom202020(4):523-536.

[22]

ORABI BXIE NMCCONEGHY Bet al. Freddie: annotation-independent detection and discovery of transcriptomic alternative splicing isoforms using long-read sequencing[J]. Nucleic Acids Res202351(2):e11.

[23]

TANG A DSOULETTE C MVAN BAREN M Jet al. Full-length transcript characterization of SF3B1 mutation in chronic lymphocytic leukemia reveals downregulation of retained introns[J]. Nat Commun202011(1):1438.

[24]

PRJIBELSKI A DMIKHEENKO AJOGLEKAR Aet al. Accurate isoform discovery with IsoQuant using long reads[J]. Nat Biotechnol202341(7):915-918.

[25]

CHEN Y, SIM A, WAN Y Ket al. Context-aware transcript quantification from long-read RNA-seq data with bambu[J]. Nat Methods202320(8):1187-1195.

[26]

KOVAKA SZIMIN A VPERTEA G Met al. Transcriptome assembly from long-read RNA-seq alignments with StringTie2[J]. Genome Biol201920(1):278.

[27]

BLEIDORN C. Third generation sequencing: technology and its potential impact on evolutionary biodiversity research[J]. Syst Biodivers201614(1):1-8.

[28]

OKA M, XU LSUZUKI Tet al. Aberrant splicing isoforms detected by full-length transcriptome sequencing as transcripts of potential neoantigens in non-small cell lung cancer[J]. Genome Biol202122(1):9.

[29]

SUN QHAN YHE Jet al. Long-read sequencing reveals the landscape of aberrant alternative splicing and novel therapeutic target in colorectal cancer[J]. Genome Med202315(1):76.

[30]

HUANG K KHUANG JWU J K Let al. Long-read transcriptome sequencing reveals abundant promoter diversity in distinct molecular subtypes of gastric cancer[J]. Genome Biol202122(1):44.

[31]

VEIGA D F TNESTA AZHAO Yet al. A comprehensive long-read isoform analysis platform and sequencing resource for breast cancer[J]. Sci Adv20228(3):eabg6711.

[32]

WANG FXU YWANG Ret al. TEQUILA-seq: a versatile and low-cost method for targeted long-read RNA sequencing[J]. Nat Commun202314(1):4760.

[33]

XU XWANG SZHOU Het al. Transcriptome-wide association study of alternative polyadenylation identifies susceptibility genes in non-small cell lung cancer[J]. Oncogene202544(26):2127-2141.

[34]

SUN W JLIANG FZHAO Het al. Androgen induces 3'UTR shortening of de novo lipogenesis genes by alternative polyadenylation in prostate cancer cells[J/OL]. Sci China Life Sci2025[2025-07-08].

[35]

GILLEN A EBRECHBUHL H MYAMAMOTO T Met al. Alternative polyadenylation of PRELID1 regulates mitochondrial ROS signaling and cancer outcomes[J]. Mol Cancer Res201715(12):1741-1751.

[36]

LAU A GIRIER H AGU Jet al. Distinct 3'UTRs differentially regulate activity-dependent translation of brain-derived neurotrophic factor (BDNF)[J]. Proc Natl Acad Sci USA2010107(36):15945-15950.

[37]

BERKOVITS B DMAYR C. Alternative 3' UTRs act as scaffolds to regulate membrane protein localization[J]. Nature2015522(7556):363-367.

[38]

XIANG YYE YLOU Yet al. Comprehensive characterization of alternative polyadenylation in human cancer[J]. J Natl Cancer Inst2018110(4):379-389.

[39]

NAVARRO EMALLÉN AHUESO M. Dynamic variations of 3'UTR length reprogram the mRNA regulatory landscape[J]. Biomedicines20219(11):1560.

[40]

LI MHU ZHUANG Yet al. BiFC and FACS-based CRISPR screening revealed that QKI promotes PABPN1 LLPS in colorectal cancer cells[J]. Protein Cell20252025:1-18.

[41]

CHAN J JZHANG BCHEW X Het al. Pan-cancer pervasive upregulation of 3' UTR splicing drives tumourigenesis[J]. Nat Cell Biol202224(6):928-939.

[42]

ALMERIC EKARAGOZOGLU DCICEK Met al. 3'UTR RNA editing driven by ADAR1 modulates MDM2 expression in breast cancer cells[J]. Funct Integr Genomics202525(1):103.

[43]

LIN AJI PNIU Xet al. CstF64-induced shortening of the BID 3'UTR promotes esophageal squamous cell carcinoma progression by disrupting ceRNA cross-talk with ZFP36L2 [J]. Cancer Res202181(22):5638-5651.

[44]

MAYR CBARTEL D P. Widespread shortening of 3'UTRs by alternative cleavage and polyadenylation activates oncogenes in cancer cells[J]. Cell2009138(4):673-684.

[45]

MARJAMAA AGIBBS BKOTRBA Cet al. The role and impact of alternative polyadenylation and miRNA regulation on the expression of the multidrug resistance-associated protein 1 (MRP-1/ABCC1) in epithelial ovarian cancer[J]. Sci Rep202313(1):17476.

[46]

PAN WCHAI BLI Let al. p53/MicroRNA-34 axis in cancer and beyond[J]. Heliyon20239(4):e15155.

[47]

GUO QWANG HDUAN Jet al. An alternatively spliced p62 isoform confers resistance to chemotherapy in breast cancer[J]. Cancer Res202282(21):4001-4015.

[48]

MORGANTI STARANTINO PFERRARO Eet al. Next generation sequencing (NGS): a revolutionary technology in pharmacogenomics and personalized medicine in cancer[J]. Adv Exp Med Biol20191168:9-30.

[49]

PIRA G, UVA P, SCANU A Met al. Landscape of transcriptome variations uncovering known and novel driver events in colorectal carcinoma[J]. Sci Rep202010(1):432.

[50]

XU QCHENG XLI Qet al. 3' untranslated region somatic variants connect alternative polyadenylation dysregulation in human cancers[J]. J Genet Genomics2025307:142242.

[51]

ZHANG Z, BAE B, CUDDLESTON W Het al. Coordination of alternative splicing and alternative polyadenylation revealed by targeted long read sequencing[J]. Nat Commun202314(1):5506.

[52]

YU YLIUFU YREN Yet al. Comprehensive profiling of alternative splicing and alternative polyadenylation during fruit ripening in watermelon (Citrullus lanatus)[J]. Int J Mol Sci202324(20):15333.

[53]

ZHOU RXIAO XHE Pet al. SCAPE: a mixture model revealing single-cell polyadenylation diversity and cellular dynamics during cell differentiation and reprogramming[J]. Nucleic Acids Res202250(11): e66.

[54]

ZOU XDING RCHEN Wet al. Using population-scale transcriptomic and genomic data to map 3' UTR alternative polyadenylation quantitative trait loci [J]. STAR protocols20223(3):101566.

[55]

TANG PYANG YLI Get al. Alternative polyadenylation by sequential activation of distal and proximal PolyA sites[J]. Nat Struct Mol Biol202229(1):21-31.

[56]

XIA ZDONEHOWER L ACOOPER T Aet al. Dynamic analyses of alternative polyadenylation from RNA-seq reveal a 3'-UTR landscape across seven tumour types[J]. Nat Commun20145:5274.

[57]

YE CLONG YJI Get al. APAtrap: identification and quantification of alternative polyadenylation sites from RNA-seq data[J]. Bioinformatics201834(11):1841-1849.

[58]

YE CZHOU QWU Xet al. scDAPA: detection and visualization of dynamic alternative polyadenylation from single cell RNA-seq data[J]. Bioinformatics202036(4):1262-1264.

[59]

HA K C HBLENCOWE B JMORRIS Q. QAPA: a new method for the systematic analysis of alternative polyadenylation from RNA-seq data[J]. Genome Biol201819(1):45.

[60]

GRUBER A JSCHMIDT RGHOSH Set al. Discovery of physiological and cancer-related regulators of 3' UTR processing with KAPAC[J]. Genome Biol201819(1):44.

[61]

CHANG J WZHANG WYEH H Set al. An integrative model for alternative polyadenylation, IntMAP, delineates mTOR-modulated endoplasmic reticulum stress response[J]. Nucleic Acids Res201846(12):5996-6008.

[62]

DE LA FUENTE LARZALLUZ-LUQUE ÁTARDÁGUILA Met al. tappAS: a comprehensive computational framework for the analysis of the functional impact of differential splicing[J]. Genome Biol202021(1):119.

[63]

AREFEEN ALIU JXIAO Xet al. TAPAS: tool for alternative polyadenylation site analysis[J]. Bioinformatics201834(15):2521-2529.

基金资助

赣南医科大学本科生科技创新项目(BKSZR26)

AI Summary AI Mindmap
PDF (691KB)

204

访问

0

被引

详细

导航
相关文章

AI思维导图

/