鲟鱼属于辐鳍鱼纲(Actinopterygii)、软骨硬鳞亚纲(Chondrostei)、鲟形目(Acipenseriformes),是世界上最古老的鱼类之一,被誉为“水中的活化石”,有着长达2亿年的进化历史
[1]。所有现存的鲟鱼物种均被列入世界自然保护联盟(International union for conservation of nature,IUCN)的“濒危物种红色名录”
[2]。鲟鱼主要分布在北半球欧亚大陆和北美的流域中,是洄游性冷水鱼,体型大、寿命长、性成熟较晚
[3-4]。鲟鱼因其极高的经济价值得到了广泛的人工养殖,除了鱼卵可以被加工为名贵的鱼子酱外,还被用于医疗保健品、化妆品和皮革生产等增值领域
[5]。
近年来,有关鲟鱼的分子细胞学研究证明了其具有多种不同倍性的染色体核型
[6]。这些研究结合核型分析
[7-8]、流式细胞术
[9-10]、微卫星分析
[10-11]和保守基因家族
[12-13]等证据,确定了鲟鱼的染色体基数约为120、250和360条
[10,14-15],并分别被定义为四倍体(功能性二倍体)、八倍体(功能性四倍体)和十二倍体(功能性六倍体)。其中十二倍体核型的鲟鱼最少,仅见于短吻鲟(
Acipenser brevirostrum)和达氏鲟(
A. dabryanus)[16]两种,四倍体和八倍体是鲟鱼中常见的染色体核型,其中四倍体鲟鱼主要包括小体鲟(
A. ruthenus,2
n=4
x=118±4)
[17]、闪光鲟(
A. stellatus)、欧鳇(
Huso huso,2
n=4
x=118±2)
[18]等;八倍体鲟鱼主要包括施氏鲟(
A. schrenckii)、中华鲟(
A. sinensis,2
n=8
x=264)
[19]、俄罗斯鲟(
A. gueldenstaedtii,2
n=8
x=250±8)
[18]和达氏鳇(
H. dauricus,2
n=8
x=268±4)
[7]等。现存的26种多倍体鲟鱼起源于已经灭绝的鲟鱼二倍体祖先(2
n=60)
[20],鲟鱼丰富的染色体倍性使其成为研究鱼类全基因组复制(Whole genome duplication,WGD)和远缘杂交的理想材料。除此之外,鲟鱼的细胞核内有大量的微小染色体,这些微小染色体的数目几乎占总染色体数目的一半
[8]。
全基因组复制事件是生物适应性进化的重要生物学过程。脊椎动物历史上共发生了两轮WGD,称为1R和2R。在WGD之后,会产生大量冗余的基因,这些多余的基因拷贝不受选择压力的显著影响,可以产生基因功能的分化,进而导致物种的不断进化,因此,WGD是造成物种多样性增加和趋异性进化的重要因素
[21]。在辐鳍鱼纲中,自真骨鱼类与以鳄雀鳝(
Atractosteus spatula)为代表的全骨鱼类分离后,它们在大约3.2亿至4亿年前发生了硬骨鱼特有的第三轮WGD(Ts3R)
[22]。在Ts3R之前,鲟形目的祖先就已经从硬骨鱼中分化出来。与鲤科鱼类特有的第四轮WGD(Cr4R)
[23-24]和单独发生在鲑科鱼类中的第四轮WGD(Ss4R)
[22]相似,鲟科鱼类中也发生了自己特异的第三轮(或第四轮)WGD。
鲟鱼多倍化且复杂的基因组结构给基因组组装造成很大困难。目前已发表的染色体水平的鲟鱼高质量基因组较少,这限制了大规模的鲟形目基因组研究进程,导致对鲟鱼特有的第三轮WGD(As3R)发生时间的估算结果存在不少分歧,尚未形成统一结论
[25-26]。除了一些线粒体基因组已经测序之外,仅有小体鲟
[25]和中华鲟
[26]等鲟鱼基因组发表。考虑到鲟鱼基因组结构的特点,本研究采用二代高通量测序,对7种典型的鲟鱼物种(3个四倍体和4个八倍体)进行了全基因组低深度测序(Survey sequencing)和初步组装,利用这些组装的基因组对鲟鱼物种的进化进行了初步分析。同时,通过基因家族的同义替换率计算和杂合SNP计算这两种不同的方法,基本确定了鲟鱼特有的第三轮WGD发生的时间。此外,通过对物种间发生快速扩增的基因进行功能注释,揭示了免疫相关基因的复制在鲟鱼环境适应性过程中的重要作用。
1 研究方法
1.1 样本采集与流式细胞测定
样本采集于我国河南省安阳市的某鲟鱼养殖场中,分别从鲟形目鲟科鲟属的施氏鲟(NCBI:txid111304)、俄罗斯鲟(NCBI:txid7902)、中华鲟(NCBI:txid61970)、闪光鲟(NCBI:txid7903)和小体鲟(NCBI:txid7906),以及鲟形目鲟科鳇属的达氏鳇(NCBI:txid55293)和欧鳇(NCBI:txid61971)共7个物种中选取了7尾3~5龄雌性鲟鱼,每尾鲟鱼抽取0.5 mL尾鳍静脉血,保存至EDTA-K2抗凝采血管中。将采集到的部分鲟鱼尾鳍血液作为血液样本进行流式细胞术检测。以ECD(PE-TR)作为荧光染料,取60 µL悬浮血液样品加入2 mL 0.01 mol/L的磷酸盐缓冲液PBS(成分为NaCl 9.0 g,Na
2HPO
4·7H
2O 0.795 g,KH
2PO
4 0.144 g,ddH
2O 1 000 mL,pH值为7.4),300×g离心5 min(Mini-6KS,奥盛)分离白细胞和红细胞。弃上清,PBS重悬红细胞,每个样品稀释至10
6个细胞/mL。向细胞悬液中加入0.2 mL ECD荧光染料,混匀后,4 ℃黑暗孵育20~30 min。用同样的方法来处理草鱼(
Ctenopharyngodon idella)的红细胞。染色后的鲟鱼细胞和草鱼细胞样本按体积比1∶1混合,使用流式细胞仪Cell Lab Quanta
TM SC(Beckman Coulter)进行测定。每个样本不少于20 000个细胞进入FL3通道(橙色荧光范围:610~620 nm)。最后,以草鱼基因组(大小约为0.9 Gb
[27])作为参照,估计鲟鱼的基因组大小。
1.2 DNA提取和基因组测序
DNA提取根据血液/细胞/组织基因DNA提取试剂盒(TIANGEN,DP304)的操作手册进行,提取后的DNA按照标准Illumina测序文库构建方法,经片段化、纯化、末端修复、3'端加A、连接测序接头和片段大小筛选后,构建成平均长度为350 bp的测序文库,在Illumina HiSeq X Ten平台上进行双端测序,生成长度为150 bp、平均深度约为100×的paired-end测序数据。使用fastp v0.23.2和Trimmomatic v0.39软件对原始数据(Raw data)进行质控和过滤,去除读段中残留的5 bp以上的接头序列,过滤掉碱基N数量大于总长度10%、质量分数较低(≤5)且碱基数量大于总长度50%的读段,最终获得高质量的读段(Clean reads)。
1.3 基因组的组装和注释
使用Jellyfish v2.3.0进行k-mer分析(k-mer设定值为51-mer),估计基因组大小和杂合度,结果在GenomeScope v2.0中可视化。用SOAP denovo v2.40软件分别在51-mer、61-mer、71-mer和81-mer长度下组装,生成contig和scaffold序列。通过比较组装序列N50长度和基因组总长度等参数,确定最佳组装结果用于后续分析。
组装后的survey基因组序列,挑选长度在500 bp以上的scaffold序列进行基因注释和分析,以减少因小片段中的组装错误而引起的分析误差。之后使用RepeatModeler v2.0.5构建了各物种自身的重复序列数据库。通过Repbase数据库(
https://www.girinst.org/repbase/)进行同源重复序列的注释。每个基因组中重复序列的预测和屏蔽由RepeatMasker v4.1.5完成。Infernal v1.1.2软件预测非编码RNA,tRNAScan-SE v2.0软件预测tRNA基因,LTR harvest v1.6.5、LTR_Finder v1.0.7和LTR_retriver v2.9.4等软件预测和注释长末端逆转座子(Long terminal repeat retrotransposon, LTR-retrotransposon),TRF v4.10.0软件预测简单重复序列(Simple sequence repeat,SSR)。在随后的编码基因注释中,首先使用AUGUSTUS v3.3.1和FGENESH v7.2.2进行
de novo基因结构预测。然后选取大西洋鲟(
A.oxyrinchus,GCA_030684275.1)、小体鲟(GCF_010645085.1)、斑马鱼(
Danio rerio,GCF_000002035.6)、斑点雀鳝(
Lepisosteus oculatus,GCF_000242695.1)和美国匙吻鲟(
Polyodon spathula,GCF_017654505.1)5个近缘物种的氨基酸序列,运用Genewise v2.4.1软件确定最佳匹配的基因结构。接着使用EVidenceModeler v2.1.0软件整合上述两种方法的注释结果,获得各鲟鱼物种非冗余的最终基因集。最后采用InterProScan v5.52软件,参考InterPro(
http://www.ebi.ac.uk/interpro/)、KOG(
https://ftp.ncbi.nih.gov/pub/COG/KOG/kyva)和Uniprot(
https://www.uniprot.org)等数据库对基因进行功能注释。
1.4 进化分析
将已经发表的四倍体小体鲟基因组作为参考基因组,使用OrthoFinder v2.2.7,以斑点雀鳝作为外类群建立了7种鲟鱼的同源基因簇。鉴于鲟鱼基因组的多倍体特征,选择7种鲟鱼间共有的低拷贝基因簇(不同物种中拷贝数小于5的基因簇),使用ClustalW v2.0.12软件进行多序列比较,再使用IQ-TREE v1.6.12构建了每个基因家族的系统发育树,均以斑点雀鳝同源基因作为外类群。最后在FigTree v1.4.4中进行可视化,以每个物种中最靠近进化树根部的拷贝作为该物种的直系同源基因。使用PAL2NAL v14将基因的氨基酸序列转化成相应的核苷酸编码序列后,将每个物种中所有比对整齐后的序列连接成一个超级DNA矩阵(DNA supermatrix)。再用IQ-TREE和RAxML v8.2.12软件基于最大似然法构建物种系统发育树。使用TimeTree(
http://www.timetree.org/)数据库中的小体鲟~欧鳇(9.47~86.40 Ma)、中华鲟~施氏鲟(9.47~86.40 Ma)以及斑点雀鳝~鲟亚科(493.8~652.0 Ma)这3个化石时间点校正进化树上各节点的分化时间。之后使用CAFE v5.1.0估算了7种鲟鱼的基因家族扩张与收缩情况,并使用EggNOG对每种鲟鱼相关的扩张和收缩基因进行了功能注释。最后使用KOBAS v3.0对鲟鱼中快速膨胀的基因家族进行了KEGG(Kyoto encyclopedia of genes and genomes)代谢途径的富集分析。
目前还缺乏高质量的鲟鱼基因组,为了估计鲟亚科谱系中WGD发生的时间,采用WGDdetector pipline
[28]计算流程,基于OrthoFinder生成同源基因,计算同源基因间的同义替换率(
Ks),根据已知的鲟形目进化速率
r=1.9×10⁻
4 subs·site⁻¹·Ma⁻¹
[29]计算分化时间。此外,利用携带杂合单核苷酸多态性(SNPs)的编码序列(Coding DNA sequence,CDS)计算基因分化时间,具体流程如下:使用BWA v0.7.16软件将7种鲟鱼测序reads比对到各自的参考基因组上,用Genome Analysis Toolkit v4.3.0鉴定SNP,再根据SNP的位置和碱基多态性,在参考基因的编码序列上进行碱基替换,替换后的CDS与基因的原CDS进行序列比较后,计算这两个基因间的同义替换率(
Ks),最后根据
Ks值计算替换后的基因与原基因的分化时间,进而估计整个基因组的WGD时间。
2 结果
2.1 基因组大小测定和survey测序
流式细胞测定的结果显示(
表1),4种八倍体鲟鱼如达氏鳇、施氏鲟、俄罗斯鲟和中华鲟的基因组大小范围约为4.3~4.6 Gb,其中施氏鲟的基因组最大;3种四倍体鲟鱼如闪光鲟、小体鲟和欧鳇的基因组大小范围约为2.1~2.3 Gb,其中欧鳇的基因组最小。根据流式细胞仪测定结果估计的基因组大小,对7种鲟鱼的基因组进行二代高通量测序,共生成数据2.27 Tb。其中,达氏鳇338.6 Gb(测序深度为77.7×)、施氏鲟414.7 Gb(90.9×)、俄罗斯鲟415.7 Gb(92.1×)、中华鲟280.2 Gb(64.7×)、闪光鲟273.4 Gb(118.9×)、小体鲟257.6 Gb(119.3×)和欧鳇290.2 Gb(135.0×)。
从测序数据的
k-mer(
k=51)频率分布曲线(
图1)来看,八倍体鲟鱼的
k-mer分布曲线除了主峰以外还会呈现一个次峰,而四倍体鲟鱼的曲线则更接近泊松分布。大多数鲟鱼的
k-mer曲线下方都存在起伏拖尾的现象,表明基因组中重复序列的比例较高。
k-mer分布曲线预测的基因组大小大多与测量值相差很大,说明这一方法不适合多倍体复杂基因组大小的估计。从预测的基因组杂合度来看,八倍体鲟鱼基因组的平均杂合度(0.80%~1.06%)明显高于四倍体(0.32%~0.39%),但存在例外,如:八倍体的施氏鲟基因组的杂合度仅为0.37%,接近四倍体的水平;而四倍体小体鲟基因组的杂合度达0.7%,与多数八倍体基因组的杂合度相当。杂合度估计的结果与先前发表的组装结果接近
[12,26]。在
k-mer频率的分布图中出现的双峰和曲线拐点,可能是由于多倍体不同亚基因组之间的差异和染色体较高的杂合度造成的。在八倍体中会观察到一个拐点和一个主次峰,或两个拐点的情况,这暗示着八倍体基因组中至少发生过两次染色体的加倍过程。
根据组装的基因组大小与流式细胞仪结果的一致性,并综合评估N50、N90、测序深度(Coverage)和GC含量等指标,最终确定各survey基因组的组装结果(
表2)。从组装结果来看,八倍体鲟鱼的survey基因组平均大小为5 Gb,而四倍体基因组平均大小为2.5 Gb,明显高于流式细胞仪测定的值,这可能是因为二代组装质量受鲟鱼基因组复杂结构的影响,整体上碎片化,这些未组装成contig或scaffold的片段使得组装后的结果远高于其基因组的实际值。由于多倍体基因组的复杂性和基因组随机测序短读长的影响,这些survey基因组的scaffold N50长度相对较短。欧鳇的scaffold N50长度最长(657 bp),其次是俄罗斯鲟(375 bp),其他物种约为180 bp。序列的覆盖度为58~137×。其中,欧鳇基因组的N50长度和覆盖度较好,而欧鳇基因组的大小最接近流式细胞仪测定的基因组大小实验值。除了已经发表过的小体鲟基因组,其余6种鲟鱼survey基因组组装序列已经上传至国家生物信息中心(
https://ngdc.cncb.ac.cn/gsub/submit/gsa/,数据登录号:GWHFWGG00000000.1)。
2.2 基因组重复序列的预测及注释
重复序列注释结果显示,7种鲟鱼检测到的重复序列的总长度为216.9(闪光鲟)~1 424.2 Mb(俄罗斯鲟),占整个基因组的比例为27.90%~39.94%;转座元件占全部重复序列的40%以上,其中,DNA转座子的长度占比最高,为17.26%(中华鲟)~26.67%(俄罗斯鲟)(
表3)。鲟亚科基因组中最丰富的DNA转座子家族是Tc1/Mariner超家族,平均有265 896个拷贝,占所有已识别DNA转座子的5.7%。在各种逆转座子中,LINE/L2、LTR/DIRS、LINE/CR1、DNA/TMar-Tc1和DNA/hAT Charlie是鲟鱼共有的5种长度占比最高的转座元件。
2.3 系统发育分析及物种分化时间推测
基因家族聚类的结果显示,共7 330个基因家族(占所有基因家族的17.2%)为所有鲟鱼共有(
图2),仅有26个一对一单拷贝基因家族。这反映了鲟鱼基因组多倍体的特点,也表明目前普遍采用的通过一对一单拷贝基因家族构建物种进化关系的方法,对鲟鱼这种多倍体基因组的物种来说是不适用的。我们选取了304个低拷贝的、各物种共有的同源基因(具体方法详见1.4节)串联成基因矩阵(长度为14 822 bp),构建了7种鲟鱼的物种系统发育树。系统发育树的分析结果显示,鲟科祖先起源于3.03亿年前,在约1.55亿年前分化为两个地理分支——大西洋分支和太平洋分支,与鲟鱼的地理起源一致(
图3)。物种进化关系也说明鲟属并非单系起源
[30],鲟属的物种分别定位于上述两个不同的地理分支中。在太平洋分支中,中华鲟与施氏鲟的亲缘关系较近,与达氏鳇较远;在大西洋分支中,小体鲟、欧鳇、闪光鲟的亲缘关系相近,与俄罗斯鲟较远。
在进行了系统进化和各基因家族中基因拷贝数的比较后,共鉴定出627个快速膨胀的基因家族。使用KEGG代谢途径数据库对这些基因进行功能注释和富集分析后发现,如
图4所示,这些基因主要富集于如下通路:1)与免疫相关的代谢通路:Toll受体信号通路(Toll-like receptor signaling pathway)、补体和凝血级联反应(Complement and coagulation cascades)、中性粒细胞外陷阱形成(Neutrophil extracellular trap formation)、造血细胞谱系(Hematopoietic cell lineage)、病毒蛋白与细胞因子和细胞因子受体的相互作用(Viral protein interaction with cytokine and cytokine receptor);2)细胞代谢相关通路:嘌呤代谢(Purine metabolism)和嘧啶代谢(Pyrimidine metabolism);3)信号转导相关通路:cAMP信号通路(cAMP signaling pathway)和cGMP-PKG信号通路(cGMP-PKG signaling pathway);4)代谢和生理活动相关通路:胰腺分泌(Pancreatic secretion)、血管平滑肌收缩(Vascular smooth muscle contraction)、破骨细胞分化(Osteoclast differentiation)、肾素分泌(Renin secretion)和Apelin信号通路(Apelin signaling pathway)等。在这些有功能注释信息的基因中,补体与凝血级联反应途径涉及的基因最多,涉及了21个小体鲟基因、21个达氏鳇基因和81个俄罗斯鲟基因,说明免疫基因的大量复制在鲟鱼环境适应性过程中起着重要作用。
2.4 全基因组复制发生时间的计算
先前的研究基本明确了鲟科具有额外的第三轮WGD,即As3R
[25]。但对As3R发生的时间还有较大争论,特别是对于八倍体基因组复制发生的时间,因缺少八倍体基因组的数据,相关研究尚未系统性开展。本研究采用两种方法计算基因间的同义替换率(
Ks),估计基因组复制发生的时间。
首先,挑选鲟鱼基因家族中的双拷贝基因家族,即每个物种中有且仅有两个拷贝的基因家族,计算这两个拷贝之间的同义替换率(
Ks)来估计WGD发生的时间。之所以挑选双拷贝的基因家族,是因为在这些基因家族中只发生过一轮确定的基因复制事件。而具有3个或3个以上拷贝的基因家族,基因复制事件的发生过程比较复杂,计算过程中会涉及部分发生复制基因的祖先基因确定问题,因而会引入较大的误差。从获得的各种鲟鱼物种中双拷贝基因家族
Ks值的分布曲线上看,四倍体和八倍体都仅发现一个峰,主要集中于0.024至0.074,中位数为0.045(
图5)。
同时,将7个鲟鱼基因组测序的数据比对到各自的survey基因组上,鉴定出位于基因编码区的杂合SNP位点,然后根据SNP的信息,通过替换碱基的办法,获得携带杂合SNP的基因信息,与基因组上的原基因编码序列组合,计算出它们之间的Ks值。发现峰值出现在小体鲟的0.06~0.07、闪光鲟的0.06~0.07、欧鳇的0.04~0.05、中华鲟的0.06~0.07、施氏鲟的0.06~0.07、达氏鳇的0.06~0.07和俄罗斯鲟的0.06~0.07等区域。
这两组预测数值比较接近,在去除离群值后,主要分布于0.045~0.070的范围。根据鲟形目物种的进化速率(每百万年每个位点发生1.9×10
-4个突变)
[29],估计As3R发生的时间介于118~196 Ma之间。我们计算得出的时间十分接近文献[
25-
26]中报道的As3R发生时间,值得一提的是,该时间点与发生在2亿年前的二叠纪至三叠纪灭绝事件(Permian-Triassic extinction event)时间点十分接近,暗示了大型地质灾害事件对生物进化的重要影响。
2.5 鲟鱼基因组的种间变异分析
以小体鲟基因组
[25]为参考基因组,使用BWA软件将7种鲟鱼物种的原始测序数据映射到参考基因组上,然后使用GATK软件完成SNP的鉴定。从测序序列与参考基因组比对的结果来看,发现6种鲟鱼序列与小体鲟基因之间的比对率都达到了90%以上,不同种属个体之间的基因组相似性较高,表明鲟科基因组具有相近的起源。具体来看,太平洋鲟鱼物种的施氏鲟、中华鲟和达氏鳇与小体鲟的基因组比对率分别为98.16%、97.53%和95.30%,低于大西洋鲟鱼物种的闪光鲟(98.85%)、欧鳇(98.87%)和俄罗斯鲟(98.46%),说明大西洋分支和太平洋分支在分化后各自发生不同的进化过程,这与物种系统进化分析的结果基本一致。从鉴定出来的SNP结果来看,分别在达氏鳇、中华鲟、俄罗斯鲟、施氏鲟、闪光鲟、欧鳇、小体鲟中检测到23 972 516、33 230 741、44 171 485、34 268 694、15 713 058、12 458 254、7 410 054个SNP,这7个物种的SNP密度见
图6。四倍体鲟鱼中检测到的平均SNP频率(如欧鳇的0.006 8和闪光鲟的0.008 6)明显低于八倍体(如俄罗斯鲟的0.024、中华鲟的0.018和施氏鲟的0.019),表明在染色体多次加倍以后,基因组中由于不同亚基因组的存在,在染色体的同源区域中累积了大量SNPs。用SNPeff软件对变异区域的位置进行注释后显示,36.12%的变异位于基因组的内含子区域(Intron),12.19%的变异位于基因间隔区(Intergenetic),1.26%的变异在外显子区(Exon),38.50%的变异发生在不翻译的转录本区(Transcript),10.18%的变异位于基因的上下游区域,仅1.75%的变异发生在非翻译区域(UTR)以及其剪切位点区(Splicing sites)。从外显子区域发生变异的基因注释结果来看,这些基因主要参与了免疫调控、基因表达调控和细胞结构与信号传导等生物学过程,与发生快速膨胀基因家族的注释结果相似。说明这些变异的发生伴随着基因的扩张,而鲟鱼基因扩张的主要原因是基因组加倍,这从侧面反映了鲟鱼基因组的多倍化在基因进化过程中的关键作用。
3 讨论
3.1 鲟鱼基因组的结构反映了不同的适应性进化过程
本研究采用二代Illumina测序平台测序和组装了7种鲟鱼的基因组。在组装过程中,发现八倍体鲟鱼基因组平均大小为5 Gb,四倍体基因组平均大小为2.5 Gb,与流式细胞仪的测定结果相似。鲟鱼基因组具有较高的杂合度(0.37%~1.06%)和较高的GC含量(39.60%~42.01%)。鲟鱼的整体重复序列比例为27.90%~39.94%,7种鲟鱼的重复序列比例略低于先前已发表的鲟鱼基因组,与七鳃鳗(
Petromyzon marinus,39.1%)和象鲨(
Callorhinchus milii,42.7%)
[31]等原始鱼类相似。用二代测序组装的survey基因,含有大量碎小的片段(<500 bp),容易丢失较多的重复序列信息,并在基因组中引入较多的组装空隙,这也是组装后的基因组中重复序列的比例被低估的原因。此外,重复序列比例与基因组的倍性也成正比,四倍体的平均重复序列比例(31%)低于八倍体(36%)。除俄罗斯鲟外,其余6种鲟鱼转座子的比例模式也和已发表的鲟鱼基因组中的对应比例一致
[12,32],并且与一些其他古老的鱼类的重复序列分布相似
[33]。这些结果表明,作为“活化石”的鲟鱼与其他古老的鱼类具有相似的基因组组成。鲟亚科基因组中最丰富的DNA转座子家族是Tc1/Mariner超家族,平均有265 896个拷贝,占所有已识别DNA转座子的5.7%。Tc1/Mariner的高含量似乎与鲟鱼的洄游特性相关,这类转座子的高含量也在美洲鳗鲡(
Anguilla rostrata)和大西洋鲑(
Salmon salar)的基因组中被发现
[33]。
3.2 核基因组分析对于揭示复杂基因组的进化机制起着关键作用
依赖线粒体基因组或分子标记构建的物种系统进化树,对于亲缘关系接近的近缘物种,存在分辨率不足的问题。本研究从全基因组层面,利用更广泛的核基因组的同源基因重新构建了鲟形目物种系统发育树。在此过程中,针对多倍体物种几乎不存在单拷贝基因的情况,创新性地采用各个低拷贝基因家族构建了物种的进化树,提高了物种进化树构建的准确性,而这个进化树的拓扑结构与先前大部分的研究结果一致。鲟鱼起源于约3亿年前,约在1.55亿年前开始分化成两个分支——大西洋分支和太平洋分支。根据生物地理学分析的结果,这可能与晚三叠世到晚侏罗世(约1.5亿~2亿年前)古大西洋和古太平洋逐渐分离,鲟鱼迁移至太平洋地区
[34]有关。此外,来自我国北方的史前鲟鱼——潘氏北票鲟(Peipiaosteus)化石
[35]证实了鲟形目可能在1.3亿年前从里海地区传播到东亚,这可以作为分化时间的证据。鲟鱼基因家族的膨胀和收缩分析表明,基因家族的收缩多发生于四倍体鲟鱼中,这暗示着四倍体有区别于八倍体的再二倍化进程。对快速扩张的基因进行KEGG富集分析结果表明,这些基因与鱼类的免疫、生长代谢、生理功能和细胞信号转导等功能有关。
本研究中估算鲟科特有的第三轮全基因组复制事件发生在118~196 Ma前,这个As3R事件的时间与2亿年前第三次大规模生物灭绝事件(P-Tr)时间相近。然而,由于survey基因组数据还比较碎片化,本研究没有发现能够代表As4R发生的
Ks频率曲线峰值。Wang等
[26]通过计算编码基因和单一假基因中的
Ks值得到中华鲟As4R约发生在3 500万年前,这可能是由于发生时间距离现代较近,在我们的survey基因组中没能检测到足够的、近期发生的同义突变来估计As4R发生的时间。