叶绿体是植物和一些藻类执行光合作用功能的细胞器.由于其基因组结构相对保守、进化速率低,因而叶绿体基因组的研究在多领域具有广泛的应用,包括DNA条形码技术、系统发育分析
[1]、基因工程育种
[2]和生态进化
[3]等.密码子是氨基酸的编码单元,也是基因表达的基本单位
[4],同义密码子在基因组中的使用呈现不同的频率,这被称为密码子偏好性(PR2).密码子偏好性是基因表达的重要影响因素之一,直接影响蛋白质合成的效率和准确性.通过密码子偏好性分析,能够更全面地了解分子进化、基因调控等生物学过程,这对于研究物种演化和提高外源基因的表达具有重要意义
[5].如赵春丽等
[6]通过研究苋菜
AtGAI基因密码子偏好性,从而筛选该基因的受体系统.随着组学技术发展的日新月异,叶绿体基因组密码子偏好性研究成果出现井喷式报道,根据中国知网初步统计仅2023年中文期刊报道的研究就多达140篇,涉及73科119属442种.密码子的偏好性受多种因素的影响,包括基因长度、基因表达水平、翻译的起始信号、蛋白质氨基酸组成和结构、突变压力以及自然选择等
[7-10].进行密码子偏好性研究,不仅有助于揭示物种间适应性进化中的差异,理解蛋白质的合成,为更好地利用植物提供科学依据;而且有助于拓展密码子偏好性在植物叶绿体基因组中的普遍规律,在基因工程、育种和生态学研究等领域具有重要意义.
禾本科大麦属(
Hordeum Linn.)是地球上的主食谷物和粮食作物,常见的栽培品种主要有裸大麦和普通大麦两种,均由野生大麦驯化而成.作为重要的粮食作物,大麦属植物的基因组已完成测序、拼接和注释,但是目前未见关于其叶绿体基因组的密码子偏好性研究.普通大麦(
H. vulgare ssp.
vulgare)广泛种植于世界各地,作为野生大麦(
H. vulgare ssp.
spontaneum)的驯化品种,通常比野生大麦高大,穗子更紧密,颗粒较大,是世界上最重要的粮食作物之一
[11].裸大麦(
H. vulgare var.
coeleste)作为青藏高原地区常栽培的粮食经济作物,一年生,当前的研究聚焦于种质资源、病害防治
[12]、食品发酵加工
[13]、保健品开发
[14]等方面.本文对裸大麦、普通大麦和野生大麦叶绿体基因组密码子偏好性进行分析,将为研究3种大麦优化异源基因,预测基因功能、基因表达等方面提供参考.
1 材料与方法
1.1 蛋白编码序列获取
完整的裸大麦(KT962228)、普通大麦(EF115541)与野生大麦(KC912689)的叶绿体基因组序列从NCBI上下载获得,去除序列长度 < 300 bp、非ATG起始、非TAG,TAA,TGA终止的序列,以及蛋白编码序列(coding sequence,CDS)内部存在终止密码子的序列.最终分别获得50条裸大麦CDS序列、50条普通大麦CDS序列和53条野生大麦CDS序列用于后续分析.
1.2 密码子组成分析
参照李江飞等
[15]的分析方法,通过在线软件CUSP (
https://www.bioinformatics.nl/cgi - bin/emboss/cusp)计算每个基因的密码子数量、GC占比(分别为GC
1、GC
2、GC
3)及3位碱基的GC平均占比(GC
all)、有效密码子数(effective number of codon,ENC)、同义密码子相对使用度(relative synonymous codon usage,RSCU),并使用R包进行相关性分析.
1.3 密码子偏好性分析
通过中性绘图、ENC - plot和PR2 - plot开展叶绿体基因组密码子偏好性分析.中性绘图以GC
1和GC
2的平均值(GC
12)为纵坐标,以GC
3为横坐标,每个基因用一个散点表示
[16].在ENC - plot散点图中纵坐标为ENC值,横坐标为GC
3值,标准曲线的公式为ENC = 2 + GC
3 + 29/(GC
3 2 + (1 - GC
3)
2)
[17].分析研究得到密码子在第3位上的A、T、C、G占比,并通过PR2 - plot绘图,图中纵坐标为A
3 /(A
3 + T
3),横坐标为G
3/(G
3 + C
3).
1.4 最优密码子的确定
参考袁晓龙等
[18]实验方法,使用ENC值为参考,从两端各选择10%的基因构建高、低偏好性密码子库.ΔRSCU ≥ 0.08确定为高表达密码子,RSCU值 > 1确定为高频率密码子.最终,同时满足以上二者条件的密码子将被确定为最优密码子.
2 结果与分析
2.1 密码子组成特征分析
由
表1可知,3种大麦GC占比均为GC
1 > GC
2 > GC
3,且 < 0.5,GC
1平均占比分别为46.74%、46.80%和46.63%,GC
2平均占比为39.47%、39.43%和39.43%,GC
3平均占比为29.80%、29.75%和30.25%.ENC均值分别为47.14、47.02和47.75.裸大麦与普通大麦叶绿体基因组CDS区ENC值均为38.03(
psbA) ~ 60.25(
infA),野生大麦ENC值分别38.03(
psbA) ~ 60.81(
ycf15),
psbA基因展现出较强的密码子偏好性,而
infA基因其密码子偏好性不强.
对GC
1、GC
2、GC
3、GC
all及ENC值进行相关性分析(
表2)发现,3种大麦中,ENC值与GC
1、GC
all相关性不显著,与GC
3极显著相关,GC
all与GC
1、GC
2、GC
3极显著相关,GC
1和GC
2显著相关.在裸大麦与普通大麦中,ENC值与GC
2显著相关,GC
1与GC
2、GC
3相关性显著;在野生大麦中,ENC值与GC
2相关性不显著,GC
1仅与GC
2呈显著相关性.ENC值与3种大麦GC
3值均存在极显著相关性,且相关系数均大于0.5,表明密码子的选择受到其第3位碱基的组成的影响.
使用TBtools对叶绿体基因组密码子的RSCU值进行可视化分析发现,3种大麦有31个密码子的RSCU值 > 1(包括1个终止密码子 - UAA),13个密码子以A结尾,16个密码子以U结尾,其余2个分别以C/G结尾(
图1).其中编码亮氨酸(Leu)的密码子UUA其相对使用频率最大,在裸大麦和普通大麦中分别为2.091 0、2.093 4,在野生大麦中为2.063 4.且3种大麦均偏好使用UAA为终止密码子,RSCU值分别为1.620 0,1.620 0,1.471 8.同时,在3物种中,编码色氨酸(Trp)的密码子UGG并未出现偏倚,RSCU值均为1.
2.2 中性绘图分析
如
图2所示,3种大麦的GC
3值位于0.220 4 ~ 0.443 6之间,GC
12值位于0.350 7 ~ 0.534 8之间,裸大麦与普通大麦的CDS基因分布在图中基本重合,可知二者的GC占比非常接近,且二者的全部CDS基因均位于图中对角线上方;而野生大麦的CDS基因有一个位于图中对角线下方.中性分析回归系数分别为0.172、0.152和0.154,表明3种大麦的叶绿体基因组密码子偏好性主要受到自然选择的影响.
2.3 ENC - plot分析
ENC - plot的分析(
图3)结果表明,3种大麦分别有39、39和42个CDS基因ENC值 > 45,且大部分CDS基因位于标准曲线的附近的下方.ENC比值频数分布(
表3)显示,3种大麦中,分布在0.05 ~ 0.15之内的CDS基因均为31个,占比分别为62%、62%和58.5%,即大部分CDS基因距ENC期望值较远,表明绝大多数基因密码子的偏好性受到选择的影响更大,而受突变压力的影响较小.
2.4 PR2 - plot分析
PR2 - plot绘图分析结果如
图4所示,3种大麦各基因并未均匀分布在图中的4个区域内,且各CDS基因密码子第3位碱基的使用频率T > A,G < C.同样表明对造成3种大麦叶绿体基因组的密码子偏性,选择的影响较突变的影响更大.
2.5 最优密码子的筛选
裸大麦与普通大麦叶绿体基因组的CDS基因最优密码子筛选结果相同(
表4),ΔRSCU ≥ 0.08的密码子个数均为21个,RSCU > 1的密码子均为30个,最优密码子有16个,分别为GCA、GCU、AGA、CGU、GAU、UGU、GGU、AUU、UUA、AAA、CCA、CCU、AGU、UCU、ACU和GUU,全部密码子以A/U结尾.野生大麦叶绿体基因组,ΔRSCU ≥ 0.08的密码子个数为22个,RSCU > 1的为30个,最优密码子19个,分别为GCU、CGU、GAU、UGU、GGU、AUU、UUA、AAA、UUU、CCA、CCU、AGU、UCA、UCU、ACA、ACU、UAU、GUA和GUU,均以A/U结尾.最优密码子中,GCA和AGA为裸大麦与普通大麦特有,UUU、ACA、UAU、GUA和UCA为野生大麦特有.
3 讨论与结语
在物种长期的适应性进化过程中,编码蛋白基因的密码子往往会对特定的氨基酸产生选择性,被称为密码子的偏好性.本研究对裸大麦、普通大麦和野生大麦叶绿体基因组的密码子偏好性展开分析,3种大麦的CDS平均GC占比为GC1(46.63% ~ 46.80%)、GC2(39.43% ~ 39.46%)和GC3(29.75% ~ 30.25%),较低的GC
3也说明密码子更偏好以A/U结尾,最优密码子的结果印证了这一点.该结果与水稻
[19],小麦及棉花
[20]等叶绿体基因组密码子使用偏好性相似,这一定程度上表明叶绿体基因组在禾本科中比较保守,而且与高山松(
Pinus densata)
[21]、云南油杉(
Keteleeria evelyniana)
[22]等高等植物的叶绿体基因组碱基组成研究结果也一致,进一步支持Campbell和Gowri提出的“高等植物密码子倾向于使用A/T结尾的假设
[23].
3种大麦ENC均值分别为47.14、47.02和47.75,均大于45,说明各物种密码子偏好性较弱.筛选出的最优密码子均以A/U结尾,无C/G结尾.与Qi等
[24]提出的从低等植物到高等植物(藻类、苔藓植物、蕨类植物、裸子植物和种子植物)偏向NNA/NNU的密码子模式类似.此特点与黄芩(
Scutellari baicalensis)
[25]、滇重楼(
Paris polyphylla var.
yunnanensis)
[26]、金花茶(
Camellia nitidissima)
[27]等植物中叶绿体密码子偏好NNA/NNU结果一致,说明高等植物不同物种之间密码子使用特性存在着一定的相似性.中性绘图分析与ENC - plot分析均表明,3种大麦叶绿体基因组密码子的偏好性受到自然选择的影响作用更大.突变和正向选择通常导致最优密码子的多样性增加,而突变和纯化选择则会减少最优密码子的多样性
[28].野生大麦的叶绿体基因组最优密码子数量和类型均比栽培大麦多,表明野生大麦受到了更多的正向选择,这同样意味着在长期的驯化栽培过程中,栽培大麦在为了保持人类所需要的有益或稳定的性状,受到了更多的纯化选择.本文初步探究了禾本科3种大麦的密码子偏好性情况,为后续提高目的基因的表达效率,外源基因的优化以及相关的育种工程和遗传资源的开发提供参考.