胚胎发育晚期丰富蛋白(LEA)是种子发育后期大量积累的一类蛋白,广泛存在于植物中,当植物遇到低温、干旱、脱水等不利环境条件时,它们会迅速合成并积累,使其能够应对不利的环境,在各类非生物胁迫中发挥重要作用
[1]。1981年,DURE等
[2]在棉花中首次发现了LEA蛋白,并表明该蛋白在种子脱水和成熟过程中大量积累,保护种子免受伤害。LEA蛋白相继在多种植物中被发现,如拟南芥
[3]、玉米
[4]、小麦
[5]、水稻
[6]、番茄
[7]、甘蓝型油菜
[8]、葡萄
[9]等。根据氨基酸序列和保守基序的相似性,LEA蛋白分为8个亚家族:LEA_1、LEA_2、LEA_3、LEA_4、LEA_5、LEA_6、脱氢蛋白(DHN)和种子成熟蛋白(SMP)
[2]。
LEA蛋白具有高亲水性和结构无序性2个显著特征,高亲水性是由于LEA蛋白含有高度带电的氨基酸(如丙氨酸),富含甘氨酸、谷氨酸、赖氨酸和苏氨酸,但缺乏半胱氨酸和色氨酸残基。无序性是由于在自然条件下,LEA蛋白不能折叠为明确唯一的空间结构,但在一些干旱和极端温度下,LEA蛋白能具有稳定的三维结构。以上2种特征使LEA蛋白可以增加植物细胞的保水能力,在缺水期间也可以维持细胞功能
[10-12],从而提高植物细胞对多种非生物胁迫(干旱、高盐、渗透胁迫、低温、高温等)的耐受性。XIAO等
[13]对水稻
OsLEA3-1的抗旱性进行检测,发现过表达的
OsLEA3-1基因能显著提高水稻的耐旱性。LIU等
[14]在对玉米
ZmLEA3进行低温和渗透胁迫以及脱落酸(ABA)和H
2O
2处理后,发现ZmLEA3蛋白在低温下可以保护乳酸脱氢酶(LDH)的活性。SHI等
[15]通过对苜蓿
MfLEA3的研究发现,
MfLEA3的组成性表达增强了转基因烟草对寒冷、干旱和强光胁迫的耐受性。刘浩
[5]通过对苗期小麦进行PEG6000和低温胁迫处理的研究发现,
TaLEA_3-3、
TaLEA_4-1、
TaLEA_6-2和
TaDHN43能够显著提高大肠杆菌和酵母细胞对高盐和高温胁迫的耐受性。
谷子(
Setaria italica)广泛种植于我国北方干旱和半干旱地区,籽粒富含蛋白质、维生素等营养物质,有抗逆性、适应性强等特点,是重要的杂粮作物。谷子作为C
4植物,其CO
2同化率、光合效率、生物量、产量和光合利用效率均优于C
3植物,此外,谷子还具有很强的非生物抗逆性,所以,谷子常被用作胁迫生物学研究的重要模式种
[16-18]。谷子基因组测序的完成,有助于推动谷子在功能基因组学方面的研究
[19]。然而,目前谷子
LEA基因家族全基因组的鉴定和表达分析还未见报道。
为挖掘谷子LEA基因的特征与功能,本研究对谷子的LEA基因家族进行成员鉴定,并对SiLEAs基因和其编码蛋白进行生物信息学分析,包括预测亚细胞定位、基因结构、顺式调控元件、共线性、基因表达模式等,旨在为谷子生长发育和逆境响应分析提供一定的理论依据。
1 材料和方法
1.1 谷子LEAs基因家族成员鉴定和蛋白理化性质分析
从谷子综合数据库
Setaria-DB
[20](
http://www.setariadb.com/millet)获取豫谷1号(YG1)基因组序列。从TAIR(
https://www.arabidopsis.org/)数据库中获取51条拟南芥LEAs家族蛋白序列
[3],通过Blast方法对谷子
LEA基因家族成员进行鉴定。同时,从Pfam数据库(
http://pfam.xfam.org/)中下载LEA蛋白的隐马尔可夫模型(Hidden Markov Model,HMM):DHN(PF00257)、LEA_1(PF03760)、LEA_2(PF03168)、LEA_3(PF03242)、LEA_4(PF02987)、LEA_5(PF00477)、LEA_6(PF10714)和SMP(PF04927),并利用TBtools软件
[21](版本:1.118)中的Two Sequence Files和Simple HMM Search功能,在谷子基因组序列中进行筛选。将2种方法得到的候选基因在Pfam(
http://pfam-legacy.xfam.or g/)、SMART(
http://smart.embl-heidelberg.de/#)和NCBI CDD database(
https://www.ncbi.nlm.nih.gov/St ructure/cdd/wrpsb.cgi)数据库进行结构域确认。通过Prot Param工具(
http://web.expasy.org/protparam/)分析SiLEAs蛋白的生理生化参数,使用WoLF PSORT工具(
https://wolfpsort.hgc.jp/)预测SiLEAs蛋白的亚细胞定位。
1.2 谷子LEAs基因的系统发育树、基因结构及保守基序分析
使用MEGA11
[22]中Neighbor-Joining(NJ)方法生成系统进化树,Bootstrap重复值设为1 000,使用iTOL(
https://itol.embl.de/)在线工具对生成的系统进化树进行美化。使用TBtools软件对谷子
LEAs基因的保守基序和基因结构进行鉴定,搜索Motif的数量为20个。最后使用TBtools软件对保守基序和基因结构可视化分析。
1.3 谷子LEAs基因的顺式调控元件分析
利用TBtools软件获取
SiLEAs基因起始密码子上游2 000 bp的序列,然后将序列提交至Plant CARE(
http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)。软件预测
SiLEAs基因上游2 000 bp的顺式调控元件,最后使用TBtools软件对结果进行可视化处理。
1.4 谷子LEAs基因的染色体分布和共线性分析
利用TBtools软件进行谷子
LEAs基因染色体位置分析,基因密度设置为1 000 000,并使用TBtools软件可视化。利用TBtools软件获取染色体长度、基因密度和共线性文件,共线性文件采用默认值,使用TBtools软件中Advanced Circos功能实现谷子
LEAs基因家族物种内共线性可视化。通过Ensembl(
https://plants.ensembl.org/index.html)下载大豆、水稻、玉米的DNA以及Gff注释文件,TAIR数据库中获取51条拟南芥LEAs家族的蛋白序列
[3]。利用TBtools软件获得谷子与拟南芥、大豆、水稻、玉米的共线性文件,得到谷子与水稻、玉米、大豆、拟南芥的共线基因对。
1.5 谷子LEAs基因的编码蛋白互作和基因表达模式分析
利用STRING(
https://string-db.org/)的Proteins by sequences对谷子
LEAs基因家族成员进行蛋白互作分析。根据下载的豫谷1号转录组数据
[23],选取萌发种子、灌浆种子、成熟种子及苗期、抽穗期、孕穗期的根、茎、叶及开花期的转录组数据,对谷子
LEAs基因表达模式进行分析,并使用TBtools软件可视化。
2 结果与分析
2.1 谷子中 LEAs基因家族成员鉴定和蛋白理化性质分析
通过Blast和HMM这2种方法,从谷子基因组中共鉴定出33个LEAs蛋白。根据蛋白的保守结构域和Pfam命名法,将SiLEAs蛋白划分为7个亚家族,分别为LEA_1、LEA_2、LEA_3、LEA_5、LEA_6、SMP和DHN,其中,LEA_3亚家族最多,共有8个成员(
表1)。
由
表1可知,DHN、SMP和LEA_1亚家族成员分别有6、6、5个。LEA_2亚家族成员有4个,LEA_5亚家族成员有3个,LEA_6亚家族成员只有1个。在谷子中未检测到LEA_4亚家族。预测的33个SiLEAs蛋白编码氨基酸数量在78~347个,预测分子质量范围为7.69~36.74 ku,等电点(pI)范围为4.63~10.13,平均值为7.39。17个SiLEAs蛋白的pI值小于7,表明它们是酸性蛋白,而其余的SiLEAs蛋白的pI值均大于7,表明它们是碱性蛋白。SiLEAs蛋白的总平均亲水系数(GRVAY)范围为-1.38~0。在SiLEAs蛋白中97%的SiLEAs蛋白的总平均亲水系数小于0,表明大多数SiLEAs蛋白具有亲水性。亚细胞定位预测显示,亚家族SMP的全部成员、LEA_2的3个成员(SiLEA2-1、SiLEA2-3、SiLEA2-4)、LEA_1的1个成员(SiLEA1-1)定位在细胞质。位置在细胞核内的有LEA_6亚家族的全部成员、DNH亚家族的5个成员(SiDHN-1、SiDHN-2、SiDHN-3、SiDHN-5、SiDHN-6)、LEA_1亚家族的2个成员(SiLEA1-3、SiLEA1-4)、LEA_2亚家族的1个成员(SiLEA2-2)和LEA_5亚家族的2个成员(SiLEA5-1、SiLEA5-2)。LEA_3的全部成员位于叶绿体内,DHN亚家族的SiDHN-4位于叶绿体内。在线粒体中有LEA_1亚家族的2位成员(SiLEA1-2、SiLEA1-5)和LEA_5亚家族的SiLEA5-3。
对谷子
LEAs基因家族成员进行染色体定位分析发现(
图1),33个成员在9条染色体上均有分布且呈不均匀分布状态,
SiLEAs基因大部分位于5号染色体上,包含有8个
SiLEAs基因,3号染色体含有5个
SiLEAs基因,7号染色体仅含有2个
SiLEAs基因。1号、2号、4号、6号、8号、9号染色体各含有3个
SiLEAs基因。
2.2 谷子LEAs基因的系统发育树分析
为了进一步研究SiLEAs蛋白的系统发育关系,本研究利用33个SiLEAs、51个AtLEAs
[3]、52个ZmLEAs
[4]、179个TaLEAs
[5]和35个SbLEAs
[24]的蛋白序列构建LEA蛋白不同亚家族系统发育树(
图2)。不同亚家族均分为3组,根据其亚家族不同分别定义为Ⅰ群、Ⅱ群和Ⅲ群。LEA_1亚家族中LEA_1-Ⅰ包含2个成员,LEA_1-Ⅲ包含3个成员;LEA_2亚家族的全部成员分布在LEA_2-Ⅲ组;LEA_3亚家族中LEA_3-Ⅰ包含6个成员,LEA_3-Ⅲ包含2个成员;LEA_5亚家族的3个成员分别分布在3个组中;LEA_6亚家族中SiLEA6-1分布在LEA_6-Ⅲ;SMP亚家族中SMP-Ⅰ包含4个成员,SMP-Ⅲ中包含2个成员;DHN亚家族中DHN-Ⅰ包含5个成员,DHN-Ⅲ中包含1个成员。
2.3 谷子LEAs基因的保守基序、保守结构域和基因结构分析
分析保守基序、保守结构域和外显子-内含子结构的分布,探索
SiLEAs基因的结构多样性,共鉴定出20个保守基序(Motif 1~Motif 20)(
图3-A、B)。同一亚家族含有的Motif相似。在LEA_3亚家族中,只有
SiLEA3-1不含Motif 2,但其含有Motif 15。
SiLEA3-5除包含Motif 2之外,还包含Motif 15。SMP亚家族成员中
SiSMP-1、
SiSMP-2、
SiSMP-3、
SiSMP-5、
SiSMP-6都含有Motif 8与Motif 6,而
SiSMP-4只含有Motif 8
。SiSMP-1和
SiSMP-2还含有Motif 13与Motif 20。
SiSMP-3、
SiSMP-4、
SiSMP-5、
SiSMP-6还含有Motif 7、Motif 9、Motif17、Motif 18。LEA_6与LEA_1亚家族成员不包括任何Motif。DHN亚家族成员都含有Motif 4。在DHN亚家族中,除
SiDHN-1之外,其他成员还含有Motif 1和Motif 16。LEA_5亚家族的成员都含有Motif 12。
SiLEA5-1和
SiLEA5-2还含有Motif 8和Motif 19。LEA_2亚家族成员都含有Motif 11、Motif 5和Motif 3,成员
SiLEA2-1还含有Motif 8和Motif 19。以上结果表明,不同亚家族的成员结构差异很大,说明
LEA基因功能的复杂性和群体特异性。虽然在各亚家族中Motif类型存在差异,但同一组成员往往表现出相似的基序模式,表明它们之间的功能相似性。33个
SiLEAs基因的外显子数目不同,1~4个不等(
图3-C)。其中,有17个
SiLEAs基因中含有1个内含子,13个
SiLEAs基因中不含有内含子,
SiSMP-4和
SiSMP-6含有2个内含子,只有
SiDHN-4含有3个内含子。
2.4 谷子LEAs基因的顺式调控元件分析
进一步对33个
SiLEAs基因启动子区域(起始密码上游2 000 bp)的顺式调控元件进行分析,结果表明,顺式调控元件主要分为3类,即激素响应类元件、胁迫响应类元件和植物生长发育类元件。谷子
SiLEAs基因成员中包括5类激素响应元件,主要有脱落酸(ABA)、生长素(IAA)、赤霉素(GA)、茉莉酸甲酯(MeJA)和水杨酸(SA)(
图4)。
由
图4可知,几乎所有的
SiLEAs基因在启动子区都发现了光响应元件(G-box元件,33个成员)、脱落酸响应元件(ABRE元件,32个成员)、茉莉酸甲酯(MeJA)响应元件(CGTCA-motif和TGACG-motif元件,29个成员)。26个
SiLEAs基因成员的启动子区含有3~4个激素响应元件。
SiLEA1-1、
SiLEA2-3、
SiLEA2-4、
SiLEA3-4、
SiLEA5-1、
SiSMP-3、和
SiSMP-5成员包含5个激素响应元件。在5个激素响应元件中,脱落酸(ABA)响应元件数量最多,其次是茉莉酸甲酯(MeJA)响应元件、赤霉素(GA)响应元件。除激素响应元件之外,
SiLEAs基因中胁迫响应元件和植物生长发育元件包括:玉米蛋白代谢调控(O
2-site)元件、MYB结合位点(MBS和MER)元件、低温响应(LTR)元件、胚乳表达(GCN4_motif)元件、分生组织表达(CAT-box)元件、种子特异性调控(RY-element)元件。
SiLEA3-3不含有任何胁迫和植物生长发育因子的元件。含有MYB结合位点(MBS)元件基因数量最多,其次是分生组织表达(CAT-box)元件、低温响应(LTR)元件和玉米蛋白代谢调控(O
2-site)元件。
SiLEAs基因可能参与了激素响应过程。此外,一些顺式元件可能在发育过程中调控不同组织(种子、胚乳、分生组织)的表达。这些结果表明,
SiLEAs基因不仅参与植物生长发育过程,还可能响应各种非生物胁迫。
2.5 谷子LEAs基因的共线性分析
为研究
SiLEAs基因的重复基因和共线关系,本研究对
SiLEAs基因进行了物种内共线性分析(
图5),对谷子与其他5个代表性作物(3个单子叶作物:玉米、高粱、水稻;2个双子叶作物:拟南芥、大豆)物种间进行共线性分析(
图6)。结果表明,在
SiLEAs中发现了3对片段重复基因(
SiLEA1-4与
SiLEA1-1、
SiLEA2-4与
SiLEA2-2和
SiLEA3-3与
SiLEA3-2)。这些共线基因分布在第2、3、5、6号染色体上(
图1),3对片段重复基因分别属于同一亚家族,这表明染色体片段在进化过程中可能发生了复制事件,并未完全分化,在功能上可能会存在冗余性。在共线关系中,总共发现有25个
SiLEAs基因与拟南芥(1对)、玉米(17对)、大豆(10对)、水稻(22对)和高粱(24对)存在共线基因对。共线性图谱显示,
SiLEAs与高粱共线性最高,其次是水稻、玉米、大豆和拟南芥。进一步研究发现,一些
SiLEAs基因被发现存在于5个物种的多个共线基因对中,例如,
SiSMP-5与
Zm00001eb057120_T001/
Os03t0747400-00/
AT3G22490.1/
KRH32031/
KRG91319/
EER90879,表明这些共线基因可能在祖先分化之前就已经存在。此外,部分
SiLEAs基因(7个基因:
SiDHN-1、
SiLEA2-1、
SiLEA2-4、
SiLEA3-2、
SiLEA3-3、
SiLEA3-5、
SiLEA6-1)仅与玉米、高粱和水稻(单子叶植物)存在共线性,且谷子与单子叶植物共线性的基因数量远高于双子叶植物的基因数量,表明单子叶植物之间具有更亲密的亲缘关系。
2.6 谷子LEAs基因的编码蛋白互作分析
为更好了解SiLEAs蛋白之间的关联,本研究对SiLEAs的编码蛋白进行蛋白互作分析(
图7),结果显示,SiLEAs中有16个蛋白(48%)存在互作关系,共分为2组。Ⅰ组包括13个SiLEAs蛋白(SiSMP-1、SiSMP-2、SiDHN-2、SiDHN-3、SiDHN-4、SiDHN-6、SiLEA3-3、SiLEA3-4、SiLEA1-1、SiLEA1-2、SiLEA1-4、SiLEA5-2),Ⅱ组包括3个SiLEAs蛋白(SiLEA2-3、SiLEA2-2、SiLSMP-5)。从分组中可以看出,Ⅰ组中包含SMP、DHN、LEA_6、LEA_3、LEA_1和LEA_5这6个亚家族,Ⅱ组中包含SMP和LEA_2这2个亚家族。表明同一分组中的亚家族可能在谷子生长发育过程中某阶段发挥同一作用。
2.7 谷子LEAs基因的器官表达模式分析
为了确定
SiLEAs在谷子各组织中的表达模式,本研究分析了
SiLEAs在豫谷1号不同组织中的表达情况(
图8)。
从
图8可以看出,
SiLEAs在不同时期不同组织中的表达模式主要分为3组。Ⅰ组在谷子整个发育阶段均有较高表达,
SiLEA3-6、
SiLEA3-7、
SiDHN-4、
SiDHN-1和
SiLEA3-8在根、茎、叶、开花前和开花后7 d中高表达,说明这5个基因在谷子根、茎、叶和开花的生长发育过程中发挥重要作用。Ⅱ组在种子和花中有较高表达,尤其是在成熟种子中,表明在种子成熟时可能发挥一定的作用。Ⅲ组中,
SiLEA2-1和
SiLEA3-2在开花后7 d有较高表达,说明这2个基因可能在开花过程中有一定作用。
SiLEA3-3在发育中的叶中特异性高表达,可能与叶的发育有关。不同的表达模式表明,
SiLEAs在谷子生长发育过程中不同阶段可能发挥不同的作用。
3 结论与讨论
本研究对谷子
LEA基因家族成员进行了鉴定和生物信息学分析,共鉴定了33个
SiLEAs基因,分为7个亚家族。拟南芥
LEA基因含有51个基因,分为9个亚家族
[3],水稻
LEA基因含有34个基因,分为7个亚家族
[6],谷子中基因数目介于拟南芥和水稻之间,亚家族数目与水稻相同。这种现象的发生可能是由基因组和环境变化所导致。根据SiLEAs蛋白的亲水性平均值(GRAVY),本研究表明,大多数SiLEAs蛋白都是亲水性的。这与许多植物中鉴定出的LEA蛋白特性相似。
基因结构分析表明,在鉴定的33个
SiLEAs基因中,大部分成员(约90.9%)含有1个内含子或不含内含子,这与其他植物中已报道的
LEA基因的基因结构一致。例如,小麦中约60%的
LEAs基因缺乏内含子,而拟南芥中超过1/2的
LEAs基因每个成员仅包含1个内含子
[25]。从植物体胁迫反应的角度来看,较少的内含子结构减少了防御胁迫从转录到翻译的时间,降低了能量消耗的成本,有利于植物对不利环境条件引起的刺激做出快速反应
[26]。这也说明了大多数的
SiLEAs含有0~1个内含子,在非生物胁迫下能被迅速、强烈地诱导或抑制。此外,在同一亚家族中,不仅具有相似的基因结构和保守基序,在亚细胞定位方面也具有相似的结果。这些发现表明,
SiLEAs属于同一亚家族的成员可能在谷子生长发育过程中发挥相似的作用。在
SiLEAs基因与拟南芥、玉米、小麦、高粱的
LEA基因亚家族的系统发育树中可以看出,谷子、拟南芥、玉米、小麦和高粱的
LEAs基因成员在各亚家族的类群中分布较均匀,表明其起源可能出现在单子叶植物和双子叶植物分化之前
[3,6]。
对顺式元件结果分析,发现在SiLEAs基因中含有各种激素响应类元件、逆境响应元件和生长发育响应元件。其中,全部的SiLEAs基因成员都含有激素响应元件,32个SilEAs基因成员含有逆境响应元件和生长发育响应元件。表明SiLEAs基因成员可能在非生物胁迫过程中发挥重要作用并具有复杂的调节机制。已有研究表明,这些顺式作用元件对于基因响应相应的外界胁迫具有重要的作用。顺式作用元件的存在以及数量的多少对分析基因能否响应相关胁迫具有一定的参考价值,为进一步研究谷子LEA基因调控谷子生长发育与逆境响应的分子机制提供一定的理论基础。
对
SiLEAs基因在谷子的根、茎、叶和花中的表达模式进行研究,70%的
SiLEAs基因在成熟种子中表达相对较高。这与
LEA基因在种子发育晚期积累的特性一致
[27]。6个LEA_3(
SiLEA3-1、
SiLEA3-3、
SiLEA3-5、
SiLEA3-6、
SiLEA3-7和
SiLEA3-8)和4个DHN(
SiDHN-1、
SiDHN-2、
SiDHN-3和
SiDHN-4)亚家族基因成员在根中表达相对较高,LEA_1亚家族的全部成员和大部分SMP(5个基因:
SiSMP-1、
SiSMP-2、
SiSMP-3、
SiSMP-5和
SiSMP-6)亚家族成员在花中表达较高。推测LEA_3和DHN亚家族在谷子根部生长期间起到一定作用,LEA_1和SMP亚家族在开花期发挥一定作用。此外,
SiLEA3-6、
SiLEA3-7、
SiDHN-4、
SiDHN-1和
SiLEA3-8在谷子生长发育中5个期间表达量较高,并且其含有分生组织表达(CAT-box)元件或玉米蛋白代谢调控(O
2-site)元件或种子特异性调控(RY-element)元件,推测这5个基因可能在谷子生长发育中发挥重要作用,在接下来的研究中,可以进一步研究和挖掘其生物学功能。这些结果初步表明,谷子
LEA基因家族成员可能参与了植物种子的生长发育及对胁迫的响应等多种生理功能,从而使该家族的基因表达呈现多种模式。然而,
SiLEAs基因在谷子生长发育与胁迫过程中发挥的具体功能及机制还需要通过试验进行全面系统验证。