随着2000年世界上第一个测序完成的模式植物——拟南芥(
Arabidopsis thaliana)全基因组序列的公布
[1],推动了基于基因组学、分子生物学等相关技术开展的植物生长发育、抗逆、抗病、养分利用等大量的模式植物功能基因组学研究
[2],同时也极大地促进了作物科学领域的发展,其中水稻(
Oryza sativa)基因组学研究最为深入,2002年水稻基因组测序完成
[3],利用多组学、全基因组关联研究揭示了水稻养分利用、生物和非生物响应、生殖发育等重要分子机制,同时高通量表型平台、精确基因组编辑工具等新技术也广泛应用于水稻研究
[4]。随着相关技术的逐渐成熟,基因组学研究在多种主粮和杂粮作物中迅速发展。
谷子(
Setaria italica)起源于我国,是最早完成基因组测序的杂粮作物
[5]。谷子基因组较小,且生育期短,具备模式植物的特点。同时,谷子作为C4植物,可以用于揭示C4植物高光效、抗逆耐瘠薄的特殊机理
[6]。近年来,我国科学家利用EMS诱变获得了株高和生育期与拟南芥极为接近的“模式化”谷子——
xiaomi[7],同时,基于110份谷子种质的高质量泛基因组的完成
[8],为推动谷子成为C4模式植物、深入开展基因组学研究奠定了坚实的基础。本文概述了自谷子基因组测序研究工作开展以来,国内外科学家围绕谷子开展的功能基因组学研究,包括谷子基因组的情况,以及利用谷子基因组开展的遗传转化体系的开发,调控特色营养物质积累和抗逆性调控等重要功能基因的发掘工作,这既是对谷子分子水平研究的一次梳理,也是对谷子功能基因组学研究的未来研究方向的一次展望。
1 谷子全基因组测序历史与现状
华大基因与河北张家口市农业科学院等单位的科研人员于2012年利用全基因组鸟枪法结合二代测序技术对中国北方广泛种植的谷子品系“张谷”进行了全基因组测序和组装,获得了大小约为423 Mb(Contig N50为25.4 kb,Scaffold N50为1.0 Mb)的谷子全基因组序列图谱
[5]。通过基因组注释和分析发现,重复序列约占整个基因组的46%,大约含有38 801个蛋白质编码基因,其中有81%可以被表达。研究人员通过谷子、水稻和高粱之间的共线性分析鉴定到了关键的染色体重组事件,明确了谷子9条染色体是在3次染色体重组事件后形成的(在谷子和水稻分化后2次,谷子的2号和9号染色体分别由水稻的7号和9号,3号和10号染色体融合而成;在谷子和高粱分化后一次:谷子的3号染色体由水稻的5号和12号染色体融合而成),为禾本科的进化提供了见解。此外,研究人员使用Illumina GA II平台对谷子光热敏的雄性不育系“A2”进行了10×深度的重测序,并利用“张谷”和“A2”的F
2群体绘制了高密度的遗传图谱,将该图谱与谷子基因组序列及后代表型等信息相结合定位到了一个谷子抗除草剂相关基因。
美国国家能源部所属联合基因组研究所的科研人员采用全基因组鸟枪法结合一代测序技术(Sanger测序法)对谷子品种豫谷1号进行了全基因组测序和组装,并与上述“张谷”基因组序列在同一期刊同时发表相关论文。他们获得了大小约为400 Mb(Contig N50为126.3 kb,Scaffold N50为47.3 Mb)的谷子参考基因组
[9],覆盖了谷子近80%的基因组,超过95%的基因区域。为促进基因表达分析,利用不同组织、不同发育时期的豫谷1号的mRNA序列生成了超过130万个表达序列标签(EST)文库和超过5.8亿个RNA-Seq reads。同时,该研究还使用Illumina GA II平台对谷子的野生近缘种狗尾草A10进行了重测序,利用谷子自交系B100和狗尾草A10杂交后代构建了重组自交系(RIL)群体,该RIL群体具有992个SNP标记。该研究确定了差异单核苷酸多态性密度、转座子分布、小RNA含量、染色体重排和偏分离区域,通过比较5个已测序的禾本科植物基因组,研究了狗尾草属的广泛适应性的遗传基础。
美国唐纳德丹佛斯植物科学中心研究人员于2020年使用PacBio和Illumina HISeq测序平台更新了狗尾草A10.1的参考基因组,完成了端粒到端粒的染色体组装,获得了大小为395.1 Mb的高质量参考基因组(2.0版本)
[10]。2.0版本的狗尾草参考基因组的组装质量更高,Contig N50为11.2 Mb,在9条染色体上基因组组装的完整性为99.95%,共注释得到38 334个编码蛋白基因和14 125个可供选择的转录本。此外,该团队基于二代测序使用Illumina 2×150PE文库从头组装了598份狗尾草高质量基因组,构建了狗尾草泛基因组数据库,进一步利用高质量基因组、泛基因组鉴定到一个调控狗尾草种子落粒性基因
Sh1并通过CRISPR-Cas9基因编辑技术对其功能进行验证,同时也证实了该基因在谷子中也是影响落粒性的关键位点。
同年,山西农业大学杂粮分子育种团队对名优谷子品种晋谷21号EMS诱变获得的超早熟谷子突变体
xiaomi构建了功能基因组学研究体系。利用PacBio平台和二代、三代基因测序技术对
xiaomi进行了基因组测序和组装,获得了大小为429.94 Mb(Contig N50高达18.8 Mb,Scaffold N50为42.41 Mb)的高质量参考基因组
[7]。
xiaomi基因组序列中重复序列约占55.19%,根据从头预测、同源基因预测以及Iso-seq和RNA-seq分析结果,共注释到33 789个蛋白质编码基因。
xiaomi基因组仅包含48个Gap且组装的错误率约为0.001%,在覆盖率、Contig N50等方面的表现均优于张谷、豫谷1号参考基因组。此外,该研究对迷你谷子
xiaomi不同发育阶段的11个组织进行了转录组测序,结合高质量参考基因组,构建了首个谷子全生育期动态基因表达图谱和谷子多组学数据库,不仅促进了谷子功能基因组学的研究,还使得
xiaomi成为C4植物功能研究的理想模型系统。
中国农业科学院作物科学研究所特色农作物优异种质资源发掘与创新利用团队于2023年建立了首个谷子图形结构泛基因组,在此基础上鉴定了多个关键基因,展示了泛基因组无与伦比的优势
[8]。他们从1 844份不同亚组、区域和生态型的谷子和狗尾草品系中选取了35个谷子野生种、40个农家品种和35个现代育成品种。利用PacBio、Illumina和Bionano测序技术从头组装(
de novo assembly)代表谷子和青狗尾草最广泛的多样性的110份核心参考水平基因组。核心种质包含了对谷子育种或研究作出重大贡献的种质,如选育骨干亲本(60日和矮88)、高食用和蒸煮品质品种(晋谷21号和黄金苗)、强耐旱性品种(中谷2号)、广泛的气候适应性品种(豫谷18号),以及易于遗传转化用于基因功能分析的材料(Ci846),这些材料涵盖了株型结构、穗形和产量等性状多样性。这些材料包含了1 844份狗尾草属中85%以上的单核苷酸多态性(SNP)变异。谷子泛基因组中包含73 528个基因家族的全基因组。通过整合112份谷子和青狗尾草泛基因组中的107 151个插入、76 915个缺失和363个倒位变异,并将其整合到豫谷1号参考基因组序列中,构建了首个C4作物的泛基因组。泛基因组为探索谷子群体进化、驯化与改良、功能基因组学和广泛的适应性等基础研究,及其农艺学应用方面提供了推动力。利用泛基因组,鉴定了4 582个与驯化相关、152个与育种改良相关的结构变异,同时共鉴定出680个在驯化改良过程中被持续选择的基因;鉴定出有关落粒基因
Sh1(855 bp的缺失)和籽粒大小基因
SiGW3(366 bp的缺失)等多个结构变异基因;确定了共1 084个与表型显著相关的位点。泛基因组为未来的谷子分子育种提供了新平台,同时也为其他杂粮作物精准育种选择奠定了理论基础。
2 谷子转化体系的构建
谷子是C4作物,且基因组小、抗逆性强,具有成为禾本科功能基因组学模式作物的潜力,因此,近年来关于其转化体系的研究得到了广泛关注。
谷子遗传转化方法包括基因枪法、农杆菌介导法、PEG介导法、超声波介导法、花粉管通道法、子房注射法、基因编辑技术等。基于狗尾草愈伤诱导的成功,近些年来农杆菌介导法被应用于谷子的遗传转化相关研究。早在20世纪70年代日本学者就开始了谷子的组培研究,后续各国学者在此基础上进行了更为深入的研究。2007年中国农业大学LIU等
[11]探究了多种影响谷子遗传转化效率的因素,并确定了最优的转化条件,为农杆菌侵染愈伤组织的转化系统打下了基础。2020年山西农业大学YANG等
[7]以迷你谷子突变体
xiaomi开发了高效的农杆菌介导的谷子遗传转化方案,由于其生命周期短、植株小,与拟南芥相似,一年可以在培养室中生长5~6代,更有利于谷子功能基因组学的研究
[7]。2020年PRIYANKA等
[12]优化了谷子简单有效的再生和转化方案,同年,SANTOS等
[13]利用成熟干燥的种子作为外植体进行农杆菌转化,大大提高了转化率和再生率。大大提高了转化率和再生率。2021年杨澜等
[14]利用基于农杆菌介导的CRISPR/Cas9系统转化谷子,胞嘧啶和腺嘌呤碱基编辑系统进行单、多基因敲除和单碱基替换,创造了一种纯合抗除草剂种质。除愈伤组织外,2021年杨澜等
[14]还建立了稳定的谷子体外茎尖遗传转化体系。
青狗尾草是谷子的近缘野生种,二者核型基本相同、基因组大小相近,是研究谷子驯化、发掘基因资源的重要材料。2016年SAHA等
[15]通过蘸穗法将目的基因成功整合到狗尾草基因组中,且在后代中成功表达。随后,2017年赵辉等
[16]通过高效胚性愈伤诱导技术,大大提高了狗尾草的转化效率。
谷子和狗尾草转化体系的建立为谷子功能基因组学研究和遗传改良奠定了基础。
3 基于谷子全基因组序列发掘基因资源
3.1 基于参考基因组,利用转录组探究谷子基因表达模式与调控机制
随着谷子参考基因组的公布发表,谷子重要性状相关基因表达模式和调控机制的研究成果呈“井喷”式增长。当前转录组分析主要聚焦在谷子非生物和生物胁迫、穗发育、初级代谢和次生代谢物等机制解析方面。尤其在转录因子家族成员鉴定及表达模式方面已有大量的研究文献。在谷子基因组中,鉴定出147个NAC、122个C2H2类锌指蛋白、225个WD40蛋白、209个MYB、171个AP/ERF、35个Dof、47个HD-zip、72个MADS-box、39个NF-Y及37个CCT,不同非生物胁迫(干旱、盐、冷等)和激素(水杨酸、脱落酸、茉莉酸甲酯、乙烯等)处理条件下,上述转录因子家族成员多样性的表达模式暗示了潜在的生物学功能分化,从中鉴定到一系列胁迫响应特异的候选基因,如
SiNAC128、
SiAP2/ERF-
069、
SiAP2/ERF-
103、
SiAP2/ERF-
120、
SiNF-
YA1、
SiNF-
YB8和
SiMADS51等
[17-26]。谷子在低氮胁迫下,利用转录组分析找到75个差异表达的转录因子,其中
SiMYB3基因能够调控下游生长素合成相关基因
TAR2表达,进而促进根系发育
[27]。结合干旱胁迫的时序动态转录组分析,鉴定出13 294个响应干旱胁迫基因,包括842个昼夜节律基因,初步解析了干旱胁迫与昼夜节律交叉调控谷子发育的分子机制
[28]。谷子籽粒灌浆期动态转录组揭示了11 399个差异表达基因,包括902个转录因子,涉及到淀粉合成、细胞壁活性、激素信号转导及多胺代谢途径
[29]。此外,涉及到非生物胁迫响应的73个谷子谷胱甘肽转移酶及331个细胞色素P450单加氧酶基因家族成员,也通过全基因组生物信息学及转录组分析,分别鉴定出37个组织特异性表达和21个响应非生物胁迫的谷胱甘肽转移酶基因家族成员,以及6个细胞色素P450单加氧酶基因表达水平响应不同的除草剂处理(硝磺草酮、双氟磺草胺、烟嘧磺隆、氟草定及拿普净)
[30-31]。丛枝菌根真菌定植显著增强谷子籽粒产量,比较转录组分析揭示了超过2 000个基因受到丛枝菌根真菌的诱导响应,GO富集分析表明大部分基因富集在氮同化和转运、细胞壁重组和木质化途径
[32]。低单宁谷子品种可以吸引红蜘蛛取食,从而保护板栗树免受虫害,比较转录组揭示了335个共有的差异表达基因,KEGG
[33]富集发现
PTAL、
CCR及
POX基因涉及到苯丙烷类合成途径的单宁生物合成分支途径,此外,预测了20个转录因子,包括bHLH、WRKY、FAR1、ERF、C2H2等参与调控单宁生物合成。板栗树与谷子套种系统有效地提高园林土地利用率及增加其产量和品质,遮荫条件下不同基因型谷子转录组分析鉴定出9个差异表达基因,功能注释为
HSP70-
8、
HsfA2、
SPDS、
SPMS等基因涉及光系统和热胁迫响应途径
[34]。谷子紫叶基因型具有较高的胁迫容忍性,比较转录组分析,鉴定出9个差异表达基因与花青素合成相关,可作为分子育种的潜在功能标记
[35]。在黄米和白米谷子品种穗发育阶段,基于比较转录组和类胡萝卜素靶向代谢组联合分析,构建了基因共表达网络,鉴定出54个类胡萝卜素代谢途径相关基因及3个转录因子协同调节类胡萝卜素代谢流
[36]。联合脂质组和转录组分析,鉴定出2 633个脂质分子,归属于13种甘油磷脂、11种甘油糖脂、4种鞘脂类及脂肪酰和甾醇类,同时鉴定出9个差异表达基因与甘油二脂代谢途径相关
[37];谷子籽粒不饱和脂肪酸含量远大于饱和脂肪酸含量,152个差异表达基因与脂肪酸代谢和植物甾醇合成相关
[38]。禾生指梗霉是引起谷子白发病的一类真菌,其病害发生使晋谷21号造成大量减产,转录组分析表明,禾生指梗霉侵染谷子后导致萜类生物合成酶(CPS和KS)高表达,赤霉素、脱落酸及生长素合成途径相关基因表达量上调,初步揭示了内源激素调控谷子白发病表型的分子机制
[39]。环境CO
2浓度升高可提升谷子高光效、生物量及产量,转录组分析鉴定出一系列差异表达基因,涉及到细胞重组、茎段发育、气孔导度、碳固定、糖酵解和糖异生途径
[40]。龙谷25属于低钾胁迫敏感基因型,转录组分析发现了1 982个差异表达基因响应低钾胁迫,其中一个响应低钾胁迫的转录因子
SiMYB3功能分析表明,超表达拟南芥可促进根系延长及应对钾素缺乏能力
[41]。在谷子noncoding RNA(LncRNA、siRNAs、microRNA)测序分析方面,也初步明确了其种类、染色体分布特征、表达模式、共表达网络及谷物类保守进化特征,预测了响应干旱和脱水胁迫、水杨酸处理的noncoding RNA及其调控的靶基因
[42-47]。此外,利用基因组和转录组分析,还鉴定出一些重要的基因家族,如SWEET、SET-domain、HAT(Histone acetyltransferase)、AATs(Amino acid transporters)和CDPKs(Calcium-dependent protein kinases)等,找到与产量、蛋白品质、抗非生物胁迫及甲基化相关的一些候选基因
[26,48-52]。
综上所述,利用基因组和转录组分析,针对谷子的生长发育调节、生物胁迫与非生物胁迫及代谢调控相关的基因发掘方面已做了较为重要的创新性工作,但仍存在不同基因型不同处理所获得的结果不尽相同,其相关共性的规律尚需进一步总结归纳,挖掘的候选基因多数尚未验证其功能,需要在生信分析的基础上,展开实质性的基因功能验证和机理深度解析,为将来谷子分子育种提供可利用、主效和可靠的基因资源。
3.2 基于GWAS、转录组定位重要性状基因
谷子作为起源于我国的重要粮食作物,随着谷子基因组的公布,基于全基因组关联分析、QTL定位等手段,已有很多调控谷子重要性状的关键基因或QTL被发掘。JIA等
[53]基于全基因组重测序对916份谷子材料的47个农艺性状进行全基因组关联分析,在5个环境下共鉴定到512个显著关联的SNP位点;LI等
[54]基于312个谷子材料的全基因组关联分析,挖掘到影响谷子高海拔适应性的关键基因
SiPRR37;VANDANA等
[55]和LIU等
[56]分别对142个和407个谷子品种的农艺性状及穗型性状进行全基因组关联分析,挖掘了大量的显著关联SNP。大规模mGWAS研究也被报道。基于广泛靶向代谢组学与GWAS的协同分析,挖掘了控制谷子米色及类胡萝卜素含量的关键基因
SiPSY[57]。通过谷子泛基因组图谱,鉴定了多个与谷子驯化及育种改良的染色体结构变异及重要候选基因
[8]。
除全基因组关联分析外,基于遗传作图,谷子中也发现了多个重要QTL。DOUST等
[58]通过QTL分析在来源于谷子和青狗尾草的双亲群体中检测到14个与穗部性状相关的QTL。在另外2个QTL定位研究中,也分别鉴定出12、32个QTL与穗部性状相关,如PWP、GWP、TGW等
[59-60]。这些研究大部分是基于少量的多态性位点,并且很少有QTL被鉴定。最近一项基于12个环境的QTL定位研究,确定了159个与穗性状相关的QTL,深化了对谷子穗部和产量形成的遗传基础的理解
[61]。然而,基于双亲群体的QTL结果严重依赖于群体和环境的遗传背景,这极大地限制了这些QTL在谷子育种计划中的广泛适应性和稳定性。总的来说,尽管谷子上已有部分基因或QTL被发掘,但是与小麦、水稻、玉米等大作物相比,还远远不足。进一步充分发掘利用优异种质资源及其富含的基因资源是谷子现代化分子育种研究的基础。
3.3 基于参考基因组对基因家族的鉴定
谷子参考基因组测序的完成对于谷子功能基因组的研究尤其是谷子基因家族的鉴定提供了便利,近年来涉及到抗逆胁迫、生长发育、以及营养吸收相关的基因家族相继被报道,为谷子功能基因的深入研究提供了思路与参考。
3.3.1 调控植物生长发育过程的基因家族的分离与鉴定
MADS-box基因家族部分成员参与谷子穗分生组织发育
[62];SPL基因参与组织分化以及种子发育
[63];bHLH转录因子(187个家族成员)参与谷子根、茎、叶、花以及果实的发育调控
[64-65];AAT基因家族成员在谷子籽粒品质形成过程中具有重要作用
[49];GRAS基因家族成员调控谷子株高,并影响谷子的穗质量
[66];GRF基因家族倾向于在发芽的种子、芽、花蕾和嫩叶等活跃生长和发育的组织中高表达,暗示其可能参与谷子生长发育的调控
[67-70];LBD家族成员在谷子根系中特异表达
[71],CCT转录因子(39个成员)中有15个
SiCCT基因与谷子抽穗期具有重要关系
[72]。以上工作为谷子基因功能的深入研究提供了资源与参考。
3.3.2 参与谷子逆境胁迫的基因家族的分离与鉴定
参与谷子干旱、盐碱以及低氮、低磷胁迫等非生物胁迫的基因家族相继被报道。其中包括通过氧化各种脂质参与植物的生理活动的谷子脂氧合酶(LOXs)基因(12个成员),调控脂肪酸和蜡质的合成与积累的酮脂酰辅酶A合酶(β-ketoacyl-CoA synthase,KCS,33个成员)
[73],LBD转录因子(33个家族成员)
[71],糖转运蛋白(Sugar transporter proteins,STPs)家族成员
[74],SPL(18个家族成员)基因家族
[75],植物氨基酸转运载体(Amino acid transporter,AAT)
[49],组蛋白乙酰转移酶(HAT)基因
[52]。另外,WRKY转录因子
[76]、MYB
[20]、CCCH类锌指蛋白(27个成员)
[77]以及GRF
[78]家族成员也参与谷子多种非生物胁迫响应;ANK家族基因成员参与低温、干旱、盐等胁迫响应
[79];谷子APX家族成员受干旱胁迫和高氮诱导后,表达显著上调
[80]。
3.3.3 调控营养元素转运吸收功能的基因家族的鉴定
参与谷子硒、叶酸等微量元素吸收以及氮、磷、钾等营养元素吸收转运的基因家族近年来也被报道,其中谷子SULTR基因家族成员
SiSULTRC3可以提高植株转运SeO
42-的能力
[81]。FPGS基因家族的
SiFPGS1-
3、
SiFPGS1-
4、
SiFPGS-
2基因表达与谷子叶酸含量呈正相关
[82]。Shaker K
+通道基因家族参与植物钾的摄取和分布
[83]。ZIP家族中的基因编码转录本可以储存和运输二价金属微量营养素,特别是铁(Fe)和锌(Zn)。NAC、bZIP和bHLH是
SiZIP基因中存在的主要Fe和Zn响应转录因子
[84]。PHT1家族转运蛋白基因在低磷胁迫下,可促进植株对磷的吸收
[85]。
MYB-
CC基因已经被证明可调控植物中磷酸盐吸收
[86]。NRT基因家族由NRT1/PTR,NRT2和NRT3亚家族组成,其在硝酸盐从土壤到植物的吸收和运输中起关键作用
[87- 88]。
4 展望
2012年全基因组测序的完成为谷子功能基因组学揭开了序幕,2023年泛基因组的发布吹响了谷子分子育种的集结号。在丰富种质资源的基础上,谷子基因资源的发掘将走上快车道,越来越多的重要性状相关基因及其功能将会被发现并用于分子育种,分子育种与传统育种的紧密结合将极大地提升谷子育种效率,推动突破性品种的培育。