玉米(
Zea mays L.)是我国重要的粮食作物之一,在保障我国粮食安全、经济稳定等方面发挥着重要作用。当前,我国玉米生产正在由追求高产的单一目标向高产高效、节本增效和提质增效协调统一的多重目标转变。机械化粒收是我国未来玉米机械收获的必然趋势和发展方向
[1],而玉米成熟期籽粒含水率是玉米机械化粒收的重要衡量指标之一。籽粒含水率的高低对玉米的产量和品质均有较大影响
[2],玉米成熟期籽粒含水率过高,会导致机械化粒收过程中籽粒破碎率升高,进而增加了霉变风险,增加了后期烘干、储藏等环节的生产成本,严重制约了玉米机械化粒收技术的大规模推广应用
[3]。因此,培育成熟期籽粒含水率低的玉米品种,是农业现代化、机械化发展的迫切要求
[4-5],也是当前我国玉米育种的重要方向之一。
全基因组选择(Genomic selection,GS)作为一种现代育种方法,最早由MEUWISSEN等
[6]于2001年提出,该技术利用覆盖全基因组的分子标记对训练群体进行基因型鉴定,结合训练群体的数据构建预测模型,进而对预测群体的表型进行精准预测,提高优良后代选择效率。传统分子标记辅助选择(MAS)仅针对主效基因,相比之下,GS利用全基因组范围内的标记信息,能够显著提升对微效多基因控制的复杂数量性状的预测精度,使育种者能在育种早期高效筛选优良基因型,加速育种进程。GS技术最先在动物育种中的研究和应用较为广泛。阳文攀等
[7]基于芯片数据对长白猪繁殖性状进行基因组选择研究,发现支持向量机(SVM)与随机森林(Random forest)等非参数机器学习模型在猪繁殖性状预测中具有一定的优势。章峰等
[8]利用5种杂交肉牛品种进行GS,使用GBLUP、BayesB和BayesR等3种模型对肉牛干物质摄入和日增量等性状进行预测,发现选用高密度SNP标记、BayesR模型和多品种训练群体的GS准确性最高。近年来,随着基因分型成本的下降,GS技术已经逐渐在作物分子育种领域推广应用,如在水稻中主要用于预测杂交后代的育种潜力,涉及表型有产量
[9]、株高
[10]、抽穗期
[11]、抗病性
[12]等;在大豆中针对品质性状的GS研究也较多,如蛋白质和油分
[13]、氨基酸含量
[14]、脂肪酸含量
[15]等;此外,在一些经济作物,如花生和棉花中也有少量应用
[16-17]。在玉米中,GS技术研究主要针对自交系选育和杂交种选育2个方面,在自交系选育中,RIEDELSHEIMER等
[18]利用635份DH系对玉米产量三要素进行GS分析,发现全同胞家系群体预测准确性最高,若采用半同胞群体,其预测准确性下降42%;YU等
[19]基于369个玉米自交系组成的训练群体,对2 687个不同玉米自交系的8个玉米茎尖分生组织(SAM)相关性状进行预测,预测准确度为0.37~0.57。在杂交种选育中,LUO等
[20]采用部分双列杂交设计,组配了285份杂交种,在春夏播区5个地点进行表型鉴定,利用GBLUP模型进行GS,结果发现,夏播区和春播区的玉米杂交种产量预测准确度分别达0.51和0.46;ZHANG等
[21]对3个玉米测交群体的表型、一般和特殊配合力进行了GS分析,结果表明,当将加性效应整合到模型中时,杂交种产量的预测准确度为0.59~0.81;当将加性、非加性效应均整合到模型中时,预测精度为0.64~0.86。籽粒含水率受复杂数量性状控制,单纯靠表型选择效率较低,利用GS有助于对玉米品种籽粒含水率进行快速改良。
本研究对250份玉米杂交种的玉米籽粒含水率进行了全基因组选择分析,评估了标记密度、群体大小和不同模型对预测准确度的影响,并以250份玉米杂交种的籽粒含水率建模,对4 700个玉米杂交种的籽粒含水率进行了全基因组预测,旨在为GS在选育低籽粒含水率玉米育种中的应用提供参考。
1 材料和方法
1.1 试验材料
100份玉米自交系来自山西农业大学山西有机旱作农业研究院分子育种研究室,其中,父本群自交系50份,母本群自交系50份。利用这100份自交系组配出250份杂交种。
1.2 试验设计
试验于2023年在山西农业大学榆次东阳试验示范基地(37.69°N,112.73°E)和山西农业大学玉米研究所忻州试验基地开展(38.42°N,112.73°E)。试验采用随机区组设计,每个玉米杂交种种植2行,行长5 m,行距0.5 m,2次重复,种植密度6.75万株/hm2,常规大田水肥管理。
1.3 试验方法
1.3.1 玉米籽粒含水率测定及分析
于玉米收获期在各小区中间采集大小均匀一致的穗子,脱粒后,利用PM-8188A水分测定仪测定各杂交种的籽粒含水率(Grain moisture content,GMC),重复3次。使用ASReml 3.0软件对250个杂交种的籽粒含水率进行统计分析并计算最佳线性无偏预测值(Best Linear Unbiased Prediction,BLUP)和广义遗传力(H2 ),利用Origin 2024进行绘图。
1.3.2 玉米基因型鉴定及分析
玉米出苗30 d后采集250份玉米杂交种植株的新鲜叶片,利用植物DNA提取试剂盒(DP350,北京天根生物科技有限公司)提取DNA,并通过1%琼脂糖凝胶检测DNA的质量和完整性。然后,采用45 K液相芯片(石家庄博瑞迪生物技术有限公司)进行基因分型,利用Plink 2.0软件基于最小等位基因频率(MAF)≥0.01,缺失率≤50%的标准对基因分型数据进行过滤
[22],进一步利用Beagle 5.4填充缺失位点
[23],获得高质量SNP信息。利用TASSEL 5的Create tree功能进行聚类分析
[24]。根据杂交种组配信息,将亲本的基因型数据合并即为杂交种基因型数据。
1.3.3 玉米籽粒含水率全基因组选择分析
试验选择9种GS模型,利用组配的250份杂交种的籽粒含水率表型开展GS研究,模型包括岭回归最佳线性无偏预测(Ridge regression best linear unbiased prediction,rrBLUP)、BayesB、BayesC、BayesLASSO、岭回归(Ridge regression, RR)、弹性网络(Elastic net,EN)、再生核希尔伯特空间(Reproducing kernel hilbert space,RKHS)、随机森林(Random forest,RF)和支持向量机(Support vector machine,SVM),采用随机取样500次的5-fold交叉验证,其中,5-fold交叉验证具体为:将训练群体的个体,随机分成5等份,其中1份作为测试集,另外4份作为训练集,每一次建模都统计预测表型值与真实表型值间的皮尔逊(Pearson)相关系数来对模型的预测能力进行评价。所有模型均采用R4.3.0 (
https://www.r-project.org/)程序实现。
为研究训练群体大小对GS的影响,本研究以10%为梯度分别提取群体的10%~90%的自交系作为训练群体,剩下的为预测群体,比较不同大小训练群体的预测准确性;为了探究不同标记密度对GS准确性的影响,在玉米10条染色体上均匀提取SNP标记,从每条染色体1个标记(标记密度为10)递增到每条染色体4 000个标记(标记密度40 000),共24个标记密度,每个标记密度重复500次,研究标记密度对预测准确性的影响。
2 结果与分析
2.1 玉米杂交种籽粒含水率的统计分析
250份玉米杂交种GMC在榆次、忻州的平均值分别为20.65%和20.75%,两地的BLUP均值为21.51%,BLUP为17.92%~24.00%,变异系数为5.31%。由
表1可知,杂交种群体的偏度和峰度值的绝对值均接近于0,表明杂交种的GMC数据基本接近正态分布,且均匀性较强。方差分析结果表明,GMC基因型方差和基因型×环境方差均达到极显著水平(
P<0.001)。进一步将基因型方差分解为亲本效应方差,发现父本GCA方差及其与环境互作方差均达到极显著水平(
P<0.001)。广义遗传力分析发现,玉米杂交种GMC的
H2 为0.41,GMC的σ
2SCA/σ
2GCA值为0.20,表明GMC具有中等大小的广义遗传力,适合早代筛选,且一般配合力效应占主导地位,说明对于GMC,亲本的遗传优势对后代表型起决定作用。
2.2 基因型分析及聚类分析
玉米45 K液相芯片有效SNP标记数为44 935,将原始标记按照MAF≥0.01,MR≤50%进行过滤,最终筛选到43 034个高质量SNP标记(
图1-A)。过滤后的SNP标记,其平均缺失率为0.043,MAF为0.182,多态性信息含量为0.198,等位基因多态性为0.287。将100份玉米自交系进行聚类分析发现,这些玉米自交系可分为6个类群,第I类为旅大红骨群,包括丹340、E28、F141、KH128、DH218-9、LYA52等22份玉米自交系;第II类为P群,包括Qi319、X178、P138、JH49、H161、LYB92等16份玉米自交系;第III类为塘四平头群,包括Chang7-2、HuangZao4、K12、HuangC、789-1等10份自交系;第IV类为Reid群,包含Zheng58、Ye478、DH775、DH814-3、PH6等11份玉米自交系;第V类为兰卡斯特群,包括Mo17、35S、PHR32、PHK52、F118、H151等自交系23份;第VI类为其他类群,包含XZ3113、DH509、PHW5、YCZ1862、G17-3F等15份自交系(
图1-B)。
2.3 预测模型对GMC预测准确性的影响
为了评估现有预测模型对GMC预测准确性的影响,本研究选择了包括rrBLUP、RKHS、BayesB、BayesC、RR、EN、LASSO、RF、SVM等在内的9种模型,基于43 034个高质量SNP标记对榆次和忻州2个地点玉米杂交种的GMC的BLUP值进行全基因组选择分析,基于10倍交叉验证和皮尔逊相关系数对各模型的预测准确性进行评估,结果表明(
表2),9个GS模型的预测准确度分别为0.600、0.600、0.599、0.600、0.591、0.576、0.572、0.585和0.600,平均值为0.592,其中,rrBLUP、RKHS、BayesC、SVM 4个模型的预测准确性较高,准确度均为0.600,预测准确性最低的模型为LASSO,准确度为0.572。9个预测模型预测准确性最高和最低之差仅为0.028,可见,预测模型对GMC预测准确性的影响较小。考虑到不同预测模型运行时间成本,在同样条件下,由于rrBLUP运行时间最短,因此,在这4个模型中选择rrBLUP为最优模型。
2.4 标记密度和群体大小对GMC预测准确性的影响
在筛选出最优预测模型的基础上,为探究不同标记密度对预测准确度的影响,在43 034个高质量SNP标记中选取标记,确保在玉米10条染色体上均匀分布,设置了24个标记密度,并基于rrBLUP模型进行GS分析(
图2),发现随着标记密度逐渐增加,预测准确度总体呈上升趋势,当标记密度从10增加到60时,预测准确度从0.342迅速提升至0.509,随后预测准确度波动较大,标记密度大于2 000时预测准确度趋于稳定,一直维持在0.6左右。随着训练群体大小从总群体的10%增加到90%,预测准确度呈逐渐上升趋势,当群体大小为总群体的10%时,其预测准确度为0.452,群体大小为总群体的70%时,预测准确度维持在0.6左右(
图2)。综上,在rrBLUP模型下,标记密度为2 000和训练群体为群体大小的70%时,能够达到较好的预测效果。
2.5 基于rrBLUP模型预测玉米杂交种GMC结果
利用100份自交系通过不完全双列杂交,获得250份杂交种(实际上可以组配4 950个组合),并对其进行表型鉴定,利用250份玉米杂交种的GMC建模,在此基础上利用rrBLUP模型、2 000标记密度、70%训练群体,对剩余的4 700份(All crosses)玉米杂交种的GMC进行预测(
图3),预测的GMC平均值为20.55%,最小值为18.79%,最大值为22.55%,变异系数为6.24%;选择按GMC大小排序前100(Top 100)和后100(Bottom 100)的杂交种进行分析,以Top 100相对于Bottom 100均值增加比例为衡量标准,评估GS的选择效益。Top 100杂交种平均GMC为22.63%,Bottom 100杂交种平均GMC为18.56%,因此,选择GMC预测结果Bottom 100进行育种,新品种的GMC相对于Top 100将降低4.07%,相当于17.98%的增益。
3 结论与讨论
GS准确性受多种因素影响,包括预测模型、标记密度、群体结构、预测性状的遗传力、训练群体大小等
[25]。目前,存在多种基因组预测模型,如用于估算标记效应的混合模型rrBLUP和GBLUP模型
[26-27],贝叶斯线性回归模型(BayesB、BayesC、BayesLASSO等),以上模型均为参数化的线性模型,它们假设标记效应是加性的,即每个位点对表型的贡献是独立的
[28]。此外,还有半参数模型(RKHS)和非参数模型(BF、SVM等),这些模型能够在无需显式建模的情况下考虑非加性效应
[29]。ZHOU等
[30]基于11个非线性回归模型进行全基因组选择分析,结果发现,支持向量回归模型(SVR)对大豆分枝数的预测准确度为0.637,优于其他模型。MERRICK等
[31]分析了小麦深播出苗率的全基因组选择结果发现,在17种预测模型中,SVM的预测准确性最高,达0.56。本研究评估了包括rrBLUP、BayesB、BayesC、BayesLASSO等在内的9种GS模型对GMC的预测准确性的影响,结果发现,9种模型的预测准确度相当,均在0.6左右。可见,对于籽粒含水率来说,预测模型对其预测准确度影响不大,但一些研究表明预测模型对不同性状的预测能力有较大差异
[32-33],这种差异可能由性状本身的遗传结构、群体特性等因素导致。
训练群体大小和标记密度同样对预测准确度有影响。已有研究表明,随着训练群体规模的增加,性状的预测准确性会逐渐增加
[34]。本研究发现,在rrBLUP模型下,随着群体大小的增加,GMC的预测准确性逐渐增加,预测准确度从0.452增加到0.598,增加了32.28%,表明可以通过适当增加训练群体大小来提高预测准确度。但是,也有研究表明,当个体间亲缘关系较远或无亲缘关系时,增加群体大小并不能提高预测准确度
[35]。因此,在做GS之前,需要充分评估训练群体的遗传结构。
标记密度也是影响GS预测准确性的重要因素,随着标记密度的增加,预测准确度会相应增加。已有研究表明,当标记密度增加到一定值时,预测准确度会达到一个平衡,不再增加。POLAND等
[36]研究发现,在小麦中,当GBS标记达到1 827个时的预测准确度和34 729个标记的预测准确度相当。孙强等
[37]研究发现,当标记密度为500时,其对株高和穗位高的预测准确度与标记为50 000时相当。这种情况的出现,可能是由于标记间存在较强的连锁不平衡,导致增加更多的标记并不会有效提高模型的预测准确性
[9]。本研究在玉米各染色体上均匀选取标记,设置24个标记密度来研究标记密度对GMC预测准确性的影响,结果表明,当标记密度为60时,即每条染色体选取6个标记,利用rrBLUP对GMC的预测准确度可达0.5,当标记密度为2 000时,即每条染色体选取200个标记,预测准确度可达到标记密度为40 000时的水平。在育种实际中,较低的标记密度有利于GS技术在育种中推广应用,过高的标记密度不仅会显著增加基因型检测成本,而且建模时间成本也会随之增加
[38]。