祖先成分推断是法医学研究的核心方向之一,它通过科学可靠的方法显著提升刑事侦查的效率和精准性。在东亚地区,贵州省位于中国西南云贵高原,因其独特的自然环境、丰富的生物多样性及多民族聚居的特点而备受关注。贵州穿青人作为省内极具研究价值的群体之一,主要分布于黔西北的纳雍、织金等地,另有少量人口散居于云南巍山彝族回族自治县。穿青人以其独特的文化标识著称,包括传统服饰、节庆习俗及民间信仰体系等。据其族谱记载及口述传说,该群体可能源自江西省吉安府庐陵县(今吉安市一带)
[1]。部分学者
[2]推测其族源可能与数千年前活跃于中国南方的古代“僚”族存在关联。黄锦树
[3]在分析穿青人族源时,进一步提出其可能与汉代南海国畲族存在潜在的遗传联系。然而,目前穿青人的民族归属依然存在一定的争议:1955年全国人民代表大会民族委员会将其划归为汉族支系,认为该群体迁入贵州后未形成独立民族;但在1986年贵州省穿青人民族成分问题的重新调查报告中主张应将其认定为单一民族。关于穿青人的族源问题,尽管历史、文献、语言学和文化学研究提出了多种假说,但由于文献记载有限,语言文化演变复杂,传统研究方法难以给出明确结论。近年来,通过遗传标记解析贵州穿青人群的遗传结构已成为研究热点。研究者可以从基因层面解析群体之间的亲缘关系、基因流动与历史混合事件,从而从遗传学角度为穿青人的族源问题提供客观证据
[2-6]。Liu等
[4]运用30个插入/缺失多态性(InDels)对贵州侗族、彝族、汉族及穿青人进行遗传结构分析,结果显示汉族与穿青人具有较高的遗传相似性;Lu等
[5]则通过单核苷酸多态性(SNPs)推断穿青人群的遗传结构及历史谱系,发现其与南方汉族、苗族、畲族及土家族存在遗传相似性,并提出汉族对穿青人群的遗传构成存在基因渗透。另有学者
[6]认为穿青人是多民族成分融合的群体。尽管已有这些研究,穿青人的族源问题仍存在较大争议,迄今未有定论。
目前针对贵州族群的基因组数据资源仍较为有限。既往研究主要基于短串联重复序列(STRs)
[7-10]、InDels
[4, 11, 12]以及SNPs
[5, 13, 14]对贵州境内人口基数较大的民族展开分析。尽管这些遗传标记已提供了重要线索,但其在法医遗传学与群体遗传学研究中仍存在局限性。例如,SNPs与InDels虽具有稳定性高、技术成熟等优势,但其二等位基因的特征导致它们提供的信息量有限
[15, 16]。近年来,一种新型遗传标记——微单倍型逐渐成为研究热点。微单倍型被定义为长度约200~300 bp的短DNA片段,包含两个及以上紧密连锁的SNPs
[17, 18]。研究表明,微单倍型可突破传统遗传标记的诸多限制。相较于STR,微单倍型的突变率更低,且不会产生stutter峰,稳定性更高
[19-21]。同时,与单个SNP相比,微单倍型整合了多个SNP位点,可以提供更丰富的遗传信息,在个人识别和祖源推断中提供更高的分辨率
[22-28]。在既往的研究中,国内学者主要是探讨了微单倍型在贵州汉族
[29]和贵州仡佬族
[30]中的法医学应用效能。对于穿青人,目前尚未有学者开展关于微单倍型的相关研究。因此,基于微单倍型开展对穿青人的法医遗传学研究,不仅有利于揭示穿青人的遗传背景,也可为穿青人的法医学应用,尤其是涉及复杂亲缘关系的鉴定案例,提供重要的数据参考。
在前期的研究中,课题组成员通过对既往报道的微单倍型位点和数据库中收录的微单倍型数据进行荟萃分析,系统识别在国内群体中具有高度遗传多态性的微单倍型位点;对接二代测序平台,采用多重PCR技术构建微单倍型的同步分型检测体系。对该体系性能验证的结果表明,研发的体系在贵州汉族群体中具有高度的遗传多态性,可作为一个独立且有价值的工具用于贵州汉族群体的法医学个人识别和亲缘关系鉴识研究。此外,该体系相比现有的STR、SNP和InDel等试剂盒,在混合样本解析、复杂亲缘关系鉴识以及洲际群体族源鉴识方面也具有一定的优势
[29]。本研究旨在扩充贵州族群的微单倍型数据资源,采用上述自主研发的微单倍型检测体系对贵州穿青人进行遗传学与法医学分析,评估这些微单倍型位点在穿青人中的遗传分布和法医学应用效能。同时,结合前期已发表的贵州汉族数据
[29]及不同大陆的群体数据
[31]通过多种方法解析穿青人群的遗传结构。
1 资料和方法
1.1 样本收集和DNA提取
本研究所采用的样本主要采集于贵州省穿青人群的聚居地,包括织金县(48例)和纳雍县(40例),另外有少量样本(19例)来源于周边迁徙区域,如大方县、水城县等地区。为排除样本间的干扰,本研究通过口头调查结合STR检测的方式(PowerPlex® Fusion试剂盒)确认所有受试者在三代以内无血缘关系,所有受试者均签署知情同意书。本研究采用IGT™Pure Beads磁珠法对收集的107例健康穿青人的外周血液样本进行DNA提取。同时,纳入国际千人基因组计划第三阶段(1000 Genomes Project Phase III)的26个大陆群体数据
[31]及前期采集的201例贵州汉族样本
[29]作为参考样本。本研究符合贵州医科大学伦理委员会的指南,并获得贵州医科大学伦理委员会审批(伦理批号:2023-139)。
1.2 文库构建
本研究中,文库制备严格遵循MultipSeq® Custom Panel (A557V1hg38)的操作规程。首先,进行第1轮PCR扩增,反应体系总体积为30 µL,其中包含9 µL ddH₂O、3.5 µL Enhancer buffer NB(1N)、2.5 µL Enhancer buffer M、5 µL primer pool、10µL IGT-EM808 polymerase以及1 ng DNA模板。PCR循环条件设定为:95 ℃预变性3 min30 s;随后进行22个循环,每个循环依次在98 ℃变性20 s、55 ℃退火60 s、60 ℃退火60 s及65 ℃延伸 2 min;最后在72 ℃延伸5 min。第1轮PCR产物经IGT™ Pure Beads纯化后,取13.5 µL的纯化产物,与2.5 µL Enhancer buffer M、2 µLUDI index、10 µL IGT-EM808 polymerase及2 µL ddH₂O混合进行第2轮PCR。热循环参数为:在95 ℃预变性3 min30 s;接着进行9个循环,每个循环依次在98 ℃变性20 s、58 ℃退火60 s及72 ℃延伸30 s;最终在72 ℃延伸5 min。第2轮PCR产物同样采用IGT™ Pure Beads进行纯化。
各样本的DNA文库浓度采用Qubit® 3.0荧光计结合Qubit dsDNA HS Assay Kit进行定量,测序在BGI公司DNBSEQ-T7平台进行。数据分析流程包含:使用Trimmomatic
[32]进行质控过滤,BWA
[33]软件将测序获得的数据比对至GRCh38参考基因组。最后,基于Perl脚本(
https:// github.com/moonlightfurion/microhaplotype)对样本进行微单倍型分析。为了避免测序过程中噪音序列的干扰,本研究采用单倍型频率≥15%的标准确定微单倍型的单倍型,且单倍型测序覆盖深度需≥20×。
1.3 数据统计分析
本研究采用STRAF在线程序
[34](
https://straf-p7bdrhm3xq-ew.a.run.app/)评估微单倍型位点在穿青人中的Hardy-Weinberg平衡(HWE)与连锁不平衡(LD),计算微单倍型的单倍型频率及法医学参数,包括匹配概率(PM)、PD、多态信息含量(PIC)、PE、He和Ho。为探讨贵州穿青人与其他参考群体的遗传关系,首先通过Genepop 4.0.10程序
[35]和Dispan程序
[36]分别计算群体间
Fst与
DA 遗传距离,基于
Fst值利用R 4.4软件的vegan包(v2.6-8)和ggplot2包(v3.5.1)进行多维尺度分析(MDS),同时基于MEGA X软件
[37]的邻接法构建系统发育树;基于33个微单倍型的单倍型频率,采用R软件factoextra包(v1.0.7)进行PCA;最后,采用STRUCTURE 2.3.4软件
[38]解析穿青人的遗传组分;
K值代表假设的群体结构层级,利用StructureHarvester cpython-312
[39]工具确定最优
K值,结合CLUMPP 1.1软件
[40]进行数据标准化以降低随机效应,并借助pophelper在线工具
[41](v1.0.10,
http://pophelper.com/)与R软件AncestryPainter包(v2.0)
[42]实现群体遗传结构的可视化。
2 结果
2.1 LD与HWE检验
33个微单倍型在穿青人群中的HWE检验结果(
表1)。经Bonferroni校正后(显著性阈值
P<0.05/33),仅1个位点(mh03LV-01)在穿青人群中被观察到偏离HWE。经Bonferroni校正(
P<0.05/528)后,所有位点在贵州穿青人群中均处于连锁平衡状态。因此,这33个位点在贵州穿青人群中可视为彼此独立的位点。
2.2 33个微单倍型位点在穿青人群中的遗传多样性与法医学参数
在贵州穿青人群107份样本中,33个微单倍型共检出214个单倍型,各基因座观察到的单倍型数目介于6~25个(
图1)。对于这33个微单倍型位点,mh03LV-01位点单倍型数量最多(25个),mh07WL-023和mh19WL-015位点单倍型数量最少(均为6个)。33个微单倍型的有效等位基因数(Ae)范围为4.04(mh09WL-005)~10.72(mh01WL-048)。
贵州穿青人群33个位点的法医学参数详见
图2。Ho值范围为0.6916~0.9159,He为0.7560~0.9109,PIC分布于0.7133~0.8997。33个微单倍型位点的平均PM是0.0613,平均PE是0.6593。33个位点在贵州穿青人群中的CPD达1-2.62×10
-41,CPE为1-7.64×10
-17。
2.3 贵州穿青人群与参考群体的群体遗传结构分析
2.3.1 群体间遗传差异的量化
群体间
Fst遗传距离显示(
图3A),贵州穿青人群与东亚各群体间呈现低度遗传分化,
Fst值范围为0.0008~0.0204;但其与非洲及欧洲群体的遗传分化较高,其中与YRI的
Fst值最大(0.0995)。此外,我们也计算了贵州穿青人群与其他参考群体的
DA 遗传距离(
图3B),结果显示:穿青人群与贵州汉族及东亚群体的遗传距离较小,与其他大陆群体(尤其是非洲群体)的遗传距离较大,与
Fst分析结果一致。
2.3.2 PCA与MDS
基于贵州汉族、穿青人群及千人基因组计划中26个参考群体在33个微单倍型上的单倍型频率,本研究进行了PCA(
图4)。PCA结果显示前2个主要成分的累计贡献率为73.2%,其中第1主成分(Dim1)占43.5%,第2主成分(Dim2)占29.7%。从图中可见,不同地理来源的群体按其生物地理来源进行聚类:非洲群体在Dim1上与其他群体显著分离,表明非洲群体和其他族群具有相对较大的遗传差异;而美洲群体(如PUR、CLM、MXL)在图中分布相对分散。在Dim2上,贵州汉族、贵州穿青人群及5个东亚群体(CHB、CHS等)与非洲、欧洲、南亚及美洲群体存在显著分离的现象。值得注意的是,无论基于Dim1还是Dim2,穿青人群均与贵州汉族、CHB及CHS相距较近,而与YRI、MSL、ESN及GWD等非洲群体相距较远。
本研究也对贵州穿青人群及参考群体进行MDS(
图5),其结果与主成分分析的结果相似。所有群体被清晰划分为5大聚类:东亚与欧洲群体分别形成2个紧密的聚类簇;非洲群体独立成簇,分布于图的左侧。贵州穿青人群与贵州汉族相距较近。
2.3.3 系统发育分析
邻接法系统发育树直观的呈现了穿青人群与参考群体的遗传聚类关系(
图6)。从系统发育树中可以观察到,这28个群体分别形成5大分支,其中来自同一地区的族群聚在同一分支上。研究的贵州穿青人群与东亚群体聚为一支,并与贵州汉族形成一个亚支。
2.3.4 群体结构分析
图7A显示了在不同的
K值下穿青人和其他参考群体的遗传结构。当
K=2时,非洲群体以橙色遗传成分为主导,与其他大陆群体呈现的蓝色成分形成对比。当
K增加到3时,非洲与东亚群体通过特有的遗传组分可以互相区分,其余群体共享橙色成分。当
K=4时,欧洲、非洲、东亚、南亚群体分别以蓝色、绿色、橙色和紫色始祖成分为主,美洲群体,如MXL和PEL,主要表现出蓝色和紫色混合的成分。相似的群体遗传成分分布也可以从
K=5中观察到。每个
K值的平均对数似然值结果显示LnP(K)=4~5时趋于稳定,表明
K=4为最佳的
K值(
图7B)。因此,研究的穿青人和其他参考群体在
K=4时的遗传结构被进一步展示(
图7C)。对于研究的穿青人,我们发现其和贵州汉族及5个东亚群体表现出相似的始祖成分分布。
3 讨论
微单倍型作为一种新型遗传标记,近年来在法医遗传学领域展现出重要的应用潜力,尤其在个体识别、亲缘关系分析和祖源推断等方面。然而,当前针对贵州少数民族群体的研究相对匮乏,特别是基于微单倍型的研究。在本研究中,我们采用既往自主研发的微单倍型体系
[29],评估其在穿青人群中的法医学应用效能,并将其与已报道的大陆群体
[31]及贵州汉族群体
[29]进行对比,探讨穿青人群的遗传背景。
对于33个微单倍型位点,我们发现其在穿青人群中的He和PIC分别高于0.7500和0.7100。此前,Liu等
[4]分析了穿青人群中30个InDel位点的遗传分布,结果显示这些InDel位点的PIC值范围为0.1475~0.3750。另一项研究中,Zhang等
[11]评估了47个InDel位点在穿青人群中的法医学效能,结果显示其平均He和PIC值分别为0.4579和0.3506。与上述InDel位点相比,我们发现33个微单倍型位点在穿青人群中表现出更高的遗传多态性。此外,这33个微单倍型在穿青人群中的平均PD和PE分别为0.9387和0.6593,显著优于既往基于InDel的研究结果
[4, 11]。穿青人群中33个微单倍型位点的CDP和CPE分别达到1-2.62×10
-41和1-7.64×10
-17,与30个InDel
[4]及47个InDel位点
[11]的法医学效能相比,这33个微单倍型位点在穿青人群中展现出更高的法医学应用价值。综上所述,这33个微单倍型位点可作为一个高效的工具应用于穿青人的法医学个人识别和亲缘关系鉴识研究。
关于穿青人,此前的人类学研究认为,穿青人实际为外省移民群体;在其后续形成与发展过程中,他们的生活方式、宗教信仰和文化特征与周边汉族及其他少数民族存在一定差异
[43]。然而,另一项研究中,周成勋
[44]系统探讨了穿青人的族群认同问题,结果显示穿青人在文化特征、习俗和宗教信仰方面与贵州土家族群体高度相似,表明二者可能具有共同祖先起源。目前针对穿青人群的遗传学研究相对有限。Lu等
[5]基于全基因组SNP数据分析穿青人群的遗传结构,结果显示穿青人与壮侗语系、藏缅语系群体存在较高遗传分化,但与南方汉族、苗族、畲族及土家族群体呈现较近的遗传关系。Zhang等
[11]通过InDel标记探索穿青人群的遗传结构,发现穿青人与贵州汉族、南方汉族及陕西汉族群体的遗传距离较近。在本研究中,我们基于微单倍型数据分别从遗传距离、PCA、MDS、系统发育树和群体遗传结构解析等方面探讨了贵州穿青人的遗传结构。在穿青人和其他参考群体遗传结构分析的结果中,我们发现在
K=3时,研究的穿青人和其他洲际群体表现出显著不同的遗传成分分布;但是对于欧洲、南亚和美洲群体,群体间表现出相似的遗传成分分布;在
K=4时,可以观察到这些洲际群体表现出不同的遗传成分分布,彼此间可以互相区分。因此,对于目前的数据,
K=4是最佳的
K值。此外,我们发现,不管
K如何取值,研究的穿青人和东亚群体,尤其是和贵州汉族、北京汉族和南方汉族,表现出相似的遗传成分分布。相似的结果也可以从遗传距离、PCA、MDS和系统发育树中观察到,表明相比这些洲际群体,汉族群体在穿青人的形成和发展过程对其基因库有显著贡献。
尽管本研究有助于阐明穿青人群的遗传结构,但在研究过程中仍存在以下局限:首先,本研究采集了107例贵州穿青人样本,该样本量在法医学参数评估中具有一定代表性,但揭示群体细微结构方面略显不足,尤其在研究不同地区穿青人的遗传结构和遗传交流方面,其统计效能相对有限。因此,未来研究需进一步扩大样本规模以深入解析穿青人群的遗传结构。其次,对穿青人群遗传背景的研究仅限于微单倍型这一种遗传标记。此前基于Y-SNP的研究发现,穿青人群中汉族特异性单倍群O2a2b1a1-M117和O2a1c1a1a1a-F11出现频率较高,表明汉族对其父系结构亦存在显著影响
[5]。因此,针对穿青人群,亟需开展不同类型遗传标记,如常染色体SNP、mtDNA及Y-STR/SNP的研究,以深入解析贵州穿青人群的起源与发展。最后,本研究纳入的参考群体主要集中于不同大陆群体,不利于分析穿青人群与邻近族群的基因交流。因此,后续研究需整合更多贵州本地少数民族数据,探讨其与穿青人群的遗传联系,从而更深入地理解穿青人群的遗传背景及民族起源。
综上所述,本研究分析了33个微单倍型在贵州穿青人群中的遗传分布,结果显示,这33个微单倍型具有高度多态性,可作为一个高效的工具用于穿青人群法医个体识别与亲缘关系研究。群体遗传分析进一步表明,穿青人群与东亚群体(尤其是贵州汉族、北京汉族和南方汉族)存在较近的遗传关系。未来研究需采集更多贵州本地族群数据,以深入探讨其与穿青人群的遗传联系。