通古斯语人群主要分布在东亚北部和北亚地区,包括满族、锡伯族、鄂伦春族、鄂温克族、赫哲族、那乃人、涅吉达尔人、乌德盖人、埃文基人、埃文人以及他们的古代亲族(如女真人等)。现代满族、锡伯族、鄂温克族、鄂伦春族和赫哲族分布于我国境内,是中华民族的重要组成部分,其演化历史构成了中国历史的重要篇章,为中华民族发展做出了重要贡献。埃文基人、埃文人主要分布在西伯利亚,涅吉达尔人、那乃人、乌尔奇人和乌德盖人等主要分布在俄罗斯远东地区及库页岛。通古斯语人群在亚洲东北部地区经历了数万年的演化,拥有独特的体质、生理特征和文化特征,是民族学、人类学和遗传学等学科的研究热点
[1⁃2]。
历史学、考古学和民族学的研究普遍认为通古斯语人群起源于黑龙江流域
[3⁃5]。经过长期研究, 历史学家构建了“肃慎族系”这一概念,包括东北地区自周代以来的肃慎、挹娄、勿吉、靺鞨、女真和满族等人群
[3]。经过数十年的考古学研究,已基本确定靺鞨文化是女真人和满族人的祖先所创造的考古学文化
[6]。靺鞨文化的主体来源是黑龙江中游的波尔采⁃蜿蜒河文化,同时黑龙江中上游的塔拉坎文化、米哈伊洛夫卡文化,三江平原的滚兔岭文化和桥南河口遗址等也为靺鞨文化做出了贡献
[7]。根据当前的研究进展,波尔采⁃蜿蜒河文化和塔拉坎文化都是乌里尔文化的传承,但乌里尔文化本身的起源演化过程并不清晰。埃文人和埃文基人的祖先创造的文化可能是位于黑龙江中游和上游北岸的乌里尔文化的分支,但目前对该地区的考古学文化仍不清楚。经过民族学和语言学的长期研究,目前已为通古斯语族的诸语建立起没有争议的语言谱系
[8]。根据目前的分类,埃文人和埃文基人为北通古斯语人群,其他人群构成南通古斯语人群。
综上,关于通古斯语人群的起源演化历史,传统学科和此前数十年遗传学研究已经获得大量成果。但由于材料缺乏等因素,仍有很多尚不清晰的方面。其一,通古斯语人群公认是黑龙江流域的土著,但通古斯语人群对于旧石器时代黑龙江流域古人的继承性是怎样的,目前并不清晰;其二,由于文献史料和考古学材料的缺乏,通古斯语人群直接始祖群体的起源演化历史细节也不清晰;其三,通古斯语人群在我国东北及西伯利亚地区的地理扩散过程并不清晰;其四,已有的调查研究显示,不同通古斯语人群的体质、生理特征和文化面貌具有很大差异,这些差异的形成过程并不清晰
[9]。本文在总结此前数十年人类遗传学研究中关于通古斯语人群父系遗传组成数据的基础上,结合历史学、考古学、语言学和民族学的研究成果进行综合讨论;同时,通过一组高分辨率的父系组成数据,对全体通古斯语人群各类细分的父系遗传成分的可能族源进行详细说明;并综合讨论通古斯语人群的母系遗传结构细分类型。本文以期为相关领域的研究提供重要参考。
1 材料与方法
1.1 样本的采集
本文所报道的高精度父系Y染色体遗传数据来自过去数十年中收集的东亚地区健康男性的Y染色体基因组数据库。所有参与者均知情同意,并提供了知情同意书,符合医学伦理相关准则。
1.2 数据分析
本研究从数据库中选取通古斯语人群的DNA样本,使用二代测序技术获取DNA数据,测序平台为Illumina HiSeq2000(美国加利福尼亚州圣地亚哥)。测序后的数据使用标准程序(BWA和Samtools),参考人类基因组序列hg38,进行SNP读值和分析。参考Y染色体联盟制定的SNP和单倍群名称进行单倍群和SNP的划分和确定。利用公共数据库和权威网站构建了谱系树。从公开发表的文献中获取通古斯语人群的父系和母系单倍群数据,对数据进行整理和分析
[10⁃32]。使用R软件的prcomp程序对母系单倍群频率数据进行主成分分析,并用ggplot2包进行可视化处理,探寻不同人群间的遗传关系。
2 结果分析
2.1 父系遗传结构所见人群起源过程
2.1.1 研究总结
本研究总结了已往所有文献中的通古斯语人群的父系频率数据(
表1),并参考亚洲东北部其他人群的数据,总结出亚洲北部起源的父系类型在通古斯语人群中的比例分布(
图1)。首先,除满族和锡伯族外,C2a-M86这一支系在其他通古斯语人群中占比较高,通常达到30%~70%。有研究表明,C2a-M86是全体通古斯语人群的共享奠基者父系类型,关于这一父系的细分谱系和下游不同支系的扩散过程已有详细描述
[33⁃34]。然而早期文献的测试位点并不细化,结果较模糊,如
表1中C2a-M48支系的下游有很多未测数据,且C2a-M48具有较高的比例,推测这些C2a-M48实际上绝大多数都是C2a-M86。已测M217而未测下游M48的数据也如此。因此,数十年以来的研究结果支持C2a-M48和C2a-M217之下的C2a-M86是通古斯语人群的奠基者父系类型。这一父系的分化过程与通古斯语人群的各群体演化历史直接相关。在通古斯语人群中也存在C2a-M48和C2a-M86同时出现的人群,如埃文基人(讲雅库特语)和Iyengra埃文基人(
表1)。这种父系类型主要见于堪察加半岛南部的科里亚克人和尼夫赫人,因此可以认为是通古斯语人群远古始祖遗传成分的残留。
父系N1a2b-P43和N1a1a-M46在不同通古斯语人群中的频率存在较大差异,有的比例为零,有的可达20%以上(
表1)。这两种父系类型是乌拉尔语人群的奠基者父系
[35⁃36],但父系N-M231本身也是从我国东北地区起源的,因此通古斯语人群中的父系N可能包含三种类型。其一是旧石器时代东北古代人群中的小支系,如N-MF59353和N-Y24317;其二,最近6 000年以来通古斯语人群和乌拉尔人群的混合;其三,华北和中国东北南部土著人群中也存在一定比例的N-M231,因此通古斯语人群中的父系N也可能有一部分来自东北南部和华北人群(如汉族)的混合。通古斯语人群中也有少量的Q和R单倍群,这两类可认为是来自晚近的西伯利亚或者西欧亚人群的混合。单倍型D在锡伯族和满族中有少量存在,但在其他通古斯语人群中都没有观察到,大概来自最近几百年的人群混合。
父系单倍群O-M175在锡伯族和满族中占比很高,但在其他通古斯语人群中有的比例为零,而有的比例较高(
表1)。父系单倍群O-M175是东亚地区人群的主要父系类型之一,如日本人,汉族、朝鲜族以及更南方的人群
[18]。因此,可以认为通古斯语人群中的父系O-M175是晚近时期来自东北以南人群的混合,这种混合在锡伯族和满族中比较均匀,但在其他的通古斯语人群中差异较大。总之,虽然此前数十年研究的数据参差不齐、分辨率不高,但已经展示了通古斯语人群父系遗传结构的整体面貌和基本特征。
2.1.2 高分辨父系数据
基于近年来积累的大规模测序数据及单倍群频率分析结果,本研究团队已系统识别出东亚地区主要人群的父系遗传结构特征,并据此构建了包含100个类别的父系分类体系,其中64个父系类型被认定为东亚地区某一人群的主要父系类型或奠基者父系类型。这一工作使得这些父系类型的起源演化有了族群意义。本文报道了满族、锡伯族、鄂温克、鄂伦春和赫哲族五个民族的100大类父系细分频率数据(
图2)。根据每一个大类支系已知的族群意义,为通古斯语人群的父系遗传结构提供详细的来源分析。
此前的研究表明,C2a-L1373分支是亚洲北部人群(特别是蒙古语人群和通古斯语人群)的主要父系类型
[10⁃26]。C2a-L1373在各通古斯语人群的演化和混合情况如
图2所示。从
图2可知,C2a-L1373分为六大类,这六大类支系出现在各地满族中,但平均频率均较低。已有研究认为C2a-F1756是古代东胡族系人群的主要父系类型,而C2a-M504是古今蒙古语人群的主要父系类型。这两种类型在锡伯族、鄂温克族、鄂伦春族和赫哲族中均有较高的比例。通古斯语人群的核心谱系C2a-SK1061是以往文献C2a-M86的主要下游分支,在六个满族人群中平均比例约为1%,而在鄂温克族和赫哲族中都有较高比例。以往的文献大多未能提供C2a-L1373下游的细分数据及详细讨论,本文提供的下游支系细分频率情况是研究的重要贡献之一。根据本文数据,通古斯语人群父系遗传结构中,来自古代东胡族系人群和蒙古语人群的混合比例较高,这是本文新发现之一。
通古斯语人群中来自始祖群体形成之后逐渐融入的成分有多种来源。如
图2所示,藏缅语人群高频的单倍群D仅出现在满族和锡伯族中,与此前文献的描述一致,本文提供了更加细分的数据。单倍群C2b-F1067的各个分支在满族和锡伯族中达到较高的比例,在其他三个人群中基本没有出现,与已有研究一致。但F845在鄂温克和赫哲族中均有出现,应是晚近时期混合的结果。N1b-F2930主要出现在汉族和藏缅语人群中,N1a-M46的下游支系主要分布在汉族、乌拉尔人群和突厥语人群中,N1a-P43的下游支系在通古斯语人群中零星存在,且比例较低。单倍群O-M175是几乎东亚所有人群的主要父系类型,在汉族人群中的比例高于其他人群。单倍群O-M175在满族和锡伯族中达到很高的比例,在其他三个通古斯语人群中也占有一定的比例(
图2)。在这些支系中,本研究认为第69、第70和第79大类(O1b2a1a2a-L682、O1b2a1a1a-K2和O2a2a*-M188)可能是中国东北南部古代人群的主要父系类型之一,这三个父系类型在通古斯语人群特别是满族和锡伯族中都有发现,可以认为是源自人群形成过程中混合的结果。单倍群Q-M242主要分布在叶尼塞语人群、突厥语人群和汉族人群中;单倍群 R2⁃M207源自欧亚大陆西部地区。这两大类父系类型的出现是晚期历史时期的混合。
综上,本文提供了细化的父系组成数据以及每种父系类型的可能来源。整体而言,锡伯族和满族的父系中来自东亚其他人群的混合比例较高,其他通古斯语人群来自后期的混合比例相对较低,与此前文献的数据类似。另一个重要发现是通古斯语人群中来自蒙古语人群和东胡族系的混合也达到较高的比例。同时,从细分的数据可见,通古斯语人群中普遍含有大量来自我国东北南部、华北地区以及西伯利亚地区人群的混合,这种混合在南部通古斯语人群中的比例高于北部。这些细分数据有助于未来多学科共同对通古斯语人群的演化历史进一步研究。
2.2 母系遗传结构所见人群起源过程
基于现有研究对通古斯语人群的母系遗传结构也进行总结分析
[27⁃32]。母系C2和C3是美洲土著母系人群的旁系支,主要分布在亚洲东北部
[37],这两个母系在通古斯语人群中也占有较高的比例。母系C4在现代蒙古语人群
[38]和通古斯语人群中占有较高比例。母系C5主要集中出现在蒙古语人群中,在赫哲族和锡伯族中也有较高的比例。母系单倍群D是东亚人群最主要的母系类型之一
[39],其中D*和D4在通古斯语人群中比例较高,而D5频率整体较低。母系F1b主要出现在突厥语人群中
[40],而单倍群F的其他下游支系主要出现在华南人群中
[39,41],在鄂伦春族和贵州省的满族中F1比例也较高。母系N9是中国东北地区特别是东北南部古代人群的主要母系类型
[42],在现代乌德盖人中达到较高的比例。母系Y是鄂霍次克海和日本海沿岸人群中一个较为特别的母系类型
[31,43],在通古斯语人群中普遍存在,在乌尔奇人和涅吉达尔人中的比例较高。其他母系类型的比例相对较低,不逐一说明。整体而言,通古斯语人群的母系遗传结构呈以下几个特征。(1)亚洲北部人群的主要母系类型C1、C2、C3、C4、C5和D*、D4、D5在通古斯语人群中占有较高的比例。黑龙江下游和沿海地区特有的特色母系,在通古斯语人群中也达到较高的比例,如N9和Y,代表了通古斯语人群在这一地区大规模扩张后人群混合的历史。值得说明的是,通古斯语人群和蒙古语人群的母系组成有很大的相似性,区分度较低。(2)母系遗传结构的多样性高于父系,某一特有母系在单个人群中达到较高比例,这种情形在通古斯语人群中较为常见,这与亚洲北部较少的人口数量和遗传漂变有关。
本文收集了文献中118个东亚人群的母系频率数据,并进行主成分分析,结果如
图3所示。从中可以看到,通古斯语人群聚类在图片左侧,突厥语人群、蒙古语人群、藏缅语人群、北方汉族、南方汉族以及华南人群在图上均有较好的聚类。辽宁满族和贵州满族的母系结构整体上分别与华北汉族和华南汉族较为接近,这一结果与父系以及常染色体上所观察的情况相一致,即这两个人群分别与华南人群和华北人群有较为强烈的人群混合。
3 讨论
3.1 “肃慎族系”的前后继承性
我国东北地区肃慎族系的演化历史一直是历史学和民族学研究的热点和难点。周代文献所见的肃慎应该是中国东北南部地区的古代人群。传统史学认为,肃慎、挹娄、勿吉、靺鞨、女真和满族有直接的先后继承关系,同属于肃慎族系这一大类
[3⁃5]。但近数十年以来的考古学研究已逐步揭示了这些古代人群可能对应的考古学文化遗存
[6⁃7]。唐代靺鞨人的考古学文化是靺鞨文化,靺鞨文化的直接祖先是波尔采⁃蜿蜒河类型文化,波尔采⁃蜿蜒河文化是黑龙江中游乌利尔文化后裔。目前普遍认为肃慎、挹娄、勿吉和靺鞨之间都没有直接的先后继承关系。因此,考古学证据倾向于支持通古斯语人群是黑龙江中游古代人群的直系后裔,而不是中国东北南部地区古代人群的后裔。从遗传学数据看,通古斯语人群的核心父系类型——M48的早期扩散中心就在黑龙江中游地区,本文支持考古学研究提出的关于通古斯语人群起源地观点。
本文从狭义和广义两方面讨论肃慎族系人群的古今前后继承性。狭义的“肃慎”是周代中国东北南部、燕国东北边境之外的古代人群。据此前文献及本文的分析,所有通古斯语人群的核心父系祖先在距今2 000年前的汉代前后,可能只是黑龙江中游流域河谷地带的单个父系家庭/家族。因此,不太可能是距今3 000年前中国东北南部被周代文献所记载的“肃慎”。遗传学数据也不支持通古斯语人群与狭义的“肃慎”人群的直接先后继承关系。
广义的“肃慎”指中国东北及东北亚地区和使用弓箭的采集渔猎人群的后裔。通古斯语人群中存在一些非常古老的、在旧石器时代就已经诞生、但没有经历扩张的父系、母系小支系,可视为旧石器时代古老支系的遗存。另一方面,中国东北新石器时代人群的遗传成分和遗传支系的绝大部分后裔都已被融入满族等通古斯语人群中。因此,如果认可广义的“肃慎”的主体是中国东北南部新石器时代至青铜时代的古代人群,则这一人群的主要后裔确实是在满族之中,也有部分后裔融入华北汉族人群和日韩人群。从广义的角度看,现代通古斯语人群,特别是满族,确实可认为是整个中国东北及俄罗斯远东地区古代人群(其中包括“肃慎”)的继承者。
3.2 扩散中心、扩散路径和混合过程
通古斯语族所包含的语言数量比较少,因此对于通古斯语族的内部谱系,语言学研究已经整理得比较清楚。从语言学的角度看,南部通古斯语人群和北部通古斯语人群可能在比较早的时间就发生了分化。从历史学和语言学的研究看,南部通古斯语人群与我国东北古代人群经历了强烈的混合。此前对通古斯语人群的演化历史有以下基本认知
[3⁃5]。
(1)通古斯语人群有极其悠久的演化历史,可追溯至3 000年前的肃慎人群甚至旧石器时代黑龙江流域的古人,其采集渔猎的方式是该地区至旧石器时代数万年的延续。根据遗传学的研究,全体通古斯语人群最晚共祖群体大概生活在2 000年前的黑龙江流域中游。据此,通古斯语人群作为一个整体的群体演化历史时间只有2 000年,这与以往的认知存在较大的差别。当然,距今2 000年的始祖群体确实是旧石器时代黑龙江流域古人的后裔,但可推定只是一个人口极少的从事采集渔猎的家庭。
(2)史料记载,勿吉和靺鞨人群是非常庞大的族系。传统的认知认为,通古斯语人群起初就广泛分布在黑龙江下游(三江平原以下),这一片区可能是通古斯语人群的扩散中心。综合此前研究和本文的分析,通古斯语人群的早期扩散地点大概在黑龙江中游河谷地带。通古斯语人群内部分为南北两支,北支包括埃文基人和埃文人,其他人群构成南支。始祖群体的东部分支从黑龙江中游向下游的扩散大概发生在距今2 000年至距今1 600年之间。而始祖人群的西部支系从向西伯利亚东部和中部扩散,始终没有涉及黑龙江下游地区。因此,黑龙江下游地区不是通古斯语人群的早期扩散中心。
(3)传统的认知认为靺鞨人和满族是通古斯语人群的核心继承者。从文化上看确实如此,但从遗传学角度看则有较大差异。满族和锡伯族遗传结构中来自外部人群混合的比例很大,通古斯语人群奠基者父系C2a-SK1061在各地满族人群中的比例为1%左右。因此,可以认为这两个人群继承自最古老始祖群体的遗传成分比例已经很低,后期的混合占到较大的比例。另一方面,一般认为现代满族和锡伯族的高度混合情况是清朝建立以后扩散到全国定居后混合的结果。但古DNA显示
[44],在靺鞨时代甚至更古老的时期,远古的女真和满族人群的祖先已经是遗传上高度混合的人群。推测父系C2a-SK1061在古代靺鞨人中比例较低。因此,推测广泛的混合从勿吉、靺鞨时代早已开始,而非清代之后。
根据当前的遗传学研究进展,通古斯语人群独特的体质⁃生理特征大致是以下三个进化过程所积累的结果。首先,通古斯语人群的核心父系C2a-SK1061确实是亚洲东北部地区最古老的旧石器时代人群的直系后裔。因此,通古斯语人群继承了其旧石器时代始祖经过适应性进化过程而获得的性状。其次,通古斯语人群的祖先在距今1.8万年至距今2 000年之间经历了极长时间的瓶颈效应,到距今2 000年才开始发生群体扩张,如此强烈的瓶颈效应和奠基者效应,导致人口极少的始祖人群的独特体质-生理特征扩散为广大后裔(即现代通古斯语人群)的普遍体质⁃生理特征。其三,扩散到不同区域的通古斯语人群的分支与当地人群发生深度混合,这导致不同地区的通古斯语人群的体质-生理特征存在较大的差异。此前的调查研究显示,西伯利亚的埃文基人与楚科奇堪察加半岛的埃文人、库页岛的乌尔奇人以及我国各地的满族人群的体质性状间存在较大的差异。遗传学研究显示,这些人群分别与当地人群经历了强烈的混合,支持以往的体质研究结果。
综上,根据遗传学和本研究,全体通古斯语人群确实有显著的共享父系类型(M48),支持他们作为有共同祖先群体的一大语族人群集团的演化过程。其次,北部通古斯语人群和南部通古斯语人群的父系结构有比较大差异,主要表现为南部通古斯语人群,特别是锡伯族和满族,混合了较多的来自东北或者华北人群的主要父系类型,支持语言学和历史学研究的混合过程的结果。
3.3 未来研究展望
经过近30年的研究积累,全球各大人群的父系遗传数据均有报道。目前的主要任务是找到各人群的关键数据,识别出核心父系类型,厘清语系⁃语族层面的整体演化图景,总结以往研究的得失,提出未来研究关键点,本文可以作为这类研究总结的一个案例。未来研究的重点难点可从以下方面进行。
3.3.1 东北南部诸古代人群的起源演化过程
根据史料记载,古代中国东北南部地区存在很多人群,包括秽、貊、高丽、扶余、沃沮、挹娄、靺鞨、女真和汉族人群等等。目前旧石器时代中国东北地区古DNA已较为丰富,但新石器时代、青铜时代及其他历史时期的古DNA仍较为缺乏。已有的数据还不足以揭示上述人群的起源过程和遗传结构,这方面的工作有待加强。
3.3.2 通古斯语人群(特别是满族)诸氏族的起源过程
根据以往的研究以及本文的细分数据,可以认为满族是中国东北所有古代人群的后裔的集合体。除满族外,其他通古斯语人群有很多氏族。满族中存在一千多个姓氏,各自有不同的来源,这些姓氏家族是如何起源并最终成为满族的一部分?这些家族如何影响了中国东北地区古代政治历史进程?这些均有待进一步细化研究。
3.3.3 北部通古斯语人群的起源演化过程
黑龙江流域在我国区域的考古学文化变迁过程已经基本厘清。但黑龙江流域在俄罗斯境内的考古学研究相对滞后,认为可能是靺鞨文化源头的乌里尔文化为何兴起、为何发生东西分化还不清楚,乌里尔文化人群的东部分支是如何扩散到黑龙江下游和松花江流域的?乌里尔文化人群的西部分支又是如何扩散到外兴安岭以北以及以西区域,进而在后世演化为埃文基人和埃文人的?这些过程目前仍不清晰。通古斯语人群的遗传结构,包含了人类在亚洲东北部高纬度地区经历了四万余年的适应性进化而积累的遗传变异,这些变异的起源和扩散过程、生理功能等还有待进一步细化研究。
目前,由于序列的数据还比较缺乏,特别是俄罗斯境内通古斯语人群的数据缺乏,不能完全厘清 通古斯语族下每一个人群的遗传谱系之间的分化拓扑关系。因此,通古斯语族的分化拓扑结构和早期演化过程仍待探究,未来在这方面还要开展进一步的研究。
国家民族事务委员会内蒙古师范大学中华民族共同体研究基地资助项目“满⁃通古斯语人群的分子人类学溯源”(2023MZJD01)