纤维素是一类由葡萄糖通过β-1,4糖苷键组成的化合物,是构成植物细胞壁的主要物质。随着石油等不可再生资源的日渐枯竭,开发新型可再生资源受到越来越多关注。天然纤维素是由植物合成的,是自然界存在最广泛的可再生有机物,作为供能物质开发前景巨大。目前处理纤维素的主要方法有物理法、化学法和生物酶处理法。其中,生物酶处理法具有绿色、高效等特点,是最具有潜力的处理方法。
原核纤维素降解微生物以细菌和放线菌为主。细菌的主要来源菌属为纤维黏菌属、芽孢杆菌属、热双歧菌属和欧文氏菌属
[1]等。其中,纤维黏菌属、芽孢杆菌属、欧文氏菌属是最常见的致病菌,具有一定毒性,分泌单一酶,应用pH值范围小,酶活低,产量低,提纯难度高,且多为胞内酶。而大肠杆菌是埃希氏菌属中最为常见的微生物,具有广泛的应用前景和较高的改造价值。Pang等
[2]在牛瘤胃中分离得到一株可以外泌β-1,4内切葡聚糖酶的ZH-4,这是首次筛选得到可以向胞外分泌纤维素酶的大肠杆菌,其向胞外分泌纤维素酶的能力,可以解决目前主流纤维素酶生产菌难以分离纯化的问题,应用前景巨大。前期工作已经确定该内切葡聚糖酶的分泌属于两步法,且Sec (General secretory pathway)系统在分泌过程中起到关键作用,研究
[3]表明,Ⅱ型分泌系统(type Ⅱ secretions system,T2SS)在多种微生物中参与纤维素酶的分泌,由此推测ZH-4的内切葡聚糖酶也可能通过T2SS向胞外分泌,因此,探究ZH-4中通过T2SS途径分泌的蛋白及其特征意义较大。
自20世纪80年代克雷伯氏菌属被发现以来,T2SS已在假单胞菌属、气单胞菌属、欧文氏菌属、黄单胞菌属、弧菌属和产肠毒素大肠杆菌等
[4]菌株中被鉴定和研究,为T2SS的组成和分子组织研究提供了帮助。迄今为止,基因组研究表明,在数百种细菌中存在T2SS,这些细菌属于变形菌门所有纲,但也包括衣原体、螺旋体或蓝细菌等其他主要类群。革兰氏阴性菌具有多种对其生存和致病有重要意义的蛋白分泌系统。其中,T2SS是与其生命活动相关最密切的分泌系统之一。
T2SS操纵子包含12~13个经常排列在单个操纵子中的基因,命名为gspC~gspO。T2SS可进一步细分为3个亚复合体:1) 外膜复合体,包括gspD形成的分泌通道和类菌毛gspS;2) 一个称为组装平台的内膜复合物,包括gspC、gspF、gspL、gspM和细胞质ATP酶gspE;3) 假菌毛,构成主要的假菌毛蛋白gspG,以及次要的假菌毛蛋白gspH、gspI、gspJ和gspK。前菌毛素肽酶gspO嵌入内膜,将假菌毛蛋白gspH、gspI、gspJ和gspK加工为成熟形式,为假菌毛组装做好准备。
T2SS底物的显著特征是存在一个N端信号序列,通过Sec或双精氨移位酶(twin-arginine translocase,Tat)蛋白输出系统将其靶向到周质空间中。Sec底物在伴侣蛋白、Dsb (Disulfide bond)氧化还原酶和钙离子的辅助下,以线性多肽的形式输出,以适应其在周质空间的天然状态。T2SS是已知Tat底物的唯一出路。在大肠杆菌中,对产肠毒素大肠杆菌(ETEC)的T2SS分泌蛋白研究较多,其产生的LT-IIb热不稳定肠毒素ⅡA亚单位前体利用T2SS向胞外分泌。大肠杆菌通过T2SS产生的YodA蛋白参与了该菌对上皮细胞的黏附和肠道定植
[5]。大肠杆菌K-12 (K-12)菌株内也存在Ⅱ型分泌蛋白,但在实验室培养条件下不表达。研究表明,在K-12菌株H-NS蛋白沉默突变子中成功通过T2SS向胞外表达了几丁质酶ChiA
[6]。
本研究通过对已完成基因组测序和蛋白功能注释的ZH-4基因组进行Ⅱ型分泌蛋白的检索,将其与NCBI数据库中的Ⅱ型分泌蛋白序列进行比对,筛选出与ZH-4同源的Ⅱ型分泌蛋白并明确其数量。同时,对Ⅱ型分泌蛋白的结构域、理化性质、二级结构、三级结构和亲缘关系进行研究,为进一步开展ZH-4外泌纤维素酶的研究提供理论参考。
1 材料和方法
1.1 数据来源
ZH-4的基因测序采用二代Illumina平台测序技术,得到的测序结果以MG1655参考序列作为对照,将获得的原始测序结果与其进行比对,该测序结果已上传至GenBank数据库中保存,登录号为SRR11659053。
T2SS的分泌蛋白底物见
表1,基因序列由National Center for Biotechnology Information (NCBI)网站获得。
1.2 实验方法
1.2.1 基因结构分析
利用ecocyc的基因组浏览器(
https://biocyc.org/)对各个T2SS基因进行注释,查看ZH-4和其他微生物的T2SS基因结构。
1.2.2 同源T2SS分泌蛋白序列对比
通过NCBI Blast将
表1中的T2SS分泌蛋白序列与ZH-4基因组进行比对,采用缺省阈值输出比对结果。
1.2.3 T2SS分泌蛋白中保守结构域分析
通过SMART网站(
https://smart.embl.de/)对ZH-4中T2SS分泌蛋白具有的保守结构域进行预测分析。
1.2.4 T2SS分泌蛋白的疏(亲)水性、理化性质预测
利用Protscale程序(
https://web.expasy.org/prot scale/)对ZH-4中所含T2SS分泌蛋白进行理化性质分析。
1.2.5 T2SS分泌蛋白的转运肽、信号肽预测
1.2.6 T2SS分泌蛋白的高级结构和跨膜区结构分析
1.2.7 T2SS分泌蛋白的亚细胞定位预测
通过CELLO v.2.5 (
http://cello.life.nctu.edu.tw/)对ZH-4中T2SS分泌蛋白开展亚细胞定位预测,预测和分析过程如
图1所示。
2 结果与分析
2.1 ZH-4 T2SS的基因组成
在
α-变形菌纲、
β-变形菌纲和
γ-变形菌纲某些种属之间,T2SS基因的存在率似乎较低,然而,在葡糖醋杆菌、伯克霍尔德氏菌和地杆菌中的研究
[7]表明,T2SS基因至少在以上变形菌中存在一些功能。
与ZH-4同源性较高的K
-12拥有完整的T2SS基因结构。
图2为部分菌种之间T2SS组成图。由
图2可知,Ⅱ型分泌的
gspG、
gspH、
gspI、
gspJ和
gspK排列顺序最保守,外膜分泌子
gspD、内膜平台
gspF和
gspE(编码ATP酶)的排列顺序在不同物种间有差异。嗜肺军团菌缺少大部分T2SS的基因。茄科劳尔氏菌除了有1套完整的T2SS基因外,还有多个
gspD、
gspF、
gspG和
gspE基因;大肠杆菌BL21(BL21)中除了拥有1套T2SS基因外,还拥有多个
gspE、
gspF、
gspH、
gspI、
gspJ和
gspK基因;白菜黑腐病菌和番茄疮痂病菌均有2套T2SS基因。
2.2 ZH-4中Ⅱ型分泌蛋白的预测
研究采用的菌株有21个,分别为嗜水气单胞菌、杀鲑气单胞菌、类鼻疽伯克霍尔德菌、越南芽胞杆菌、萝卜软腐欧文氏菌、菊基腐病菌、肠出血性大肠杆菌(EHEC)、产肠毒素大肠杆菌(ETEC)、K-12、BL21、奥克西托克雷白杆菌、嗜肺军团菌、铜绿假单孢菌、黏乳产碱杆菌、恶臭假单胞菌、霍乱弧菌、创伤弧菌、野油菜黄单胞菌、菊欧文氏菌、希瓦氏菌、小肠结肠炎耶尔森氏菌。
将
表1中的T2SS分泌蛋白与ZH-4基因组序列进行对比,得到7条同源序列(如
表2所示)。推测同源序列数量较少的原因可能是大部分Ⅱ型分泌蛋白具有致病性的毒力因子。
2.3 分泌蛋白的跨膜结构域
将7个序列进行TMHMM Server v.2.0以及SMART预测分析,结果如
图3所示。
从
图3中发现7个蛋白含有跨膜结构域的概率较低,ZH-4GM002540、ZH-4GM002541、ZH-4GM003554、ZH-4GM002178几乎不存在跨膜结构域,ZH-4GM004083有29.37%的概率在序列前端存在一个跨膜结构域。ZH-4GM002719和ZH-4GM003344的序列相似性较高,预测结果也基本一致。TMHMM Server v.2.0分析结果表明,ZH-4GM002540、ZH-4GM002541、ZH-4GM003554、ZH-4GM004083、ZH-4GM002718、ZH-4GM002719、ZH-4GM003344氨基酸残基数分别为619、914、417、216、814、205、205个。此外,7个蛋白的跨膜螺旋氨基酸数分别为0.470 79、0.001 72、1.220 75、5.154 48、1.032 30、0.000 34和0.000 35。N端前60个氨基酸中跨膜氨基酸数分别为0.467 29、0、0、5.154 13、1.007 97、0.000 17和0.000 17,N端位于细胞质侧的总概率分别为0.030 63、0.000 08、0.065 37、0.293 77、0.048 83、0.057 87和0.055 89。综合分析7个蛋白均为非跨膜蛋白,符合分泌蛋白的特点。结构域预测信息表明,7个蛋白均定位于胞外,与分泌蛋白的特点一致。
2.4 分泌蛋白的疏(亲)水性及理化性质分析
采用Protscale程序分析蛋白质的电负性及部分理化性质
[21]。结果表明,ZH-4中预测的7个Ⅱ型分泌蛋白在疏(亲)水性位点及数值方面均存在差异(如
表3所示)。ZH-4GM003554中亲水性最强的氨基酸为164位的谷氨酸(E),亲水性数值为-2.844,亲水性最弱的氨基酸为208位的缬氨酸(V),亲水性数值为2.333;ZH-4GM002540中亲水性最强的氨基酸为519位的色氨酸(W),亲水性数值为-2.822,而15、16、17、18位的4个氨基酸异亮氨酸(I)、亮氨酸(L)、丝氨酸(S)和丙氨酸(A)有同样的亲水性,数值为2.200;ZH-4GM002541中亲水性最强的氨基酸为207位的天冬氨酸(D),亲水性数值为-3.211,亲水性最弱的氨基酸为505位的丙氨酸(A),亲水性数值为2.156;ZH-4GM004083中亲水性最强的氨基酸为156位的丝氨酸(S),亲水性数值为-2.322,亲水性最弱的氨基酸为13位的甘氨酸(G),亲水性数值为2.989;ZH-4GM002718中亲水性最强的氨基酸为623位的天冬氨酸(D),亲水性数值为-3.078,亲水性最弱的氨基酸为403位的甲硫氨酸(M),亲水性数值为2.278;ZH-4GM002719中亲水性最强的氨基酸为159位的精氨酸(R),其亲水性数值为-2.511,而95位的天冬氨酸(D),其亲水性最弱,数值为1.478;ZH-4GM003344中47位的色氨酸(W),其亲水性最强,数值为-2.178,而166位的酪氨酸(Y),其亲水性最弱,数值为1.611。
对上述7个预测的Ⅱ型分泌蛋白的疏水性、亲水性数值进行统计分析,结果显示,ZH-4GM003554、ZH-4GM002540、ZH-4GM002541、ZH-4GM004083、ZH-4GM002718、ZH-4GM002719和ZH-4GM003344的蛋白总平均亲水性分别为-0.233、-0.493、-0.569、-0.574、-0.439、-0.484和-0.418。综上,7个Ⅱ型分泌蛋白全部为亲水性蛋白。此外,通过对ZH-4中的7个Ⅱ型分泌蛋白进行理化性质分析,结果显示,这7个Ⅱ型分泌蛋白的理论等电点最大为6.39,最小为4.68,均小于7,属于酸性蛋白;同时,ZH-4GM003554、ZH-4GM002718、ZH-4GM002540和ZH-4GM002541的不稳定系数均小于40,为稳定蛋白
[21],而ZH-4GM004083的不稳定系数为47.25,半衰期为2 min,属于不稳定蛋白。ZH-4GM004083基因Blast比对发现,其为大肠杆菌锌指蛋白ZinT。研究表明,ZinT对T2SS具有依赖性
[22]。具体数值见
表4。
2.5 分泌蛋白信号肽情况
采用SignalP 6.0网站对Ⅱ型分泌蛋白序列进行氨基酸信号肽预测分析,结果表明,ZH-4GM002540和ZH-4GM004083都含有Sec信号肽序列,切割位置都位于24~25之间,其信号肽序列分别为MNKKF KYKKSLLAAILSATLLAGC和LAIRLYKLAVALGV FIVSAPAFS。不同的是2种基因预测所得的信号肽切割酶类型不同,在ZH-4GM002540中预测有99.3%的概率为Sec/spⅡ,ZH-4GM004083预测有99.93%的概率为Sec/spⅠ。ZH-4GM002718有接近100%的概率存在Tat信号肽并通过Tat/spⅠ型信号肽切割酶作用,其信号肽序列为MKTKIPDAVLAAEVSRRG LVKT。ZH-4GM002719和ZH-4GM003344皆由dmsB基因序列比对获得,二者不存在信号肽的原因可能是在细胞内dmsA与dmsB结合后在信号肽的作用下转运进入细胞周质空间,而不单独进行跨细胞内膜的行为。
2.6 分泌蛋白的亚细胞定位
ZH-4中预测的7个Ⅱ型分泌蛋白有较大的概率定位于细胞外膜或胞外(如
表5所示)。ZH-4GM002540与K
-12外膜蛋白
ssle基因同源性较高,预测定位于细胞外膜得分最高,为2.717。ZH-4GM003554由菊欧文氏菌中果胶裂解酶
pel基因序列比对得到,研究表明,果胶裂解酶
pel基因依赖T2SS向胞外分泌
[23]。ZH-4GM004083由致病性大肠杆菌的
zinT基因序列比对得到,目前在K-12中还没有ZinT蛋白在细胞外检测到的报道,说明大肠杆菌中ZinT蛋白更有可能在细胞内发挥作用。
希瓦氏菌依赖MtrAB结合脂蛋白不仅能利用不溶性金属呼吸,还能利用胞外二甲基亚砜(DMSO)进行呼吸。
dmsA和
dmsB是大肠杆菌DMSO还原酶(含钼辅因子的
dmsA和含亚基
dmsB的铁硫簇)2个亚基的同源基因,分别编码MtrA和MtrB,即Fe (Ⅲ)氧化呼吸模块的周质和外膜组分。希瓦氏菌的DMSO呼吸既依赖于DMSO还原酶,也依赖于完整的T2SS。T2SS缺陷型的希瓦氏菌不能利用DMSO进行呼吸,从侧面反映出T2SS对细菌生命活动的重要性
[24]。
2.7 分泌蛋白的高级结构
ZH-4中预测的Ⅱ型分泌蛋白均含有比例较低的
β-转角结构(如
表6所示),7个Ⅱ型分泌蛋白均不含有跨膜螺旋结构(如
图3所示)。一般而言,胞外蛋白倾向于富含
β-转角,根据目前已知的结构
[25],
β链互补可能在Ⅱ型分泌过程的早期起重要作用。在分泌蛋白信号肽中,延伸区域通常是保守且功能未知的。有研究表明,自转运蛋白EspP信号肽附近的延伸区域缺失,会导致信号肽的错误折叠并严重影响其跨外膜转运作用
[26]。
同时,对上述7个Ⅱ型分泌蛋白进行三级结构预测,结果显示,7个Ⅱ型分泌蛋白均具有螺旋结构和无规卷曲结构,而只有ZH-4GM002540不存在
β-转角结构(如
图4所示)。
上述7个Ⅱ型分泌蛋白在模型尺寸上也不相同(
图4)。ZH-4GM002719和ZH-4GM003344通过同一个基因比对得到,3D结构较为接近。
2.8 分泌蛋白同源序列进化树
将上述预测得到的7个Ⅱ型分泌蛋白导入NCBI官网中进行Blastp,筛选同源性高的序列构建系统发育树(
图5)。结果表明,7个Ⅱ型分泌蛋白位于4个不同的基因簇中,每个基因簇又分为几个亚簇。其中ZH-4GM002540和ZH-4GM002541亲缘关系较近,与大肠杆菌脂蛋白
ssle基因家族同源性较高,其余5个基因与ZH-4GM002540和ZH-4GM002541之间亲缘关系较远,ZH-4GM003554与大肠杆菌中丝氨酸羟甲基转移酶亲缘关系较近。ZH-4GM002719与部分大肠杆菌中
dmsB基因的亲缘关系较近,ZH-4GM002719与大肠杆菌中DMSO呼吸复合体亚基
ynfg基因亲缘关系较远。
3 结论
部分微生物,尤其是植物病原菌中常含有1~2套T2SS基因,但它们之间的功能分工尚不清楚
[27]。Ferrandez等
[28]发现达旦提狄克氏菌的第2套T2SS可分泌一种能固定于细菌表面的果胶裂解酶同源蛋白PnlH。同样,有报道发现大肠杆菌B系菌株内存在2套T2SS转运系统,其中1套受到HNS蛋白的抑制在实验室条件下被沉默。高冬芳等
[29]在研究芽孢杆菌的纤维素酶催化结构域Cel-CD时,同时敲除B系菌株的2套T2SS转运系统以验证Cel-CD的分泌方式。
大多数Ⅱ型分泌蛋白是在20世纪末鉴定的,经过几十年的研究,现在对于T2SS分泌系统的各个组成部分了解得较为清楚,但是关于T2SS如何识别分泌蛋白仍不清楚。相比于常见的致病性细菌,非致病性大肠杆菌Ⅱ型分泌蛋白的研究报道较少。在此基础上,本文中对目前已知的致病菌T2SS分泌体系进行了初步解析,并通过生物信息学手段,对ZH-4中具有高度同源性的Ⅱ型分泌蛋白进行蛋白特性和特征分析,筛选得到7个同源性较高的序列,通过亚细胞定位基本确定其中4个较大概率为胞外蛋白,符合分泌蛋白的特征。其余3个预测结果表明更有可能为周质蛋白;预测这7个分泌蛋白均不存在跨膜结构域,其中2个预测到存在Sec信号肽,1个预测到存在Tat信号肽;同时明确7个蛋白均具有较高比例的α-螺旋和较低比例的β-转角,并且总亲水性数值均为负值,表明7个蛋白均为亲水性蛋白。此外,预测结果表明,6个蛋白半衰期超过10 h,稳定性较高。这些信息可为深入研究大肠杆菌Ⅱ型分泌蛋白的特点提供理论依据。