0 引 言
生物元件(biological part)是具有特定功能的核苷酸序列,是遗传系统中最简单、最基本的生物积块(BioBrick)。早期,生物积块作为遗传部件,常用于基因操作,表现出了组装的高效性和潜在的功能多样性。生物元件这一概念与生物学新型交叉学科——合成生物学的理念相吻合,并促进了其不断发展。
21世纪初期,合成生物学随着基因组学与系统生物学的兴起应运而生,并结合了生物、化学、计算科学、工程等多学科的知识,在医药、环境、能源等领域均表现出强大的应用前景
[1]。合成生物学强调对生物的设计与改造,通过重新设计天然生物系统或是自然界中不存在的生物系统,来实现对细胞行为的调控,是一种有意图、有目的性的工程设计
[2]。在短短的十年间,合成生物学已在医疗诊断、基因治疗、环境监测等问题上提供了全新的解决途径,在替代能源生产方面也展现出巨大的应用潜力
[3]。
正是由于合成生物学具有强大的生命力和势不可挡的发展动力,与之密切相关的国际基因工程机器大赛(international Genetically Engineered Machine competition, iGEM)在同时期诞生。iGEM大赛第一届于2003年由麻省理工学院举办,旨在推动合成生物学发展
[4],同时也促进高校将科学研究与本科生培养进行有机融合,并推动各国大学生之间的学习、交流与合作
[5]。中国作为参赛大国,在每年的比赛中都有着精彩表现,取得了令人瞩目的成绩。
以2020年iGEM比赛为例,大赛共有10个传统赛道和2个特殊赛道。传统赛道分别有诊断技术、能源、环境、治疗方法、食品与营养、基础性革新、信息处理、制造业、新型应用、高中生赛道。特殊赛道有软件赛道和开放赛道(不属于其他通道的研究领域如硬件、艺术设计等)。各个参赛队伍选择一个目标赛道,在一年的时间内开展项目构思与设计。在实验的过程中,参赛队伍需要利用标准的生物元件来构建基因回路,同时构建有效的数学模型,实现对复杂人工生物系统的预测与测量,并开展一系列社会调查和实践来推广项目。iGEM大赛共设置金银铜三个奖项,每个奖项有固定的要求,最终根据是否满足要求来进行评奖。大赛还设有赛道单项奖和专项奖,如最佳新基本元件,最佳组合元件等。
iGEM以竞赛的方式,回答了合成生物学中能否在活细胞内利用标准化组件构建生物系统、并加以操纵的核心问题。这就要求各参赛团队在基因工程的基础上,采用标准化的遗传操作进行设计。在这个过程中,所用到最为关键的元素就是各类生物遗传元件,因此生物元件库的丰富与否一定程度上决定了团队设计项目的有限性以及iGEM大赛的发展。
1 生物元件概述
生物元件的概念最早由Endy和Night提出,两人确立了从“元件(part)”到“装置(device)”再到“系统(system)”的合成生物学工程原则
[6],是iGEM把生物系统工程化的理念基础。生物积块是具有特定功能的DNA片段。小型的生物元件分为基础元件(basic part)和复合元件(composite part)。顾名思义,基础元件就是最小单位的、不可分割的元件,例如启动子(promoter, P)、核糖体结合位点(ribosome binding site, RBS)、终止子(terminator, T)等;复合元件是由两个及两个以上的基础元件组装形成的DNA功能模块,例如一个含有RBS、蛋白编码序列、报告基因和终止子的DNA元件。稍大一些的装置是由几个基础元件组合起来的能够在活细胞中行使一定功能的组合元件。更大的生物系统是装置以串联(series structure)、反馈(feedback)或者前馈(feedforward)等形式连接起来的较为复杂的级联线路(cascade circuit)或者调控网络(regulatory network)
[7]。
生物积块的特点是标准化(standardization)和模块化(modular)。具体表现在每个生物积块除了本身的功能序列之外,都含有相同的前缀(prefix)和后缀(suffix)。每一个前缀片段上都含有
EcoR I和
Xba I酶切位点,后缀中含有
Spe I和
Pst I酶切位点
[7],因此通过简单的酶切酶连就可以将生物积块拼接起来,大大提高了效率。由于
Xba I和
Spe I是同尾酶(isocaudomer),连接后无法切开,从而可以将两个生物积块紧紧连接起来。就像搭积木一样,一个复杂的生物系统就是由一个个生物积块逐步搭建出来的,这个过程充分展现了合成的魅力。生物积块的标准化连接方法见
图1,且连接后仍具有相同的4个标准酶切位点
[8]。
为了更加系统地归纳现有的元件Endy与Rettberg等人一同建立了“标准生物元件注册库”(registry of standard biological parts)网站
[9],收集各种标准化处理的元件,为历届iGEM比赛提供了模块信息的存储、交换和检索的公共数据平台
[4]。该平台每年都会向所有参赛队伍免费提供所有生物元件,参赛队伍也会上传新构建的生物元件和规范化的描述性文字
[7]。标准生物元件注册库中针对每个元件都有详细的说明,包括该片段的示意图、碱基顺序(不包括前缀和后缀)、功能,以及其他使用者提供的使用经验等
[7]。在标准元件库中,生物元件都以载体的形式存在
[10],经过模块化处理,便于取出和组装,并且制备为干粉,供参赛者使用。
生物元件的发展大体经过三个时期,分别是元件的收集、完善以及模式更新。早期的生物元件来源于自然界,主要通过传统的分子克隆方法或基于保守序列的PCR方法等进行挖掘
[3]。获得的这些元件经过iGEM的规范化、约束化和强制化,逐渐形成了早期的元件特点。
近年来,随着生物信息学和基因组技术的发展,大量的生物基因组被测序解析。通过相应的基因组注释、功能验证以及位置预测,越来越多的生物元件被人们所认识并利用,为合成生物学提供了丰富的生物资源。而随着元基因组技术的发展,大量未培养微生物中的基因和基因簇信息也得以解析,使得我们可以从占自然界中实际存在微生物总数99%的未知微生物中挖掘更多的生物元件
[3]。
此外,将天然生物元件进行修饰、重组和改造也可以得到新的元件。如通过理性设计,利用各类算法建模、预测,也可采用非理性设计,如定向进化来得到目的元件。这种在原有元件的基础上的完善方式主要体现在元件的数量和体量上的增加。
生命科学领域的发展推动着生物元件的丰富和完善,是元件发展的核心动力。现如今,随着科学研究的深入,元件的发展更加与时俱进,模式也逐步升级换代,出现了一些非传统元件,例如CRISPR元件、与调控功能相匹配的元件,以及基于系统与环境互作中的行动⁃反馈元件、双组分信号转导元件等。这些元件响应了研究者们对其功能的更高需求,体现了思维维度的转换。
2 iGEM生物元件资源的分类
在合成生物学中,元件是最基础的砖块,可以用这些砖块搭建出功能更加具体的装置乃至生物系统。为了便于我们快速查找到所需的元件,iGEM元件库中存在着多种分类方式。其中主要有元件与装置的类型和功能、使用的底盘生物等。本文在现有的分类方式基础上将元件划分为基础元件、复杂元件和系统集成元件,与传统的“元件⁃装置⁃系统”分类有交叉也有不同。
2.1 基础元件
基础元件是相对单一的常规元件,按照其功能不同分为启动子、RBS、蛋白结构域(定位信号结构域、DNA结合结构域、报告蛋白结构域、降解标签结构域等)、蛋白编码区(报告蛋白、转录调控蛋白、选择标记、膜蛋白、受体与配体、各类酶)、终止子等。每一个元件都被赋予一个标准的编码名称,且同种功能的元件具有相似的编码,因此其生物学功能可以通过名称被快速识别
[7]。
启动子按照功能可以细分为组成型启动子、与细胞信号有关的启动子、对金属敏感的启动子、噬菌体启动子等。按照调控方式也可分为组成型和正、负调控型。大肠杆菌中常用的组成型启动子来自于安德森启动子家族(Anderson promoter collection),编号从BBa_J23100至BBa_J23119,J23119为最强的启动子。这些启动子内部存在的Nhe I和AvrI I限制性位点使其成为进一步修饰的支架,用于调节组成性表达部分的表达水平。
常用的RBS分为组成型原核RBS、调控型原核RBS(Riboregulators)、酵母RBS、组成型定制RBS(constitutive custom RBS)。
RBS的选择范围相比启动子较小,大部分原核基因表达只需要最基本的组成型RBS即可,使用最多的为BBa_B0034、BBa_B0032、BBa_B0030等。
调控型原核RBS可以控制基因的表达,广泛用于开关的构建。通常的手段是在RBS上游设计短互补序列,称为顺式抑制物(crRNA),以形成茎环结构“锁定”RBS区域,停止翻译。当只有存在更优先结合该茎环结构的反式激活物RNA(taRNA)才能暴露RBS,开启翻译
[11]。
终止子是合成生物学中重要的元件,表现为一段发夹结构,常用于终止转录、基因线路间的绝缘等
[12],其中,原核终止子根据在两个转录方向上的终止能力分为正向、反向和双向终止子。
2.2 复杂元件
复杂元件是多个有共性的基础元件集合,并结合了部分逻辑拓扑结构,可以简单地看作装置。
装置的类型有很多,主要有蛋白生成装置(protein generator)、报告装置(reporter)、转换器(inverter)、信号转导装置(receivers and sender)等
[7]。此外,已经工程化的装置还有控制基因表达的各种开关如拨动开关(toggle switch)、核糖开关(riboswitch),基因振荡器(repressilator),模拟各种逻辑门功能的生物装置等
[8]。
蛋白生成装置是能产生具有一定功能蛋白质的装置,一般含有启动子、RBS、蛋白编码区和终止子。报告装置多为荧光蛋白编码序列,分为组成型和诱导型,以检验启动子及调节因子的结构组成和效率,常用的为GFP、mCherry等。转换器是一种遗传装置,如在接收到某种信号时停止下游基因转录,而未接收到信号时开启下游基因转录,实现两种信号的转换。
拨动开关是指利用上下游基因启动后相互抑制的特点,使整个系统有两种稳定的输出状态。核糖核酸开关是一种天然存在于基因mRNA非编码区域的调控元件,与小分子代谢物结合后会引起 mRNA二级结构的改变,从而开启或关闭基因的表达,实现对基因的转录后水平的调控。基因振荡器是在转录水平上,将三个表达产物相互抑制的基因模块串联成一个环状结构,利用基因模块间的彼此抑制和解抑制达到一种基因表达周期变化的功能
[7]。
近年来,与细胞通讯有关的元件非常热门,其中群体感应相关元件使用频率较高。群体感应(quorum sensing, QS)是指当微生物群体浓度达到一定水平时,会进行某些特定的生理活动,表现出与细菌个体所不同的表征,如产生荧光、形成生物膜等。菌群通过释放信号分子N⁃酰基高丝氨酸内酯(acyl⁃homoserine lactone, AHL)来调控自身浓度,当达到某一阈值时,便会开启特定基因的表达
[13]。群体感应系列元件包括了启动子、转录调节蛋白(包括阻遏和激活蛋白)、信号物质合成酶、发挥群体淬灭功能的降解酶以及各种组合元件。其中,来自费氏弧菌(
Vibrio fischeri)的LuxI/LuxR群体感应系统使用得最为广泛,产生了许多受AHL⁃LuxR调控的启动子,如BBa_R0062、BBa_R0063等。每个元件在使用过程中都会被多个参赛队伍表征和完善。如
luxPR启动子,有团队将将组成型强启动子(BBa_J23100)的⁃35到⁃10区替换到其上游,构建了具有更高σ因子结合水平的启动子
luxPR⁃
fus;此外,也有在上游lux box处突变,构建了具有低泄漏、高强度和较高激活阈值的启动子
luxPR⁃
4G12T[15]。群体感应的淬灭常通过AHL信号的水解得以实现,这个过程依赖AiiA酶,使用较多的是BBa_C0060。除了LuxI/LuxR系统,还存在着许多不同来源的群体感应系统,例如来自铜绿假单胞菌(
Pseudomonas aeruginosa)的LasI/LasR系统、RhlI/RhlR系统、来自根瘤菌(
Rhizobium)的Cin系统等。
受金属离子调控的元件包括感受金属的启动子,金属结合蛋白等,常用于金属传感器的设计。该类项目多与环境和能源赛道挂钩,如环境、食品、药物中重金属含量检测,环境中贵金属的回收等。如铬酸盐感应启动子P
chr 遗传回路,同时引入了铬酸盐还原和自杀开关功能,使得大肠杆菌能够处理环境中排放的铬酸盐,而又具有一定安全性
[16]。
各类光敏蛋白构成的光控元件也是一大热门,如受绿光调控的Ccas/CcaR系统,红光调控的Cph8/OmpR系统,蓝光调控的YF1/FixJ系统、CRY2/CIB1系统等
[17]。例如一种基于CRISPR系统的光诱导电路
[18]:将光敏蛋白CRY2与转录激活物VP64融合,将蛋白CIB1与缺失催化结构域的tCas9融合,形成CRY2⁃VP64和CIB1⁃tCas9复合物。在gRNA的引导下,CIB1⁃tCas9复合物与目标启动子结合,一旦暴露在蓝光下,来自CRY2⁃VP64的CRY2结构域就会与CIB1⁃tCas9形成蛋白质复合物,从而将VP64结构域带入染色质并激活目的基因,实现基因的光诱导表达。元件设计如
图2所示。
2.3 系统集成元件
系统集成元件是多个复杂元件的整合,以执行某种调控行为和生物功能,与生物系统类似。
2019年华中农业大学HZAU团队构建了一个集气味感受、气味记忆、气味合成一体的模型,各个模块可以看作是一个系统集成元件。该元件选择苯甲醇作为目标感受的气味,首先构建能够识别气味信号的装置,并开启下游气味记忆的表达。在记忆模块中,
luxPR启动子转录LuxI蛋白,产生AHL信号,AHL与LuxR形成活性二聚体,激活
luxPR启动子,起到正反馈作用。当二聚体浓度达到恒定时,
luxPR启动子转录强度保持稳定,使得下游转录的taRNA在胞内不断积累,作为开启气味合成模块的“钥匙”(
图3)。在气味合成部分,团队采用了受taRNA信号调控调控型原核RBS开关。在通常情况下crRNA会覆盖RBS区域,阻遏翻译进行,而记忆模型中积累的taRNA能够与crRNA配对结合,发生结构转变,使得RBS暴露出来。为了赋予其人为操控的能力,团队将其与诱导型启动子结合构建了与门,实现了转录水平和翻译水平的调节。因此在积累了足够的taRNA的情况下添加诱导物,就能开启气味合成基因的表达
[15](
图4)。
其他重要的系统集成元件也体现在不同的功能表现和调控形式上,例如生物安全(主要为生物自杀)、生物合成、金属检测与CRISPR/Cas9系统等。
生物安全问题是合成生物学的一大难点,在没有技术支持和道德规范的指导下,若转基因生物体(genetically engineered organism, GEO)扩散到自然环境中,则会造成基因污染。针对此,参赛团队都会设计相应的生物安全模型,经典的生物安全机制
[19]:采用有时间延迟功能的自杀系统,让GEO完成工作后启动自杀程序并降解基因线路,防止水平基因转移;采用物理隔绝,将GEO封装在藻酸盐珠子中实现空间隔离等。
自杀程序的核心为毒素⁃抗毒素系统,例如大肠杆菌素E2(Colicin E2, ColE2)和对应的免疫蛋白抗毒素,CcdB与CcdA等。毒素的表达或作用受到同源抗毒素的阻碍,从而产生可控制的自杀系统,它的开启常用pH值、温敏以及光敏传感器,色氨酸操纵子,4⁃异丙基苯甲酸(cumate)诱导调控系统等。
较为热门的生物合成物质为萜类化合物。植物萜类化合物因其芳香性而被广泛使用,常用于香料以及抗菌、抗肿瘤药物的制备。青蒿素的异源合成是经典的萜类生物合成案例。Keasling课题组设计并整合了青蒿酸的生物合成MVA途径,从大肠杆菌底盘中优化,最终在酵母细胞中实现了青蒿素的合成,其产量提升到了工业化水平
[20]。
近年来,与CRISPR系统有关的元件使用也十分广泛,可以作为疾病检测的重要工具。例如将Cas13a切割非目标RNA的特点和凝聚反应相结合,实现CRISPR系统的切割可视化,来检测奶牛是否感染携带抗性的细菌,减少抗生素滥用带来的危害
[21]。此外,也有团队构建了结核病可视化核酸检测系统,将报告蛋白的两片段与dCas9蛋白融合,sgRNA靶向病原菌特异性靶点,将检测结果变为可读取的信号
[22],如
图5所示。
生物元件常用的分类方式还有底盘生物种类、来源的iGEM项目、获奖的元件等。常用的底盘有大肠杆菌、枯草芽胞杆菌、酿酒酵母以及无细胞系统等。无细胞系统是将基因转录和翻译所需要的酶集中在一个体外的体系中,使得基因线路能够在细胞外发挥作用
[23]。它更为简便和快捷,是一种能够在不受细胞生命限制的情况下工程化的新系统。
3 iGEM元件汇总与展望
获得最佳元件单项奖的元件都具有以下特点:创新、有效、被充分表征和说明。它们多为项目的核心元件,也是某些特定功能元件集合的补充。本文以近几年的元件单项奖为例,简要介绍部分获奖的元件。
2019年iGEM的最终大奖颁布给了重组蛛丝蛋白的项目,该项目生物合成的彩色蛛丝蛋白也获得了最佳新基础元件和新元件组合单项奖。该团队受天然蛛丝启发,构建了重组蛛丝蛋白NT2RepCT和NT4RepCT,并与不同色蛋白组合,产生了不同色彩和功能的蛛丝蛋白
[24]。一种携带光敏蛋白,并能够靶向癌细胞HER2受体的胶囊蛋白(Encapsulin)获得了最佳元件
[25]。其中,锚蛋白DARPins929的设计获得了最佳新基础元件;胶囊蛋白、光敏蛋白miniSOG和DARPins929的复合元件表现出了良好的靶向和治疗活性,获得了最佳新复合元件奖。此外,也有团队构建的类似支架蛋白的多功能蛋白平台获得了元件单项奖
[26]。该平台可以将纤维素和不同功能的分子连接起来,赋予了纤维素多种用途。
iGEM生物元件库发展至今已有超过20 000个元件,且在逐年增加。生物元件为合成生物学系统的搭建提供了便利,也是生物资源不断丰富的体现。本文总结了标准生物元件库中的部分元件,并概括性地统计了元件数量,如
表1所示。表格信息来源于元件库中的分类。其中蛋白质结构域主要包括信号定位区、DNA结合区、linkers等;蛋白编码序列是从起始密码子到终止密码子的完整序列,根据功能主要有各类酶、报告蛋白、膜蛋白等;翻译单元含有RBS与蛋白编码区;质粒骨架是以生物积块后缀开头的质粒序列,包括复制起点和抗生素抗性标记,并以生物积块前缀结尾;其余元件本文中已有介绍。
可用的生物元件的增加提高了iGEM大赛的知名度,让更多人了解并参加iGEM大赛,而参赛人数的增加也有利于更多创新型生物元件的挖掘,得以形成一个良性循环,促进生物资源、智力资源与人才资源的丰富和发展。iGEM作为国际知名生物竞赛,推动了合成生物学的创新,同时也为国内生物竞赛的举办提供借鉴意义。希望在未来,国内能有更多高水平、高质量的生物类竞赛,让更多学生参与进来,促进生物领域的创新和发展。