合成生物学技术的研究进展

您所在的位置：网站首页 › 合成生物技术与系统生物工程研究什么 › 合成生物学技术的研究进展

合成生物学技术的研究进展

2024-07-10 21:58| 来源: 网络整理| 查看: 265

20世纪90年代开始，DNA的大量测序为合成生物学的发展打下了坚实的基础[1]。2000年，Collins等团队在大肠杆菌中成功构建了拨动开关和振荡器[2-3]；这些工作也预示着合成生物学这一新学科的正式开启。2010年，Venter团队利用化学合成的丝状支原体JCVI-syn1.0基因组DNA替换了原山羊支原体的细胞，并成功实现了自我复制，对“人造生命”具有里程碑的意义[4]。虽然合成生物学仅经历十多年的发展，但已经取得了不少进展。可以预期，合成生物学将对药物、能源、材料、环境以及人类的健康等领域产生重大影响[5]。

合成生物学作为一门生物学与工程学融合的学科，实际上是工程学的思维在生物学领域的应用[6]。工程学中重要的策略，标准化 (Standardization)、模块化 (Modularity/decoupling) 以及建模 (Abstraction/modeling) 在合成生物学中同样关键。另外，合成生物学家们将复杂的系统分解，利用工程学的思维在不同的尺度上 (如元件、回路、途径等) 进行设计、组装构建、测试并重新设计的循环实验过程；其中，每一步工作都有新技术被不断地开发出来[7]。对这些技术的开发和利用也能进一步促进合成生物学的快速发展。本文就合成生物学中DNA操作的相关技术加以介绍，其中包括DNA组装、DNA从头合成和基因组编辑等。

1 DNA组装

20世纪70年代，第一次将DNA片段通过限制性内切酶和连接酶实现了DNA序列的“切和连”，从而开启了基因工程的生物技术革命[8-9]。合成生物学延续了基于重组DNA的技术，同时又加入了新的要求和思想。从大方向来说，DNA组装技术追求两个大的方向，一个是建立组装的标准，实现其操作标准化[10]，另一个是建立更简便、高效且能组装更大更复杂片段的方法[11]。BioBrick的标准是Tom Knight等在2003年提出的，是最先建立的一套DNA体外拼接标准。该方法利用了一组标准化的限制性内切酶酶切位点，分别叫做前缀 (含EcoRⅠ、XbaⅠ位点) 和后缀 (含SpeⅠ、PstⅠ位点) 的序列位于每一个生物元件的两端。利用这些位点进行切割和后续的连接便形成了一个标准化的DNA拼接流程[12]。BioBrick标准目前仍然应用于合成生物学领域，特别在每年的国际遗传工程机器大赛 (iGEM) 中，很多工作的实现都是利用BioBrick标准。BioBrick标准对合成生物学的主要贡献包括以下两点：首先，两端的内切酶序列为单个生物元件设立了物理边界，因此DNA的拼接可以像乐高玩具一样，便于将来工程化的操作；其次，在整个研究群体中，标准化拼接方法的建立可以实现不同研究团体间DNA元件的通用，避免了重新构建的麻烦，也实现了资源共享。尽管有这些优势，但是BioBrick最主要的局限是元件序列中不能含有前后缀中的酶切位点序列。另外，连接中会形成疤痕序列，这种疤痕序列可能会影响生物元件的功能，并且不能用此方法构建融合蛋白。

1.1 基于内切酶的拼接方法

针对BioBrick标准的缺陷，陆续产生了不少改进的标准。比如BglBrick标准中利用Bgl Ⅱ和BamHⅠ作为同尾酶连接，从而使得连接之后得到的疤痕序列 (编码甘氨酸-丝氨酸)，且可以实现两个蛋白的融合表达[13]。另外，我们实验室建立的iBrick标准，利用识别长序列的归位内切酶代替了常规的Ⅱ型限制性内切酶，从而避免了BioBrick标准中对于DNA元件序列的要求 (例如，不能含有标准中的酶切位点等) [14]。但iBrick也存在明显的缺点，即利用iBrick标准拼接的两个元件之间会形成一个较长的疤痕序列。最近，我们利用CRISPR相关蛋白Cpf1开发了一套C-Brick的拼接标准。由于Cpf1可以由人工设计的crRNA特异性引导切割DNA并形成5′突出的粘性末端，通过类似BioBrick的前后缀设计思路，从而实现DNA元件的标准化拼接。C-Brick的优点是，不仅可以识别长的序列 (26 bp左右的特定序列)，而且产生短的疤痕序列 (编码的氨基酸与BglBrick相同) [15]。

此外，基于限制性内切酶的拼接方法还包括Golden Gate以及在此基础上的改进方法。Golden Gate拼接方法利用ⅡS类 (type ⅡS) 限制性内切酶，其切割位点位于识别位点之外，因此留下一个可变的粘性末端，可以实现多片段一步法无缝连接[16-17]。Golden Gate虽然操作方便，其仍然受限于DNA中广泛存在的酶切位点。为此，本实验室建立了MASTER (Methylation-assisted tailorable ends rational) 连接法。该方法使用了甲基化依赖的MspJⅠ，它兼具type ⅡM和type ⅡS的性质，即它只识别甲基化的4 bp序列mCNNR (R=A或G)，并且切割位点在识别位点之外。通过PCR或添加接头，可以很方便地在所需连接的片段两端加入MspJⅠ的识别序列，从而实现多个大片段的无缝拼接[18]。

1.2 位点特异性重组

位点特异性重组舍弃了限制性内切酶，取而代之的是噬菌体整合酶。这些位点特异性整合酶可以识别不同版本的附着点 (attB、attP) 序列，然后实现这些DNA序列之间的重组。目前，最常用的是Gateway克隆方法，其具体流程是通过λ整合酶将需克隆的DNA (两端含正交的两个位点attB与attP) 直接重组到载体中[19]。这个方法简单、高效，在克隆文库的构建和真核表达系统的分析中被广泛应用[20-21]。通过合成多个正交的att重组序列，Gateway方法也可以实现多个DNA片段的一步法、按顺序拼接[22]。

然而，Gateway (或类似) 拼接方法会在拼接完成的DNA序列之间留下重复的疤痕序列，可能会对DNA的结构、mRNA的折叠以及DNA的生物学功能带来一定问题。

1.3 基于重叠序列的拼接

Gibson等开发了一种广泛采用的拼接方法 (Gibson assembly)，可以实现多片段体外一步法拼接[23]。这个方法通常需要一个线性化的载体和若干个PCR产物，在相邻两个DNA片段之间留有20-40 bp的重叠区。在反应阶段，T5外切酶将DNA的5′端序列部分消化，形成3′突出的粘端。然后在50 ℃下使得T5外切酶失活的同时，片段之间的重叠区退火连接，然后在Phusion聚合酶的作用下，补平片段间的间隔区，最后利用Taq DNA连接酶连接好DNA缺刻。Gibson assembly方法非常简单，可以一次组装5个或更多的片段，且整个反应只需1 h；组装完成的反应物可直接转化到大肠杆菌中。比如，用Gibson assembly方法拼接完成了生殖支原体Mycoplasma genitalium基因组的拼接 (583 kb) [23]。Gibson方法能拼接最大片段的限制还不确定，但目前已经有900 kb片段拼接成功的案例[23]。

基于重叠序列拼接的方法还有SLiC (Sequence and Ligase-independent Cloning) [24]，CPEC (Circular Polymerase Extension Cloning) [25]和SLiCE (Seamless Ligation Cloning Extract) [26]等。SLiC方法利用T4 DNA聚合酶处理载体和插入片段，在无dNTPs状态下，T4 DNA呈现外切酶的活性。然后加入dCTP终止外切反应，然后将载体与片段混合并退火[24]。由于SLiC没有延伸和连接，所以缺口的补平在大肠杆菌体内完成。CEPC是一种基于PCR的连接方法，经过变性使得载体与插入片段形成单链，由于两者间有重叠序列，退火后可以互为引物进行延伸，由此可以进行连接[25]。SLiCE区别于SLiC的地方在于该反应中利用大肠杆菌细胞提取物，这样就不需要额外的聚合酶和DNA连接酶，而且操作简单便宜，1 h之内即可完成[26]。

此外，一些生物技术公司也开发了简单易用的无缝拼接试剂盒，可以实现单个或多个DNA片段的一步法无缝拼接，例如TaKaRa公司的In-Fusion试剂盒 (50 ℃条件下反应)、上海吐露港公司的Ezmax无缝拼接试剂盒 (37 ℃条件下反应) 等。这些公司的产品虽然效率很高，但均没有公布具体的实验机制或专利文献，其具体的操作原理未知。

相比传统的限制性内切酶方法，基于重叠序列的拼接方法最明显的优势是不需要考虑片段内部的序列限制。但必须指出的是，重复序列、短序列或容易形成二级结构的序列都会降低这些方法的效率和成功率，因此需要尽量避免。

1.4 体内DNA拼接

许多物种体内具有强大的重组系统，例如枯草芽胞杆菌和酵母菌等。利用体内的重组系统可以将两端带同源序列的片段通过重组的方法连接起来；该方法对于大片段DNA的拼接非常有优势。例如，Itaya等利用枯草芽胞杆菌，组装了小鼠线粒体基因组和水稻叶绿体基因组[27]；Venter的团队利用酵母系统拼接了的生殖道支原体Mycoplasma genitalium JCVI-1.0基因组[28-29]和1.1 Mb的丝状支原体基因组[4]。在实际的应用中，多个超大DNA片段同时转化到酵母体内有一定的技术难度；覃重军团队开发了CasHRA技术，利用酵母原生质体融合，结合Cas9在体内切割释放出待拼接的DNA片段，然后利用酵母体内重组系统将片段拼接，最后得到1.03 Mb的MGE-syn1.0最小大肠杆菌基因组[30]。

2 DNA从头合成

尽管通过体内体外改造天然的DNA序列可以解决很多问题，但更多的情况下，DNA的从头合成有着许多独特的优势[31]。首先，工程化改造一个新功能的DNA序列常常需要大幅度甚至是全序列的改变，因此利用从头合成的技术是最容易实现目的的。第二，对于研究遗传学机理方面，经过人工优化合成的序列往往要优于天然的序列，因为这些序列可以设计并测试一些假说。第三，很多序列很难获得天然来源的模板来进行进一步的扩增和修饰，例如，利用宏基因组数据拼接完成的序列。这里我们介绍DNA从头合成的技术，包括从大规模的单链DNA的合成、进一步组装成更长双链DNA序列以及其中存在的一些问题。

2.1 寡核苷酸合成

寡核苷酸的合成可以追溯到20世纪50年代在实验室中进行的DNA合成；接着在80年代逐渐形成了自动化和商业化；而到了90年代，基于高通量的寡核苷酸合成的方法取得了重要进展[32]。

2.1.1 柱式寡核苷酸合成

20世纪50年代，Todd等第一次成功合成寡核苷酸[33]。如今，绝大部分寡核苷酸都是利用自动化的设备通过固相亚磷酰胺化学法来进行合成。其具体过程由4步循环组成，分别是：1) 去保护；2) 偶联；3) 加帽和4) 氧化[34]，且一个循环生成一个新的核苷酸。

这种自动化的方法通常可以达到96-384条核苷酸合成通量，每一条10到100 nmol的含量。多年来，材料、自动化、加工和纯化方面的进步使得合成100 nt的核苷酸大约是每核苷酸0.05-0.15美元，错误率在1/200甚至更低。化学法合成的局限在于合成的长度和错误率，有以下几个原因。首先，每一步循环的产量必须非常高，特别是对于生产长链的寡核苷酸。比如说，即使每一循环的产量达到99%，那么对于200 nt的寡核苷酸来说，最终理论上只能得到13%的全长产物。另外，脱嘌呤反应，特别是腺嘌呤会在合成长寡核苷酸时出现问题[35]。最后，即使成功合成的寡核苷酸也可能有一定概率的错误[36]。因此，还需要研发新的化学工艺来增加合成长度和提高质量。

2.1.2 微阵列介导的DNA合成

20世纪90年代的早期，Affymetrix公司开发了基于微阵列合成的方法[37-38]。他们运用有掩模光刻法 (Mask-based photolithographic) 技术，来选择性去保护光不稳定核苷亚磷酰胺。如今，已有多种方法对DNA微阵列从空间上进行去保护。无掩模程序大大简化了光刻技术，通过程序化的微镜设备，直接用光进行化学反应[39-40]。微阵列表面进行喷墨打印核苷酸的技术 (Agilent公司所用) 可以用标准亚磷酰胺法合成寡核苷酸[41-42]。另外，CustomArray公司开发了基于半导体的电化学法来选择性去保护核酸[43]。目前，科研界使用的寡核苷酸池主要来自于Agilent和CustomArray公司；其价格要比柱式便宜2-4个数量级 (根据不同长度、规模和平台，每个核苷酸0.000 01-0.001美元)。

2.2 基因合成

将一组寡核苷酸 (通常是5-50个) 通过一定的方法组装成更大的片段 (通常200-3 000 bp)，叫做基因合成 (Gene synthesis)，当然这里的基因指的是基因长度的意思。最初，Khorana研究团队用T4 DNA连接酶将寡核苷酸连接成了80-200 bp长度的序列[44-45]。这种基于连接的方法，将互补重叠的链通过连接酶反应形成更长的片段。后来，将普通连接酶改成耐热连接酶，在高温下 (50-65 ℃) 连接，从而减少了寡核苷酸链二级结构的形成[46-47]。聚合酶循环组装PCA (Polymerase cycling assembly) 的方法是目前更常用的拼接方法，这种方法利用聚合酶将片段重叠区进行延伸，形成双链DNA片段[48]。连接法和PCA法通常都需要利用PCR进行进一步的扩增，并进行最终的克隆和测序确认。

两种方法有各自的优缺点，连接法合成降低了错误率的发生，这是因为错误的序列杂合并连接的可能性较低。然而，上下两条链都需要完整地被寡核苷酸链覆盖，并且5′末端需要磷酸化修饰，因此这种方法的价格更高。PCA的方法只需要在两条寡核苷酸链之间有15-25 nt的重叠即可，因此相比连接法，PCA合成的寡核苷酸更少。当然，没有杂交过程的错误过滤，PCA合成的错误率要高一些。

虽然微阵列合成寡核苷酸非常便宜，但对于基因合成还有一些挑战。首先，虽然一个“pool”中合成的寡核苷酸数量非常大，但是大多数情况下单种的浓度很低。第二，微阵列合成的错误率通常比基于柱式合成的方法更高。最后，生产的寡核苷酸绝对数量在基因拼接中易导致干扰，使得很难按比例进行放大。

实际上，这些困难应该都是可以克服的。田敬东等在拼接前，利用PCR的方法扩增提高寡核苷酸的浓度，通过与反向互补链的杂交来降低错误率，然后通过设计蛋白序列结合计算来避免可能的错误杂交[49]。但是，这个工作一次只用了十几到上百条寡核苷酸序列。超过1 000个寡核苷酸就很难用这个方法[50]。因此，一个寡核苷酸pool越大，价格优势就越明显，但合成基因就变得越困难。另外，这种方法需要在合成的基因序列中有足够的序列正交性，这也限制了一部分潜在的应用范围。目前，主要采用通过将寡核苷酸分离成“subpool”的方法来避免序列的复杂性和正交性。Kosuri等用预先设计好的“条形码”序列进行PCR扩增，这些扩增的序列参与部分拼接，并且在标准拼接之前需要将“条形码”序列切除[51]。Quan等用喷墨合成的方法，用物理手段将寡核苷酸序列分组到分开的微孔中，然后原位扩增拼接[52]。这两种方法都用到了更大的寡核苷酸pool ( > 10 000条寡核苷酸)，并通过酶法纠正错误序列，提高拼接准确率，从而为其将来的商业化铺平了路。

2.3 错误序列的纠正

在基因序列组装完成之后，还需要对合成的基因进行测序确认。在整个基因合成的过程中，该步骤成本高、耗时，而且很难自动化。因此，减少基因合成过程中的错误率，可以减少待验证克隆的数量，从而降低工作量和合成成本。前期的方法是融合一个编码蛋白的序列，通常是抗性蛋白或荧光蛋白[53-54]。由于单碱基的缺失会导致移码从而使蛋白失活，通过筛选可以去除很多错误序列；但这种方法仅限于蛋白编码的序列。

更常用的纠错方法是利用酶的方法来降低错误率。所有这些技术都基于一个事实，就是在每个位置，大多数寡核苷酸分子序列是正确的碱基。加热、退火可以迫使异源杂合链的形成，从而形成不标准的DNA双链结构。这种破坏可以被一些蛋白识别并作用。MutS可以结合杂合链，通过反向纯化可以过滤掉这些错误链[55]。一些聚合酶有外切酶、内切酶和解链的活性，通过切割杂合位点再重新扩增也能够达到过滤错误序列的目的[36, 56-58]。有些商业化公司也利用混合酶ErrASE来减少合成基因的错误率[51]。

最近几年，有研究人员运用第二代测序技术 (Next-generation sequencing，NGS) 筛选正确序列，可以在寡核苷酸水平或基因水平筛选正确的目标DNA序列。Matzas等利用454测序法结合机器吸取移液头，自动化读取序列并利用正确的序列合成基因[59]。Kim等也利用454测序，但在每个分子上标有随机标签，通过测序正确的序列则利用特定标签序列进行进一步扩增[60]。两种方法都能够降低突变率，虽然这些方法仍然会面临测序错误和更昂贵的长链测序的问题。Schwartz等用Illumina测序法来获取正确序列，通过带标签测序的方法克服了长测序错误的局限，然后通过标签引物PCR扩增 (Dial PCR) [61]。这3种方法降低了错误率，并且随着DNA测序技术的进步而改进。

2.4 从头合成的大片段DNA组装

商业机构和学术系统已经可以用高效、高正确率、高可靠性以及低成本的方法将基因长度的片段拼接成更大的片段。目前，有不少无缝拼接的方法 (如前文所述)。对于大片段的拼接也可以应用这些方法，特别是Gibson和体内酵母拼接已经实现基因组大小的片段的一步拼接[23, 28]。

因此，对于从头合成的应用，合成基因大小的片段的花费和错误比拼接大片段DNA更为重要。

3 基因组编辑工具

基因组编辑工具在过去一段时间里得到了迅猛的发展，目前已经有不少能够靶向基因组特定位点的工具。最早期使用同源重组的方法进行基因组的编辑[62]，但不同系统的效率不一，而且通常需要引入抗性等筛选标记。后来，利用位点特异性重组酶系统大大提高了效率，包括Cre蛋白 (Cyclization recombinase) 和与之对应的loxP序列，Flp-FRT系统，C31整合酶-att位点[63-65]。这些系统首先需要loxP、FRT、att序列插入到基因组上的特定位点，然后引入位点特异性重组蛋白，使得基因组DNA重排。近几年位点特异性切割蛋白得到了迅速发展，从大型核酸酶 (Meganuclease) 的应用[66-67]，到锌指蛋白核酸酶ZFN (Zinc-finger nuclease) [68-70]、转录激活因子样效应物核酸酶TALEN (Transcription activator-like)[71-72]和CRISPR (Clustered regularly interspaced short palindromic repeats) [73-75]等。这些工具的共同点都是在细胞内引起DNA双链的断裂 (Double-strand breaks)，然后通过细胞自身的非同源末端连接引起错误修复，或者额外加入同源重组模板进行重组修复的精确编辑。这些方法的优缺点对比见表 1。具体来说，大型核酸酶是一类识别长序列 (12-45 bp) 的核酸内切酶，特异性高，但通常需要将这段识别序列先插入到特异位点中，因此造成一定的不便。之后，发现锌指蛋白可以被工程化改造为特异性识别的核酸酶ZFN，通过融合序列特异性DNA结合的锌指蛋白串联重复序列与FokⅠ核酸酶结构域。另一工程化的核酸酶是TALEN，这一改造思路与锌指蛋白类似，同样需要融合FokⅠ核酸酶，但TALEN的特异性和效率都要优于ZFN。ZFN和TALEN这两个系统在实际切割过程中，都需要一对蛋白靶向到相邻的两端DNA序列上，使得FokⅠ核酸酶形成二聚体进行双链DNA切割。最近几年，来源于原核生物的CRISPR系统 (特别是Cas9)，由于其简便、高效而受到了广泛的关注。此外，2015年张锋实验室发现了另一个CRISPR相关蛋白Cpf1同样可以进行基因组编辑[76]，且拥有比Cas9更低的脱靶率，因而同样具有很大的应用潜力[77-78]。在本综述中，我们将重点介绍目前最具应用前景和发展潜力的CRISPR技术。另外，除了单个位点或少数位点的基因组编辑技术外，对于高通量基因组编辑工程也会做一简要介绍。

表 1 不同内切酶系统比较 Table 1 Comparison of different nuclease systems Meganuclease[66] ZFN[68] TALEN[71] Cas9[74] Cpf1[76] Success rate High Low or viable High High or viable High or viable Length of target site 12-45 bp 18-36 bp 30-40 bp 19-22 bp (including PAM) ~24 bp (including PAM) Limitation Insert sequence first G-rich Start with T and end with A PAM sequence (NGG for SpCas9) PAM sequence (TTTN for AsCpf1 and LbCpf1) Difficulty Difficult Difficult Medium Easy Easy Off-target effects Low High Low Viable or high Low Nuclease size (encoding sequence) ~1 kb ~1 kb × 2 ~3 kb × 2 ~4.2 kb (SpCas9) +0.1 kb (sgRNA) ~3.7 kb (LbCpf1) +0.04 kb (crRNA) 表选项 3.1 CRISPR技术 3.1.1 CRIPSR的免疫机理

CRISPR系统是许多细菌和大多数古菌的获得性免疫系统。这些含有CRISPR系统的菌株会首先从侵染它们的噬菌体或质粒上获得一些DNA片段，并转录成crRNAs (CRISPR RNAs)。在同样的外源核酸再次侵染时，crRNAs会引导Cas蛋白切割再次侵染的RNA或DNA，从而帮助宿主获得了对该外源核酸的免疫[79-80]。

一般来说，CRISPR系统响应外源侵染的DNA分为3个阶段[81]。第一个阶段也被称为获取阶段，宿主获取侵染的质粒或噬菌体的DNA片段 (叫做protospacers) 并插入到CRISPR基因座的重复序列中。第二个阶段，Cas蛋白表达，含有spacer的CRISPR序列转录成前体crRNA (pre-crRNA)，接着前体crRNA被加工成成熟的crRNA。加工完成的crRNA起引导作用，通过Cas蛋白和其他RNA组分靶向侵染的基因组[82]。在typeⅡ的CRISPR系统中，非编码的tracrRNA与crRNA的重复序列结合，这对crRNA的加工、Cas9蛋白的结合和Cas9介导的靶向切割非常重要。在第3个阶段，Cas蛋白在crRNA的介导下，识别特定的靶标序列并切割靶标序列，从而达到宿主细胞预防侵染的作用。另外，许多CRISPR系统需要在靶标临近存在短的PAM (Protospacer Adjacent Motif) 序列[83]。在Cas蛋白中，目前研究得最为清楚的就是Cas9和Cpf1，下面将从其结构、应用等多方面对其进行详细阐述。

3.1.2 Cas9的结构

Cas9完成识别和切割有3个成员参与了这一过程，包括被切割的双链DNA，起引导作用的sgRNA和切开双链作用的Cas9蛋白[84-85]。

在Cas9/sgRNA/DNA复合体中，组分双链DNA中必须含有PAM序列，这段短的序列紧挨着sgRNA识别序列，对Cas9的结合与有效切割起着重要作用。比如，最常用的来源于酿脓链球菌Streptococcus pyogenes SpCas9的PAM是NGG[74]。第2个组分sgRNA实际上是人工改造过的crRNA，即将天然状态下的crRNA和tracrRNA通过一段接头连成了1个RNA，叫做sgRNA (Single guide RNA)，具有同样的活性功能[74]。sgRNA可分为3个部分，第1个部分是20 nt左右的序列与靶标DNA互补配对；第2个部分是repeat-antirepeat序列，这段序列本身是tracrRNA互补结合crRNA的部分，同时一部分也对Cas9的活性发挥作用；第3个部分是3个loop结构，这段序列对于sgRNA与Cas9的结合非常关键。一部分研究显示去掉第3个loop在体外也能很好地发挥活性[74]，但有些研究显示完整的sgRNA在体内的活性更高[86]。Cas9蛋白及其与DNA和sgRNA组成的复合体都已解析了晶体结构[83-84]。从整体看，Cas9由内切酶部分 (NUC) 和α-螺旋识别部分 (REC) 组成。其中，NUC包含HNH内切酶结构域、RuvC-like内切酶结构域、PAM相互作用结构域 (PI) 和1个进化上趋异的楔形结构域 (WED)。RuvC和HNH结构域分别切割双链DNA中的一条链；PI结构域与DNA上的PAM序列通过碱基的相互作用，对Cas9的特异性起到非常重要的作用。WED结构域识别sgRNA骨架，不同来源的Cas9的WED差异大，同时它与PAM序列的骨架也有相互作用。螺旋REC部分不同的Cas9差异较大，它包含负责识别sgRNA和靶标DNA杂合体的区域，同时也特异性识别sgRNA的骨架。另外，生化实验和结构研究也表明，Cas9作用于DNA并切割的过程中，构象发生了一系列的变化。

3.1.3 Cas9的应用

Cas9介导的基因组编辑需要两个步骤：DNA的切割和DNA的修复。sgRNA引导Cas9与特定的DNA结合，并切割引起DNA双链的断裂 (DSB) [80]。双链断裂后，主要会引发体内两套修复系统的修复，一种是错误倾向的非同源末端连接修复 (NHEJ)，另一种是精确的同源重组修复 (HR)。当然也有研究表明，有些情况下存在MMEJ (Microhomology-mediated end joining) 的修复方式[87]。NHEJ修复方式存在于真核细胞中，少数原核细胞有不同于真核的较简单的NHEJ。NHEJ会在双链断裂的位置附近引起随机的插入或缺失突变，会导致基因的敲出 (例如引起移码突变或关键位置编码蛋白的变化)。HR的修复方式需要加入一段供体DNA作为模板，利用同源重组原理，进行精确的修复。这种修复方式可以进行基因的敲出、突变、插入或者基因的修正。值得一提的是，虽然大多数原核生物 (包括大肠杆菌) 没有NHEJ系统，但是可以通过利用Cas9切割后，额外加入重组的模板序列，这样的做法可以提高原核生物中基因编辑的效率和成功率。

基于Cas9的基因编辑技术已经得到了广泛的应用，例如对特定基因的研究，疾病模型的建立，以及遗传和感染性疾病治疗的研究[80, 88]。通过引入多个sgRNA，Cas9可以同时切割多个位点，因而可以应用于大规模的染色体重排[89]。

3.1.4 Cpf1的发现与应用

2013年开始，通过生物信息学的分析发现了另外一种Class 2类型的CRISPR系统，这种假定的type Ⅴ的系统包含1个约1 300个氨基酸的大蛋白，被称为Cpf1[90]。2015年，张锋实验室研究发现，Cpf1与Cas9一样都是RNA介导的DNA内切酶，但在许多特性上又不同于Cas9蛋白[76]。首先，Cpf1只需要crRNA即可引导切割，而不需要tracrRNA；它识别的PAM是富含T的序列。另外，Cpf1切割双链DNA后，留下1个5′突出的粘性末端。张锋团队测试了16个Cpf1家族的蛋白，鉴定了来源于氨基酸球菌属Acidaminococcus和毛螺菌属Lachnospiraceae的2个Cpf1能在人类细胞中发挥切割活性[76]。

最近，有研究证明Cpf1的体内脱靶率远低于Cas9[77-78]，这对研究应用和临床应用具有巨大的潜力。此外，Cpf1又有不同于Cas9的特性，比如切割成粘性末端[76]，同时具有切割DNA和RNA的能力等[91]，可以改造成其他有用工具的潜力。

3.1.5 有待改进问题

尽管CRISPR/Cas9的研究在近些年进展飞快，而且在研究和医疗的应用上具有巨大潜力，但有3个方面还有待改进，包括提高特异性、效率以及时空控制[92]。

特异性：常用的SpCas9系统的脱靶效应非常明显，因为靶标序列的长度是20 bp加上3 bp的PAM序列，基因组上其他位置存在相似的序列就有可能也发生切割[93-94]。目前已经有不少策略来降低脱靶的可能，比如：优化sgRNA的设计，从序列信息上选择与基因组上其他位置相似度低的序列；运用一对nCas9 (nickase Cas9) 或者一对dCas9-FokI核酸酶来切割[95-96]；缩短sgRNA的长度 (17-18 bp) 或者在sgRNA的5′端加2个不配对的G [97-98]；或者降低Cas9-sgRNA复合体的浓度或者降低在细胞内的活性时间；另外，通过突变Cas9的几个位点，使得Cas9蛋白降低对非完全匹配序列的亲和力[99]。虽然这些策略在一定程度上大大提高了特异性，但通常以降低效率为代价。不仅如此，如果将来用于医疗领域，任何一点点的脱靶都可能带来意想不到的后果[100]。

效率：另一个主要的挑战是提高精确切割的效率，虽然目前已经有不少基于实验和生物信息学分析得到的不同sgRNA的效率，但是仍然没有找到非常明确的规律[101]。另外，为了进行精确的基因组编辑，需要提高同源重组修复的效率，且同时要降低NHEJ引发的错误修复。为了实现这个目的，科学家开发出了一些调节HDR与NHEJ比率的策略，包括添加调节DNA修复的小分子物质，同步细胞周期，或优化转染时间和方法等[102-104]。但是，HDR的效率相对来说仍然较低，而且不同细胞株系间差异非常大，提高HDR效率仍有很大的空间。

时空控制：如果严谨地调控Cas9的表达和活性很可能可以降低Cas9的脱靶效应，这也是将来应用于临床的前提条件。可以通过转录时或转录后的调控，结合化学或光诱导系统来精确控制Cas9的表达与活性[105]。在转录水平，可以通过强力霉素诱导的启动子在细胞或小鼠中，控制Cas9或nCas9的表达，虽然这些启动子在许多类型的细胞中存在渗漏表达的情况[106]。在转录后的水平，Davis等构建了内含肽-Cas9融合蛋白，在渗透性的配体存在下融合蛋白可以产出有活性的Cas9[107]。这个系统中，化学响应的内含肽插入到Cas9中来干扰活性。除了化学添加，通过光进行调节Cas9的活性，不仅可以实现快速调节，而且可以即时开启和关闭Cas9的活性。这个光诱导系统的实现得益于Cas9结构中的两个部分 (DNA识别区和内切酶活性区) 可以将它们分开，然后分别融合pMag和nMag，在470 nm蓝光的诱导下，Cas9蛋白的两个部分重新结合，从而又发挥Cas9的活性，一旦移除光，Cas9的两个部分分开而失去活性[108]。

目前，时空控制的这些还是探索性阶段，还有很多发展空间。另外，除了Cas9蛋白的控制，sgRNA也需要调节和控制。

3.2 其他基因组编辑酶

由于CRISPR/Cas系统的简便高效，才发展起来的ZFN和TALEN技术似乎正逐渐被淘汰。当然，还有一些科学家，也在寻找不同于CRISRP系统的新型基因组编辑技术。

最近，韩春雨团队发现了来源于格氏嗜盐碱杆菌Natronobacterium gregoryi的Argonaute蛋白可以利用磷酸化的ssDNA引导切割特定的双链DNA，并且能在哺乳动物细胞中发挥活性，从而与CRISPR一样，可以进行基因组编辑操作[109]。从已发表的结果来看，在一些方面可能比Cas9更有优势。比如，不需要PAM序列，24 nt的靶向序列，突变3个碱基就无法切割，这可能比Cas9的脱靶效应更低 (由于很多情况下Cas9配对17 nt仍能切割)。然而，该技术目前正面临着是否可以被重复的困扰。

南京大学团队，最近开发了一种由结构引导的内切酶FEN1 (Flap endonuclease-1) 基因组编辑系统[110]。FEN1由识别3′flap结构的结构域和切割结构域FokⅠ融合而成。向导DNA (gDNA) 与靶标序列形成的3′flap结构，从而引导特异性的切割。这种方法的优点在于不受序列的限制。

随着研究的不断进步，相信还会有越来越多的新技术被不断开发出来。当然，这些新技术能不能替代CRISPR技术在基因组编辑方面的应用，还需要更多的检验。

3.3 高通量基因组工程

高通量基因组工程的策略与“自下而上”的从头合成相反，其通过对宿主原有的基因组进行大规模改造来实现目的。比如，近期在大肠杆菌中开发了多重自动基因组改造MAGE (Multiplex automated genome engineering)[111]，“coselection” MAGE (CoS-MAGE)[112]和接合组装基因组工程CAGE (Conjugative assembly genome engineering) [113]等，都属于基因组规模的快速靶向工程化改造技术。MAGE方法利用短的合成的单链DNA寡核苷酸文库，靶向到基因组中[111]。MAGE的方法对于改变小于4 bp的大肠杆菌DNA序列非常有效，但是对于超过20 bp的突变效率则非常低 ( < 2%)。CoS-MAGE用了一个共筛选标记，增加了寡核苷酸加入的效率[112]。CAGE的方法可以在不影响大肠杆菌生长状态的情况下，将其密码子序列替换。通过大规模将TAG终止密码子替换成TAA，可以将TAG这个密码子引入非天然的氨基酸[113]。

除了TAG终止密码子的替换，用MAGE、CAGE和CoS-MAGE方法也可以取代编码基因中的密码子。例如，Church团队成功地去除了大肠杆菌中42个高表达必需基因中的13个稀有密码子，证明了在全基因组范围内利用该方法替换编码基因的密码子是可行的[114]。除了大肠杆菌的高通量基因组工程，在真核细胞酿酒酵母中也用了MAGE类似的方法，称为YOGE (Yeast oligo-mediated genome engineering) [115]。

4 总结与展望

合成生物学经过十多年的发展，我们看到了很多突破性进展。综上，合成生物学仍然处于初期阶段，这个类似于20世纪60年代的计算机科学，可能到很多年以后，人们才能体会到合成生物学对人类生活的巨大改变作用。

在合成生物学建立初期，它的一个特点是标准化。标准化的好处在于：1) 便于提取与应用生物学元件；2) 便于定性、定量检测元件的活力/功能；3) 便于开发与简化工程化应用[116]。就像组装计算机一样，每个元件都是标准化的生产、开发。例如，Zhao等近期就标准化在天然产物合成生物学中的重要性进行了综述[117]。在这种背景下，标准化的拼接技术也孕育而生[10]。除了前文介绍应用较广的BioBrick等，其他标准化拼接方法的建立，如MoClo (Modular cloning) 系统[118]、GoldenBraid[17]、MODAL (Modular overlap-directed assembly with linkers)[119]和PaperClip[120]等，其目的都是方便或简化组装流程，并帮助不同研究组间交换模块化的DNA片段。但是，随着更简便拼接技术的发展，以及从头合成DNA价格的逐渐下降，传统的标准化拼接方法，比如BioBrick等应用率正逐步下降。Endy等在2013年调查了合成生物学中使能技术应用情况，在拼接技术应用上，过去应用较多的是BioBrick、BglBrick和Gateway等标准化的拼接方法，而近期Gibson拼接和从头合成已经赶超[121]。相信就今后的发展趋势来说，从头合成DNA将占据更重要的地位，可能就如同工程学中如今兴起的3D打印技术。

CRISPR技术在2012年鉴定了Cas9的体外切割特性[74-75]。近几年，已经得到了广泛应用，并且已有用于临床实验的计划。在原核生物，Cas9和同源重组的结合应用，提高了传统的基因敲除、替换和插入等的效率[122]，甚至是100 kb以上大片段替换[123]。除了用于基因组编辑，Cas9也被改造成能识别并结合特定DNA序列但失去切割活性的dCas9 (dead Cas9)，经过融合特定功能的蛋白，可用于DNA定位[124]、基因调控[125-126]和特异位点修饰等[92, 127-128]。

合成生物学将对化学品的生产、人类的健康和环境等领域具有广阔的前景。而合成生物学的使能技术的发展，必将加速合成生物学的发展。

【本文地址】

合成生物学技术的研究进展

合成生物学技术的研究进展

今日新闻

推荐新闻