RNA翻译的复杂性:不翻译、部分翻译、从头翻译及过度翻译

您所在的位置:网站首页 vastarray翻译 RNA翻译的复杂性:不翻译、部分翻译、从头翻译及过度翻译

RNA翻译的复杂性:不翻译、部分翻译、从头翻译及过度翻译

2023-11-19 21:42| 来源: 网络整理| 查看: 265

经典中心法则描述了遗传信息的传递方向,DNA转录产生mRNA,而mRNA利用所携带的遗传信息指导蛋白质的合成.中心法则认为蛋白质是生命活动的主要承担者.然而随着科学技术的进步,科学家们发现,人类基因组中70%以上的DNA可以转录产生RNA,而只有3%左右的DNA能转录产生具编码蛋白质能力的mRNA,表明绝大多数转录产生的RNA分子都属于非编码RNA.由于这些非编码RNA不能翻译产生蛋白质,一度被认为是转录“噪音”、“暗物质”,而对非编码RNA的研究直到最近十几年才开始受到广泛的重视,并迅速成为现代生命科学研究的最热门领域之一.为更好地探索生命体中的这些“暗物质”信息,涌现出了一批非编码RNA专家数据库,其中比较著名的有NONCODE[1]与LNCipedia[2]等.随着越来越多非编码RNA数据的积累,特别是针对许多非编码RNA的重要功能的解析,进一步揭示了生命活动的复杂性,同时也宣示新一轮基因功能研究革新时代的到来.

通常认为非编码RNA(non-coding RNAs,ncRNA)是不能翻译产生蛋白质的RNA转录本.而最近的研究发现这类RNA有的可以部分翻译产生小肽,这样的小肽(小蛋白)同样也能在生命活动中发挥重要的作用.例如:来自于ncRNA的TAL小蛋白可以影响果蝇的早期发育[3];又如LINC00948之前被定义为长链非编码RNA,随后发现其可以产生一段长度为46 aa的小蛋白(MLN),并且这个小蛋白在人类中通过抑制关键钙离子泵的活性来调控肌肉收缩[4];随后Nelson等[5]又发现一个与MLN相反功能的同样来源于非编码RNA的小蛋白(DWORF),这个小蛋白可以通过激活相同的钙离子泵来增强肌肉活性.上述的实验结果说明,翻译过程比我们想象的要复杂,RNA作为模板,不仅仅是从起始密码子翻译到终止密码子,也可能部分翻译.另外,在生物体的细胞中除了线性RNA,也存在着很多环状RNA(circular RNAs,circRNAs), 这些circRNAs表达量相对较低,最开始一直被大家所忽视,近来,科学家发现这类circRNAs在人类生物体中也是广泛存在的,而且研究表明,这些circRNAs同样可以翻译产生蛋白质,但其产生蛋白质的过程不同于线性RNA,核糖体可以在circRNAs上转圈,从而可以产生比其本身携带的遗传信息更长的蛋白质.RNA世界的复杂,导致我们不能再只是简单地通过中心法则的翻译准则来解释这些RNA翻译现象的存在.本文归纳整理了最新的翻译现象并总结出了RNA转录本的4种不同命运:不翻译、部分翻译、从头翻译(经典翻译流程)和过度翻译.

1 不翻译

人类基因组70%以上的区域可以转录,但是真正能够翻译产生蛋白质的区域仅有3%左右,这就暗示着人类基因组存在着大量的ncRNA.这些ncRNA既包括一些保守的小RNA分子(tRNA,snRNA,miRNA等)还包括近些年来发现的承担着重要生命角色的长链非编码RNA.长链非编码RNA是一类长度大于200核苷酸,但是不能编码产生蛋白质的一类核酸分子.之前大量的数据挖掘证实了这类核酸分子的广泛存在.ENCODE(即“DNA元件百科全书”计划,Encyclopedia of DNA Elements,简称ENCODE)的测序计划拼接组装产生的人类转录本中,60%都是非编码RNA(图 1).HOTAIR是第一个被发现具有反式转录调控作用的长链非编码RNA[6],其表达与多种肿瘤的发生发展以及转移预后密切相关.XIST是被发现的另一个明星的长链非编码RNA,XIST的表达对于X染色体失活至关重要[7].lncTCF7通过激活Wnt信号通路来促进人类肝癌干细胞的自我更新[8].以及随后发现的LINC01186[9]、ADINR[10]、ASNR[11]等等.小的非编码RNA不能翻译产生有功能的蛋白质可能受其长度的限制,那么长链非编码RNA不能够翻译产生蛋白质又是受怎样的调控呢?

Fig. 1 Distribution of types of transcripts 图 1 转录本类型的分布 统计ENCODE组装产生的人类转录本中各转录本的比例.数据来自于GENCODE V24.从图中可以看出编码基因的转录本占到全部转录本的40%左右,其余60%为非编码转录本. 图选项

利用ENCODE数据库中HeLa细胞系的测序数据,我们针对GENCODE V24[12]所有注释的长链非编码RNA的翻译情况进行了比较分析(图 2).结果表明,虽然在HeLa细胞中可以转录的长链非编码RNA有很多,但是能从细胞核进入细胞质的仅占11%左右.翻译的发生离不开核糖体,而核糖体定位在细胞质中,这就表明绝大多数非编码RNA不能够翻译产生蛋白质主要可能是因为无法被转运到细胞质,从而无法接触到翻译机器.这也说明大部分的非编码RNA其实是在核内实现生物学功能的.MALAT1就是位于细胞核并发挥重要功能的一个非编码RNA,其不仅可以通过调节SR蛋白的激活水平来调节可变剪切[13],还和肺癌的恶化和转移相关[14].此外,PVT1和BCAR4也主要定位在细胞核.PVT1干扰MYC的磷酸化,随后增加MYC的稳定性然后在癌症中导致MYC的积累[15].BCAR4在乳腺癌中通过两个不同的区域分别结合转录因子SNIP1和PNUTS,随后影响下游基因的表观调控[16].

Fig. 2 Diversity of the fate of the non-coding RNAs from the example of HeLa cells 图 2 HeLa细胞系为例探讨非编码RNA命运的多样性 利用HeLa相关测序数据分析发现:DNA转录产生的长链非编码RNA有89%位于细胞核,只有11%可以从细胞核转运进入细胞质(a).可以转运进细胞质的非编码RNA 72%具有类似于mRNA的结构,既有5′帽子结构又有3′polyA尾巴,将这一类非编码RNA称为类似编码RNA的非编码RNA(mRNA-like ncRNA)(b). mRNA-like ncRNA 96%可以接触到翻译机器,只有1%可以产生蛋白质(c). 图选项

常规翻译过程中,核糖体通过识别5′帽子结构结合RNA并启动扫描过程.5′帽子结构和3′polyA尾巴的存在使得位于细胞质的RNA不被降解从而可能被翻译机器识别并启动翻译过程.通过获取HeLa细胞系的PolyA-seq、non-PolyA-seq以及CAGE-seq的数据,我们对于可以从细胞核进入细胞质的11%左右的长链非编码RNA,进行了RNA结构的进一步分析.研究发现,能够出核的非编码RNA中,72%都是既有5′帽子结构又有3′polyA尾巴,这一类非编码RNA通常被叫做mRNA-like的非编码RNA.对于剩余的28%不具有完整结构信息的非编码RNA,虽然它们可以出核,但是由于不具有完整的RNA帽子和尾巴,从而不能导致翻译机器的结合和启动,这样就不能够产生稳定的翻译产物——蛋白质.现在关于不具备完整结构也可以出核的非编码RNA还需要进一步的研究.

那对于这些既可以出核,又有完整帽子与尾巴结构的非编码RNA为什么也不可以产生蛋白质?难道蛋白质产生还需要其他信息的存在,还是其产生了蛋白质却被快速降解呢?为了解决这个问题.我们获取了HeLa细胞的核糖体图谱(ribosome profiling)的数据,发现的确如所预料,96%类似编码RNA的非编码RNA(mRNA-like ncRNA)都可以结合到核糖体这个翻译机器.随后根据核糖体翻译蛋白每3个核苷酸翻译产生1个氨基酸,从而真正活跃转录的开放读码框(ORF) ribosome profiling产生的序列(reads)比对后会呈现三周期性的原则,利用RiboTaper[17]算法来看这些结合到翻译机器的RNA是否可以产生蛋白质.我们发现虽然96%的mRNA-like ncRNA编码RNA可以结合翻译机器,但是有可能产生蛋白质的只有1%.所以这些RNA之所以不能翻译,应该还存在着其他的问题.但是这类原因又是什么现在还不清楚.为此,我们对这1%可能产生蛋白质的非编码RNA,进一步利用质谱实验进行了检测,结果发现只有1个候选非编码RNA能被质谱检测到,而其余都尚不能被质谱数据验证.暗示着就算预测可以产生蛋白,而这些蛋白质也有可能由于不能稳定存在也会是其没有翻译产物的原因.

概括而言,非编码RNA不翻译的原因主要可能是由于存在以下4种情况(图 3):

Fig. 3 On the causes of non-coding RNA's no-translation 图 3 非编码RNA不翻译的原因探讨 通过生物信息学分析,发现非编码RNA不能产生有功能的蛋白质的原因主要可以分为以下4点:a.定位于细胞核,无法接触到翻译机器;b.虽然被转运出细胞核,但仍无法接触到翻译机器;c.被转运出细胞核,能结合翻译机器,但是由于某些未知的原因,仍无法翻译;d.被转运出细胞核的,能结合翻译机器,并且可以正确启动翻译过程,但是翻译产生的蛋白质不能稳定存在,快速被降解,导致无法检测到稳定产物. Stop codon:终止密码子. 图选项

a.定位于细胞核,无法接触到翻译机器;

b.虽然被转运出细胞核,但仍无法接触到翻译机器;

c.被转运出细胞核,能结合翻译机器,但是由于某些未知的原因,仍无法翻译;

d.被转运出细胞核的,能结合翻译机器,并且可以正确启动翻译过程,但是翻译产生的蛋白质不能稳定存在,快速被降解,导致无法检测到稳定产物.

2 部分翻译

部分翻译是指RNA并没有把作为模板的全部信息翻译成肽链,而只是翻译了一部分信息.在经典翻译过程中,核糖体结合到mRNA上,从而开始扫描直到遇到第一个符合条件的AUG并开始启动翻译.然而近来研究表明存在着很多不符合经典翻译流程的例子.这些事件中翻译的起始并不是起始于第一个扫描遇到的AUG,而是从中间某一个密码子来启动翻译,这个密码子可以是典型的起始密码子AUG,也可以是其他60个密码子中的任意一个.当然AUG的起始还是占绝大多数.其中一个著名的例子就是LINC00948,它从第2个起始密码子开始翻译产生1个长为46个氨基酸的名为MLN的小蛋白[4].这个MLN小蛋白在钙离子吸收过程中的功能我们在前面已经描述过了.另外,也发现了以非AUG起始的翻译例子:利用我们自主构建的数据库NONCODE,对其所包含的非编码RNA进行潜在的非编码RNA蛋白质库的构造,随后将质谱数据和非编码RNA蛋白质库进行比对,发现了103个来自于非编码的肽段.对于这些肽段的结构和序列信息进行解析,其中就存在着2个以非AUG起始的肽段.同时,本实验室专门构建了一个数据库SmProt[18],该数据库收集了所有的小蛋白序列,特别关注了来自于现在的非编码RNA的小蛋白.在数据库中非AUG起始的例子也有很多(SPROHSA029394、SPROHSA027116等).这种非AUG起始的现象以及非第一个AUG起始的翻译情况,可以导致作为模板的长非编码RNA不能把全部信息翻译成多肽链,从而造成了部分翻译(图 4).这类翻译的起始可能是核糖体启动扫描然后在转录本中间位置进行翻译,也可能是核糖体直接结合到相应的起始位置而非采取扫描的方法来起始翻译.随后我们从文献调研了部分翻译的现象.发现部分翻译如果采取扫描而非从第一个AUG起始也可能是上游开放阅读框(upstream open reading frame,uORF)调控的翻译[19].uORF是一种位于5′非翻译区(5′untranslated region,5′UTR)区域的开放阅读框.如果是直接以非扫描方式启动翻译,可能是通过IRES(内部核糖体进入位点,Internal ribosome entry site)介导的翻译情况[20].

Fig. 4 Part-translation 图 4 部分翻译 部分翻译是指翻译的起始不是遵循传统扫描模型并从第一个AUG起始的翻译,而是其从非第一个AUG或者任何一个非AUG密码子起始的翻译.部分翻译的原因可能有很多,但是现在有2个已知的可以解释这种现象,首先是uORF的存在.uORF是通常是第一个AUG出现的位置,其有时候无法产生稳定的蛋白质,导致我们观测到的蛋白质主要是来源于非第一个AUG的读框.其次是IRES,IRES的存在使得翻译机器可以在IRES的位置结合到RNA上,从而使得翻译的进行不依赖于AUG起始密码子.当然还有其他的原因需要我们进一步探讨. Any codon:任意密码子;Stop codon:终止密码子. IRES:核糖体进入位点. 图选项

uORF是指位于5′UTR区域的开放阅读框,以AUG起始和标准终止密码子结束.uORF调控现象是指,在真核生物转录本中uORF可以调控下游主要蛋白的翻译.因此,正常的第一个AUG无法起始翻译可能是由于uORF的存在.uORF有时无法起始翻译,有时会逃逸扫描从而产生小蛋白,但这些小蛋白很容易被降解.uORF现象可以解释一部分非第一个AUG起始的翻译事件.IRES又称内部核糖体进入位点,一般真核mRNA的翻译都需要5′帽子来介导核糖体结合,但真核生物和病毒中还存在一些例外情况,例如一些基因5′端具有一段较短的RNA序列(约150~250碱基),这类RNA序列能折叠成类似于起始tRNA的结构,从而介导核糖体与RNA结合,启动蛋白质翻译,这段非翻译RNA被称为内部核糖体进入位点序列.IRES最初是1988年在脊髓灰质炎病毒(poliovirus,PV)和脑脊髓炎病毒(encephalomyocarditis virus,EMCV) RNA基因组中发现的[21-22],随后在哺乳动物、植物以及酵母中也均发现了IRES序列存在[23-24].IRES主要是通过其折叠产生的二级结构或者更为复杂的三级结构来介导核糖体的结合.虽然IRES的基本原理是通过其折叠形成的结构来完成的,但是不同的IRES其介导翻译的原理又不同.IRES的存在可以为非AUG起始的翻译提供一个解释.

部分翻译不仅是在起始位置有遗传信息的丢失,其在终止位置可能也有遗传信息的丢失.非典型终止密码子导致的终止现象现在研究不多,但是在我们的数据库中也有发现蛋白质的终止端并非是典型的终止密码子的情况.当然这类非正常终止密码子的终止现象还需要进一步的研究和探讨.

3 从头翻译(经典翻译流程)

经典的中心法则提出,DNA可以转录形成RNA,然后RNA通过核糖体翻译来产生蛋白质从而发挥生物学功能,并且DNA本身也可以通过自我复制来扩增和作为遗传物质遗传到子代[25].1970年,通过对RNA肿瘤病毒的研究,科学家们发现病毒中作为遗传物质的RNA不但可以自我复制,还可以通过逆转录形成DNA来影响宿主体内的生物学活动,从而中心法则得以修订.

从头翻译指教科书中所定义的广泛发生的翻译现象.翻译机器结合到RNA上,扫描遇到第一个AUG然后起始翻译产生蛋白质的过程.也就是中心法则中RNA翻译产生蛋白质的过程.关于从头翻译在教科书以及已发表的综述中都有较详细的介绍,所以本文不再详细阐述,只是简单介绍一下其发生的基本流程.

经典翻译的过程主要包括三部分:翻译的起始、延伸和终止.

a.翻译起始

在蛋白质合成的过程中需要核糖体大小亚基,起始tRNA和几十种蛋白因子的参与,在模板mRNA编码区5′端形成核糖体-mRNA-起始tRNA复合物,然后沿mRNA移动直到遇到起始密码子AUG,它能在AUG处停下来并起始翻译.

b.肽链延伸

在起始复合物形成以后,首先eEF1和GTP结合携带tRNA到核糖体上A位.随后GTP水解,释放eEF1A,然后tRNA和A位上的密码子进行碱基配对.随后在肽酰转移酶的作用下,新加入的氨基酸的氨基对之前肽段的羧基进行亲核攻击完成转肽.

c.翻译终止

在肽链延伸过程中,当终止密码子UAA、UAG或UGA出现在核糖体A位点时,没有相应的氨基酰tRNA能与之结合,而释放因子能识别这些密码子并与之结合,水解P位点上多肽链与tRNA之间的二酯键.接着.新生的肽链和tRNA从核糖体上释放,核糖体上大小亚基解体,蛋白质合成结束.

4 过度翻译

CircRNAs是一类由前体RNA经过可变剪接形成的转录本.circRNAs的发现从病毒到真核,从单个到大规模,到目前circRNAs的发现已经数不胜数.那么这么多的circRNAs到底有什么功能呢?目前对circRNAs的功能研究则集中在阐释其在RNA水平上的功能,比如与转录因子结合调控转录[26];作为竞争性内源RNA(competitive endogenous RNA,ceRNA)在转录后水平调控mRNA的降解[27];作为microRNA海绵吸收大量的microRNA[28].而对于circRNAs是否可以直接指导翻译或者本身是否可以翻译,则是另一个层面上关于circRNAs的功能.第一个提出circRNAs可以翻译产生蛋白质是1986年的一篇报道,该研究发现类病毒基因组为circRNA,其反转录出来的cDNA包含一个122个氨基酸的ORF[29].1995年第一篇发现在真核生物中circRNAs可以翻译产生蛋白质的文章发表在《科学》杂志(Science),这篇文章同时证明IRES在真核生物起始阶段是必要的[30].随后几年,关于circRNAs翻译的研究却进入一个瓶颈期,迟迟没有新的研究出现.直到2014年一篇文章中的研究发现circRNAs翻译不同于真核生物线性RNA的翻译,它可以产生比自已遗传信息还要多的蛋白质.这篇文章发现一种叫做水稻黄斑病毒(rice yellow mottle virus,RYMV)的拟病毒,该病毒可以导致水稻黄斑病变[31].该拟病毒仅由220碱基的闭合环状RNA构成,按照以往正常编码的经验,三联体密码子计算其最多编码73个氨基酸,但实际情况下这个病毒却编码了16 ku的蛋白,这远远超过正常情况下编码蛋白质的量.这就说明在翻译时核糖体第一次走完环状RNA全部序列之后,在起始密码子前的一个碱基和起始密码子的“AU”继续作为ORF的密码子进行第二轮编码,当再次到达起始位点的时候,原先起始密码子的“A”与前面的2个碱基“UG”构成了第一终止密码子,后面还有第2和第3终止密码子存在,因此个别情况下还会表达出18 ku或23 ku大小的蛋白.2017年的三篇文章也加深了我们对于circRNAs翻译的了解.分别是2017年2月发表在Cell Research杂志上的一篇文章,文章中发现m6A修饰是起始circRNAs翻译的一个方式并且这种起始翻译的方式在circRNAs的翻译中是广泛存在的,而且仅仅一个m6A修饰的存在就可以启动翻译进程[32].以及2017年4月发表在Molecular Cell上的两篇文章,都证实了circRNAs的翻译是广泛存在的,并且都找到了一个circRNA翻译的例子(Circ-ZNF609[33]和circMbl[34]),并进行了低通量实验的证实.CircRNAs翻译的存在也拓展了对现有翻译的了解.上述的例子中有的circRNAs翻译产生的蛋白质是翻译机器在circRNAs旋转不到一圈产生的,也有的是翻译机器在circRNAs上旋转多圈产生的.我们觉得类似于RYMV病毒的这一类circRNAs的翻译都可以归类为过度翻译,即翻译机器可以在circRNAs旋转进而产生长度大于其本身遗传信息的一段蛋白质(图 5).在最新一版的circRNAs数据库circRNADb[35]中收录了32 914个circRNAs,其中46个circRNAs可以产生有质谱数据支持的蛋白质.这说明circRNAs产生蛋白质不是随机的或者不稳定的蛋白质.另外circScan方法通过探究circRNAs和RNA结合蛋白之间的互作关系,也发现大量circRNAs和独立于5′帽子结构的翻译起始相关蛋白存在互作,这些现象暗示很多circRNAs可能通过这些因子来起始翻译产生功能蛋白[34].当然这类蛋白质是不是circRNAs过度翻译的产物还需获得完整的蛋白质才可以知晓.

Fig. 5 Model of Over-translation 图 5 过度翻译模型 CircRNAs的翻译可以产生比其本身携带的遗传信息更多的蛋白质,这类翻译称为过度翻译.如图所示CircRNA可以产生的氨基酸序列为:MSQEELGGTSQEELGGTLGGTSAKEHEPRGT.其中黑色的碱基代表CircRNA的核苷酸序列,而红色的代表翻译产生的氨基酸序列.黄色的代表核糖体. 图选项 5 展望

RNA是中心法则的核心分子,既可以从DNA获取遗传信息,又可以将遗传信息传递到蛋白质.最初认为RNA只是遗传信息的传递者,越来越多的研究表明RNA不仅可以传递遗传信息,本身也可以以RNA分子的形式发挥功能.前边列举的典型非编码RNA的功能就是一个很好的例证.DNA转录产生RNA,RNA在翻译成蛋白质前还进行了选择性可变剪接、RNA编辑、选择性多聚腺苷化等一系列加工修饰.这些加工修饰增加了RNA分子的多样性,也使得本身的遗传信息得以在RNA层面改变,从而丰富了蛋白质产物.RNA分子在转录后各种加工和修饰的存在也间接增加了RNA翻译的多样性.本文的介绍说明了在转录加工修饰后RNA转录本命运的多样性,其既可以直接以RNA分子来承担生命活动中的重要角色,也可以只翻译其中一部分来产生小蛋白从而发挥功能.此外还可以按照标准翻译的流程进行扫描翻译以及在特定RNA分子中存在的过度翻译.RNA研究相对DNA来说是复杂的,而又是非常有趣的.RNA翻译的复杂性比经典的中心法则规定的内容将更加丰富、复杂.

最初科学家们专注于蛋白质功能的研究,认为RNA只有翻译蛋白质才能在生命活动中发挥作用,将大量的非编码RNA归类为“垃圾”.但是随着功能非编码RNA(XIST、HOTAIR等)的出现,才使得这些被埋没的宝藏得以被发现.现有的研究又发现这些非编码RNA可能编码产生小蛋白.由于小蛋白的长度以及表达量低的特点在原有的技术中被大家所忽略.这两年以来这些小蛋白(MLN、DWORF等)的功能逐渐被大家认可.所以着眼于RNA研究时,不能再将其简单的分为非编码RNA和编码RNA.而是应该根据其所有的可能命运形式来研究其功能.其即可能编码蛋白质发挥功能,而其编码蛋白质的模板RNA本身也有很重要的功能.充分了解RNA转录后的命运,对以后研究RNA的功能提出了更高的要求,也为我们真正而全面的了解RNA的功能提供了可能.



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3