不可不知的原核生物sRNA研究软件简史

您所在的位置:网站首页 可以预测预产期的软件叫什么 不可不知的原核生物sRNA研究软件简史

不可不知的原核生物sRNA研究软件简史

2024-07-16 04:10| 来源: 网络整理| 查看: 265

QRNA、RNAz、sRNAPredict、SIPHT这四种比较基因组学的预测软件在之前的一份评估报告中,用10组基本数据,与NAPP(核酸系统发育分析)进行了系统性的比较。结果发现sRNAPredict 综合考虑了诸多因素,运行得最好,例如假阳性率低,能够正确识别sRNAs链以及运行速度快。

此类方法主要的局限在于,必须有用于比较的相近物种的基因组序列;其次是,相关的sRNA序列必须有保守的二级结构;再者,识别出的候选sRNA序列还可能包含其他类型的RNA序列;最后,该方法不能识别出物种特有的sRNA。

2.机器学习方法

这类模型基本的假设是给定的基因组由两部分组成,sRNA基因和基因组剩余的部分。如果我们将sRNA基因当作一个信号,基因组剩余的部分则被视为一种背景。利用机器学习方法进行sRNA预测,首先需要构建包含阳性和阴性数据的训练集,其中已知的sRNA基因通常作为阳性样本,而从给定基因组上随机选择的DNA序列被当作阴性样本。然后,基于样本数据提取特征变量,最后利用机器学习方法构建分类模型,进而预测新的sRNA。如果预测到的sRNA数量非常多,可以利用比较基因组模型来进一步地减少sRNA数量。

机器学习方法相对于比较基因组方法具有一定的优点,比如可以预测出细菌特异性的sRNA,以及对ρ-非依赖型终止子或对ρ-依赖型终止子的sRNA均可检测等。但是它也有自身的缺点,例如阳性数据较少,特征变量选择困难,另外,由于sRNA基因的长度特异性,无法轻易地选择出最适的滑动窗口大小,这可能也是为什么机器学习方法阳性预测值低于比较基因组模型的原因。

表1.预测细菌sRNA的主要模型

sRNA靶基因预测

识别sRNA的生物信息学预测软件及实验验证结合策略也可应用于sRNA靶基因鉴定。 sRNA通过以下两种方式发挥其功能:

(1)与靶基因不完全的碱基配对。

(2)结合蛋白质并改变其活性。

与mRNA的不完全碱基配对代表一类主要的调控机制,可导致翻译抑制,翻译活化或mRNA降解,这种机制是当前研究sRNA-target相互作用的重点。过去主要使用两类方法来发掘sRNA的靶基因,即普通的RNA-RNA相互作用的预测模型和专门设计用于细菌中的sRNA- target mRNA相互作用的模型。

1.普通的RNA-RNA互作预测模型

事实上,细菌当中的sRNA-靶向mRNA互作也属于RNA-RNA互作,因此对于普通的RNA-RNA预测模型(RIP)也能运用到挖掘sRNA-target mRNA互作中。

RIP的最早方法是用两个RNA分子的最小结合自由能找到杂交结构,然后使用RNAfold或Mfold程序折叠两个连接的RNA序列。但是,折叠两个连接的RNA序列会产生杂交伪像。为了防止这类伪像,很多程序如RNAcofold、RNAhybrid和RNAplex将经典的RNA二级结构预测算法扩展到两个序列。与RNAhybrid相比,RNAplex 利用一个稍微不同的能量模型来减少运算时间,其速度比RNAhybrid的10–27倍还要快。

由于在经典预测算法和RNA二级结构预测算法的扩展中都没有考虑假节点,因此上述程序在两个RNA分子之间找不到loop-loop互作(复合体)。为了解决这个问题,Alkan等基于两个RNA分子的联合结构提出了inteRNA。当应用于CopA-CopT和OxyS-fhlA相互作用时,inteRNA可以成功检测loop-loop互作。因此,许多程序如piRNA、inRNA、RIP、 RactIP、 ripalign和PETcofold都是基于两个RNA分子的联合结构的。

普通RIP虽然演化出了许多程序,但是大多数程序仅提供两个RNA分子之间的潜在结合位点,而不是确定两个RNA序列是否相互作用。事实上,两个随机选择的RNA序列也可以呈现许多潜在的结合位点,并不能保证两个RNA序列相互作用。这些程序仅适用于在sRNA和target mRNA之间相互作用的前提下搜索结合位点。因此,将这些模型应用于全基因组预测的sRNA靶标是不切实际的。

2.专门设计用于sRNA-target mRNA互作的预测模型

sRNA-target mRNA互作的预测模型主要分为两类,分别是序列比较方法与基于RNA二级结构的靶标预测算法。

基于序列比较的sRNA靶标预测方法

在Smith-Waterman局部序列比对算法基础上,张勇等人构建了sRNA-target mRNA相互作用的第一个预测模型。该模型考虑了sRNA和靶向mRNA序列中的伴侣蛋白Hfq结合位点、靶向 mRNA序列的起始密码子上游-35nt至下游15nt的序列、Hfq与sRNA结合的结构,以及基于sRNA二级结构的loop中心或凸起区域的扩展序列比对,和大肠杆菌K-12及相邻8个菌株中sRNA与候选mRNA target的保守谱。最后,将计算所得分数前10或50的mRNA作为潜在的靶向 mRNA。在已知的经实验证实的10个sRNA-target互作中,有7对的分数位于前50名中。

但是,由于该模型加入了保守谱这一因素,所以不适于某些大肠杆菌中不保守的sRNA的靶标预测或其他细菌中sRNA靶标的预测。另外,该模型仅考虑sRNA的二级结构,而忽略了两种RNA相结合后的二级结构特征,使得预测的结果可能会有偏差。最后,也没有为后面sRNA的研究者提供程序。

基于RNA二级结构的细菌sRNA靶标预测方法

第二个模型由Tjaden等人构建,称为TargetRNA,包括两个sRNA靶基因预测模型,分别为单碱基模型和碱基堆积模型。单碱基模型是基于Smith-Waterman局部序列比对算法引进新的比较积分系统来实现的,适用于sRNA与mRNA序列间互作区域较短的情况;碱基堆积模型是运用RNA二级结构自由能的计算规划来实现的,所采用的方法是动态规划算法,适用于sRNA与mRNA序列间互作区域较长的序列。

除了TargetRNA模型,Mandin等人通过搜索强sRNA-mRNA双链体提出了sRNAtarget预测模型。将每个sRNA-mRNA双链体作为阳性贡献和阴性贡献的总和,阳性贡献和阴性贡献分别对应于配对核苷酸和凸起/内部环。该模型同时考虑了两个区域,一个是序列5’端的起始密码子上游-140nt至下游90nt的区域,另一个是靶mRNA序列3’端的翻译终止位点上游-60nt至下游90nt区域。

还有一种沿用至今的软件叫作IntaRNA,它由Busch等人提出,该模型包括两个RNA分子的结合位点的可及性和用户可定义的种子序列。与RNAup类似,IntaRNA也是搜索最小扩增杂交自由能的最佳互作。IntaRNA优于其他更简单的程序如RNAhybrid,但是IntaRNA只提供两个RNA分子的结合位点和杂交能量,而不是对互作进行判断。

从这些模型中可以看出,不同的模型考虑了不同的潜在的结合区域,那么哪些区域适合于sRNA靶基因预测?李武举等收集了诸多论文中sRNA target,构建了sRNATarBase数据库,其中包含138个sRNA-target互作和252个非互作条目,使用该数据库发现95.79%靶基因结合区域位于靶基因的初始密码子上游-150至下游100nt区域。

另外,李武举等还提出了另一种称为sTarPicker的方法来提高sRNA靶标预测的性能。该模型首先在筛选sRNA和潜在mRNA靶标所有可能的双链体之后,优先选择稳定的双链体,然后扩增sRNA和靶基因之间的杂交序列,以跨越整个结合位点。最后,通过使用Tclass系统产生的整体分类器进行定量预测。在确定种子区域和结合区域的杂交能量时,考虑了sRNA和靶基因的热稳定性和位点可及性。与IntaRNA、sRNATarget和TargetRNA相比,sTarPicker在17个非冗余验证的sRNA-target对上表现出最佳的靶基因和结合位点预测的准确性。

2011年,Eggenhofer等开发了一个名为RNApredator的网络服务器,专门用于预测sRNA targets。RNApredator使用RNAplex预测sRNA 靶基因。在预测中,服务器将5’和3’ UTR(默认)的上下游200 nt区域作为潜在的结合区域,并且将前100个预测结果作为潜在的互作。

表2.预测细菌sRNA靶向mRNAs的主要模型

高通量测序在sRNA鉴定与分析中的应用

随着高通量测序的应用,2011年Danilo Pellin等人第一次将RNA-seq数据与IGR保守性分析相结合来鉴定结核分枝杆菌中的sRNA,这里IGR指基因间区区域。首先,通过一个链特异性程序建立一个有效的靶基因组(Effective Target Genome ,ETG)。然后,基于RNA-seq数据(Reads Map)获得表达图谱,接着基于比较基因组学原理构建保守性图。最后通过叠加这两个图,获得用于搜索sRNA的可靠方法并发现了1948个候选sRNAs。具体方法如图1所示。

图1.生物信息分析路线

目前,高通量测序主要的方法是,利用Rockhopper软件发现新的基因间区转录本,通过Blastx与nr库作比对,对新预测的转录本区域进行注释,将注释不上的转录本作为候选的非编码sRNA。然后,通过RNAfold软件(2.0版或2.3.1版)进行二级结构预测,并使用RNAplot软件对二级结构进行可视化展示。

对于候选的sRNA功能注释的方法主要有两种,一种是基于序列相似性,如BSRD(Bacterial Small regulatory RNA Database)收录了数百种细菌的sRNA数据,通过将ncRNA与ncRNA数据库进行BLAST比对,经过筛选得到ncRNA的注释信息。另外一种是基于保守二级结构,如Rfam数据库收集了非编码RNA家族的共同多序列比对及协方差模型。对于sRNA等功能性RNA,相对于序列上的保守性而言,其在二级结构上可能更具保守性。因此,大多数会使用软件Infernal(v1.1.2版)与Rfam数据库中提供的CMs与ncRNA序列进行比对,对ncRNA序列进行家族分类。

接下来,利用多种软件如IntaRNA软件(v1.2.5版)或RNAplex(v2.3.1版),结合相应的过滤条件如自由能、得分值等进行过滤,对候选的sRNA进行靶基因预测,最后对每个软件预测结果取交集作为最终的靶基因。基于高通量测序的生物信息学方法,不仅能够对sRNA进行预测和长度分布统计、二级结构预测、以及靶基因预测,还能够分析sRNA的表达水平。

关于原核生物sRNA及其靶基因的预测和分析,经历了十多年的探究,从比较基因组模型到机器学习模型,再到如今基于高通量测序的分析方法,每一步都是一页辉煌的篇章,我们相信随着原核生物sRNA研究的热潮,能够准确用于sRNA分析的软件会越来越多,并且人们对于sRNA的调控机制会有更深入的了解。

参考文献:

1. Predicting sRNAs and Their Targets in Bacteria. Genomics Proteomics Bioinformatics,2012.

2. A Genome-wide identification analysis of small regulatory RNAs in Mycobacterium tuberculosis by RNA-seq and conservation analysis. PLoS ONE,2012.

3. SRNAPredict: an integrative computational approach to identify sRNAs in bacterial genomes. Nucleic Acids Res ,2005.

4. Single-pass classification of all noncoding sequences in a bacterial genome using phylogenetic profiles. Genome Res,2009.

5. Predicting non-coding RNA genes in Escherichia coli with boosted genetic programming. Nucleic Acids Res ,2005.

6. Denovo computational prediction of non-coding RNA genes in prokaryotic genomes. Bioinformatics, 2009.

7. Vienna RNA package 2.0. Algorithms Mol Biol ,2011.

8. A fast tool for RNA–RNA interaction search. Bioinformatics, 2008.

9. RNA–RNA interaction prediction and antisense RNA target search. J Comput Biol ,2006.

10. A partition function algorithm for interacting nucleic acid strands. Bioinformatics,2009.;

11. RNA–RNA interaction prediction based on multiple sequence alignments. Bioinformatics,2011.

12. PETcofold: predicting conserved interactions and structures of two multiple alignments of RNA sequences. Bioinformatics ,2011.返回搜狐,查看更多



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3