NCBI教程|如何判断一个Unigene 是否包含完整CDS区

您所在的位置:网站首页 转录组unigene定义 NCBI教程|如何判断一个Unigene 是否包含完整CDS区

NCBI教程|如何判断一个Unigene 是否包含完整CDS区

2024-07-12 07:51| 来源: 网络整理| 查看: 265

对于没有参考基因组的物种,我们经常会使用转录组de novo组装来获取该物种的转录本序列。在完成组装后,经常会有一个疑问:我所研究的目标Unigene 是否组装完整了(保留了该基因的所有CDS区)?今天,我们给大家介绍通过同源比对的策略,判断目标基因的完整性。 工具:NCBI blast 本次测试使用的数据: 人类和小鼠的AKL基因序列,序列均从NCBI下载的完整mRNA序列。其中,为了演示验证小鼠序列是否缺失,我们特意将小鼠mRNA序列的前1400bp截去,作为一条模拟的非完整的Unigene序列。 下面,我们将演示如何通过与人类完成的ALK序列比较,判断小鼠的这条Unigene是否包含完整的CDS区。 一、两条cDNA序列比对方法 01、登录并打开Blast界面 Blast地址:http://blast.ncbi.nlm.nih.gov/Blast.cgi。 登录NCBI blast界面,选择单击“Align two (or more) sequences using BLAST (bl2seq)”。 02、输入比对数据,并进行比对 在比对设置页面,填写两条比对的序列,然后点击“blast”进行比对。 注意: 1.建议复制的序列使用Fasta格式,就是 第一行是: >名称 2.上面的空格填写参考序列,下面的空格填写待验证的序列; 备注:务必将参考序列(其为完整序列)作为Query,否则会影响结果的可读性。 03、结果解读 结果如下图,我们可以看到Query就是人类的ALK基因序列,共大概6000多bp,下面是小鼠不完整的mRNA序列。这个图形就是两者比对结果的形象展示。 图中,可以看到小鼠序列在两端都存在缺失。其中5’端大概缺失了1500bp,这很容易解释,因为的确这个5’端序列事先被我们人为截去了1400bp。那么3’端为什么也存在缺失呢?这是由于3’端的序列,很长一段都是3’UTR区。这可能是由于人类序列的3’UTR区长于小鼠,而且不同物种的UTR区并不保守(非编码区保守性较差),所以我们看到人类ALK序列末端大概有近1000bp与小鼠序列没有同源。 那么问题来了,如果我们只关心Unigene是否包含了完整的CDS,不关心UTR是否完整。那么,我们怎么知道缺失的那段是UTR还是CDS呢?或者说,缺失的那段多大比例是UTR,多大比例是CDS? 还好,对于模式物种的完整mRNA序列,NCBI会说明这个基因的长度,以及CDS区在基因中的范围,如下截图。CDS在5774bp的位置就终止了,后续全部是UTR区。 04、规定人类参考序列的比对区间 在之前的双序列比对界面,我们可以设定人类序列的比对区间,如下图。对应填写这个mRNA序列的CDS区的起始和终止位置。 结果如下图,这次参考的区间是人类的CDS区。缺失区域的确变短了。但是人类序列的3’端依然有一截找不到小鼠的同源区间。但我们知道,其实这条小鼠序列3’端是完整的,为什么却无法在人类序列中最后一部分的找到同源呢?这是由于人类序列和小鼠序列同源性相对较差。如果在核酸水平进行比对,那么在人类CDS最后一段,在小鼠中就完全找不到同源序列了。(核酸水平,由于允许同义突变的存在,所以序列变异较大。) 不信,你可以检查一下blast结果界面中的“Alignment”的结果,如下。人类序列(Query)比对终止的位置是5193bp,而小鼠序列(Sbjct)的终止位置3562。而我们比对用的小鼠序列的实际长度约为4700bp,显然还有很多序列没有比对上。 为了避免UTR区对我们比对的干扰,以及物种间保守性较差导致的没有同源。我们可以考虑使用同源基因完整的蛋白质氨基酸序列作为参考和比较。因为序列在氨基酸水平的保守性更强。 二、与蛋白序列比对方法 01、下载蛋白序列,输入数据进行Blast 从NCBI下载ALK的完整蛋白序列,并在Align two(or more) sequences using BLAST (bl2seq)界面按照如下设置: 1.由于是人类的蛋白序列比对小鼠cDNA序列,所以比对方式选择tblastn:Search translated nucleotide database using a protein query。 2.将对应的人类蛋白序列和小鼠核酸序列填写好。 3.点击blast。 02、结果查看 结果如下图,展示了人类ALK基因大概1600个氨基酸构成的蛋白序列与小鼠不完整的mRNA序列的同源比对情况。人类蛋白序列3’端已经被完全覆盖。但5’端存在一个明显的缺失(黑色的部分同源性极差,属于随机产生的相似性,可以忽略不计),缺失长度约为240个氨基酸。从中,我们可以看到,虽然我们一开始将小鼠序列截去了1400bp,但截去的序列有一部分为5’UTR,所以CDS区的缺失并没有那么多。 分析结论: 通过最后蛋白水平的同源比对,我们确定小鼠的Unigene序列不完整,且在5’端存在约240个氨基酸的缺失。 小结 由于转录组拼接得到序列很大一部分是不完整的cDNA序列,Unigene完整性的判断是老师们经常会关心的问题。这关系到后续是否需要利用race技术克隆全长序列。今天与大家分享的方法是比较简单而实用的方法,总结有以下几点: 1.如果下载作为参考的完整mRNA或蛋白序列,尽可能选择近缘种; 2.如果两个物种亲缘关系较远,建议进行更加保守的蛋白水平进行比对,而且可以消除UTR区的干扰; 3.理论上使用Muscle,Clustal W这样的多序列比对软件也可以进行类似的分析。所以大家如果使用2条或2条以上的序列作为参考序列的时候可以使用这两个软件(可以使用在线版本)进行分析。但如果仅使用一条序列作为参考,那么比对就仅仅在两条序列间进行。两条序列的比对,如果一条序列的缺失区域较长,那么使用Muscle或Clustal W会较大概率产生比对错误,所以还是建议使用blast更加稳定。 更多基迪奥的原创文章,可继续关注我们网站动态发布,同时关注基迪奥微信~扫一扫添加基迪奥好友~随时随地关注行业动态!  

【上一篇】基迪奥生物2016年校招 【下一篇】基迪奥-华南理工联合举办-------二代数据挖掘生信培训班开班了!


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3