2️⃣ 双序列比对(2):BLAST详细操作:web版和linux版

您所在的位置:网站首页 blast比对两个序列 2️⃣ 双序列比对(2):BLAST详细操作:web版和linux版

2️⃣ 双序列比对(2):BLAST详细操作:web版和linux版

2023-09-16 15:08| 来源: 网络整理| 查看: 265

序列比对和序列特征分析总目录

网址:https://blast.ncbi.nlm.nih.gov/Blast.cgi 运行方式:本地或web

基本的BLAST工具包括:

图1 BLAST

blastn:核酸搜核酸数据库 blastp:蛋白质搜蛋白质数据库 blastx:DNA用所有可能的阅读框翻译成翻译成蛋白后搜蛋白数据库 tblastn:查询的蛋白序列搜索核酸数据库中,DNA序列翻译后的蛋白序列 tblastx:核酸序列翻译成蛋白质后搜索核酸数据库中的核酸序列翻译后的蛋白质序列。也就是查询的蛋白和数据库中的DNA都翻译成蛋白进行比对。

一: web blast

举一个例子说明 图1可以看到,输入框可以输入accesion number,gi,或FASTA序列,也可以上传文件。 job title给查询的任务取个名字。

参数设置Database:图2,一般选择nr,即非冗余蛋白序列数据库,该库包括GenBank CDS tranlations,RefSSeq Proteins,PDB,Swiss-Prot,PIR和PRF全体数据库的非冗余数据

图2 参数设置

算法参数设置 首先每个参数后面都有说明,可以详细查看该选择哪个Organism可以限制物种Expect threshold期望阈值,默认10word size字长,默认3,还可以设置为10或2,数值小搜索的结果会增加,速度会变慢matrix序列比对的打分矩阵,默认LOSUM62 Gap costs:BLAST采取线性空间罚分方式,为开放罚分和延伸罚分,默认是开放罚分值11,延伸罚分值1

图3 算法参数设置

结果解读搜索详细情况描述。图4,查询的分子类型,比对的数据库,都有描述。

图4 结果1

图形结果。查询序列含有的保守结构域,以及数据库中与查询序列匹配项的图形。不同彩色条带颜色代表得分的高低。

图5 结果2

详细列表信息.与查询的序列匹配的数据库中的序列列表,每一个序列包括score,evalue,identity,accesion等。

图6 结果3

查询序列与数据库中的匹配序列之间的双序列比对情况。包括score,expect,identity同一性得分,positive相似性分值,gaps空位。

图7 结果4

总结:

web版的blast方便,快捷,容易操作,数据库更新快。确定是不利于操作大力量数据,也不能自定义搜索的数据库,只能对NCBI提供的数据库进行序列相似性分析。所以

NCBI提供了本地化安装的blast软件包,这样就可以构建自己的数据库,提高同源性分析的准确性和一致性。二: LINUX下BLAST的安装与运行

优点:速度快,灵活性大,可自己配置库 缺点:序列数据库下载量大,并且更新麻烦,需要重新下载

1 安装配置BLAST1.1 利用conda安装,关于conda请看之前的简文 #启动环境 $ source ~/miniconda3/bin/activate $ conda install blast

比较简单

1.2 直接下载安装

首先在ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/下载最新版本的BLAST程序。

wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.8.1+-x64-linux.tar.gzConnecting to ftp.ncbi.nlm.nih.gov (ftp.ncbi.nlm.nih.gov)|130.14.250.12|:21... connected. Logging in as anonymous ... Logged in! ==> SYST ... done. ==> PWD ... done. ==> TYPE I ... done. ==> CWD (1) /blast/executables/LATEST ... done. ==> SIZE ncbi-blast-2.8.1+-x64-linux.tar.gz ... 241992963 ==> PASV ... done. ==> REST 173905320 ... done. ==> RETR ncbi-blast-2.8.1+-x64-linux.tar.gz ... done. Length: 241992963 (231M), 68087643 (65M) remaining (unauthoritative) ncbi-blast-2.8.1+-x64-linux.tar. 100%[++++++++++++++++++++++++++++++++++++++++================>] 230.78M 2.92MB/s in 33s 2019-01-23 13:30:52 (1.98 MB/s) - ‘ncbi-blast-2.8.1+-x64-linux.tar.gz’ saved [241992963]

接下来解压缩

$ tar -xzvf ncbi-blast-2.8.1+-x64-linux.tar.gz $ rm ncbi-blast-2.8.1+-x64-linux.tar.gz $ mv ncbi-blast-2.8.1+/ blast $ cd blast $ cd bin $ ls

可执行文件显示如下

blastdb_aliastool blastn deltablast makeblastdb rpsblast tblastx blastdbcheck blastp dustmasker makembindex rpstblastn update_blastdb.pl blastdbcmd blastx get_species_taxids.sh makeprofiledb segmasker windowmasker blast_formatter convert2blastmask legacy_blast.pl psiblast tblastn2 运行

要进行序列比对,得有以下几个条件 第一,有查询序列,并有特定格式 第二,有目标序列库,蛋白库还是DNA库 第三,确定查询工具,blastn,blastp,blastx,tblastx,tblastn 第四,设定合适参数开始运行 具体用法BLAST手册《BLAST Command Line Applications User Manual》

2.1本地建库第1️⃣:NCBI下载nt和nr库文件到本地

BLAST database 获取blast database的最好方法是NCBI下载。 通过运行$ update_blastdb.pl --decompress nr [*]程序,可以下载预先格式化的NCBI BLAST database。

#先创建blast_db目录 ~$ mkdir blast_db $ cd blast_db # 耗时很长,放入后台 $ nohup time update_blastdb.pl nt nr > log & $ nohup time tar -zxvf *.tar.gz > log2 &

说明:nt为核酸,nr为蛋白质 监控库文件是否下载完成,如何判断? 1. 查看log文件是否有提示;2. 查看update_blastdb.pl是否还在运行:执行ps -aef | grep update_blastdb.pl | grep -v update_blastdb.pl 命令,如过没有结果,则说明没有运行了。

可以获得的更多的NCBI BLAST数据库信息,请参考官方说明。

第2️⃣:现在假如


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3