blast与blast+使用（参数、输出文件格式）

您所在的位置：网站首页 › flash输出文件格式 › blast与blast+使用（参数、输出文件格式）

blast与blast+使用（参数、输出文件格式）

2023-09-03 18:44| 来源: 网络整理| 查看: 265

一、BLAST+（NCBI发布于2009年）

下载地址：https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/

1、建库

makeblastdb -in db.fasta -dbtype prot -out dbname

参数说明 -in：待格式化的序列文件 -dbtype：数据库类型，prot或nucl -out：数据库名 -parse_seqids：解析序列标识（建议加上） -out：数据库名 -title：数据库名（略） -logfile：日志文件，默认输出到屏幕更多参数 makeblastdb -help 2、比对

blastp -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4

参数说明 -query：输入文件路径及文件名 -out：输出文件路径及文件名 -db：格式化了的数据库路径及数据库名 -outfmt：输出文件格式，总共有12种格式，6是tabular格式对应之前BLAST的m8格式 -evalue：设置输出结果的e-value值 -num_alignments 显示比对数Default = 250 -num_descriptions：单行描述的最大数目 default=50 -num_threads：线程数更多参数 blastp -help

3、核酸序列比对核酸数据库（blastn）以及核酸序列比对蛋白数据库（blastx)

blastn -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4 blastx -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_threads 4

4、文件格式重点是-outfmt 6，也就是之前版本的m 8格式结果中从左到右每一列的意义分别是：

Query_id Subject_id %_identity alignment_length mismatches gap_openings q. start q. end s. start s. end e-value bit_score AKS24976.1 ABU86350.1 25.446 224 149 9 713 931 2 212 3.23e-05 38.1 AKS24976.1 ABU86150.1 38.596 57 34 1 599 655 16 71 8.09e-05 36.6 AKS24976.1 ABU86161.1 38.667 75 42 2 578 652 14 84 9.06e-05 37.0 AKS24976.1 ABU86160.1 38.667 75 42 2 578 652 14 84 9.06e-05 37.0 AKS24976.1 ABU86162.1 38.667 75 42 2 578 652 14 84 9.31e-05 37.0 AKS24976.1 ABU86154.1 38.596 57 34 1 599 655 16 71 9.70e-05 36.6 AKS24976.1 ABU86152.1 38.596 57 34 1 599 655 16 71 9.70e-05 36.6 AKS24976.1 ABU86329.1 39.130 69 38 2 599 664 83 150 2.51e-04 34.7 AKS24976.1 ABU86326.1 39.130 69 38 2 599 664 83 150 2.51e-04 34.7 AKS24976.1 ABU86325.1 39.130 69 38 2 599 664 83 150 2.51e-04 34.7 二、blast

1、建库

formatdb -i db.seq -p T -o T -l logfile

主要参数: -i 输入需要格式化的源数据库名称 -p 文件类型，是核苷酸序列数据库（F - nucleotide）/蛋白质序列数据库（T – protein），default = T -a 输入数据库的格式是否为ASN.1/FASTA [T/F]，default = F -o 解析选项：解析序列标识并且建立目录[T/F]，default = F -l 自定义log文件命令default=formatdb.log，记录运行时间、版本号、序列数目等 -n 自定义库文件命名建库结果：如果建立的是核酸库，输出为db.seq.nhr、db.seq.nin、db.seq.nsq三个文件，若选择了“-o T”，还会同时输出db.seq.nsd、db.seq.nsi、db.seq.nni、db.seq.nnd四个文件，一共七个。蛋白库和核酸库的输出类似，相应的输出文件为：db.seq.nhr、db.seq.nin、db.seq.nsq和db.seq.nsd、db.seq.nsi、db.seq.nni、db.seq.nnd七个文件。 2、比对

blastall -i seq.fa -d db.fa -o blast.out -p blastp -F F -m 8 -e 1e-5 -b 10 -v 10 -a 2

主要参数：以上流程中所用参数： -i 所用查询序列文件 -d 所用序列数据库的名称 default=nr -o BLAST结果的输出文件 -p 所用程序名称: blastn，blastp，blastx，tblastn，tblastx -F 查询序列过滤：将那些给出影响比对结果的低复杂度区域过滤掉 default = T -m 比对结果显示格式 defalut=0 -e 期望值，描述搜索某一特定数据库时，随机出现的匹配序列数目default = 10.0 -b 显示比对结果的最大数目 default=250 -v 单行描述的最大数目 default=500 -a 使用处理器的数目 default = 1（单机）

-m 比对结果格式选项:

1 = query-anchored showing identities,查询-比上区域，显示一致性 2 = query-anchored no identities,查询-比上区域，不显示一致性 3 = flat query-anchored, show identities,查询-比上区域的屏文形式，显示一致性 4 = flat query-anchored, no identities,查询-比上区域的屏文形式，不显示一致性 5 = query-anchored no identities and blunt ends,查询-比上区域，不显示一致性，无突然的结束 6 = flat query-anchored, no identities and blunt ends,查询-比上区域的屏文形式，不显示一致性 7 = XML Blast output,XML格式的输出 8 = tabular,TAB格式的输出 9 =tabular with comment lines,带注释行的TAB格式的输出 10 =ASN, text,文本方式的ASN格式输出 11 =ASN, binary [Integer] default = 0,二进制方式的ASN格式输出

m8格式12列结果：

Query id, Subject id, % identity, alignment length, mismatches, gap openings, q.start, q.end, s.start, s.end, e-value, bit score 第一列为Query(递交序列)，第二列为数据库序列(目标序列subejct)，第三列为: identity 第四列为：比对长度第五列为：错配数第六列为：gap数第七列和第八列为：Query开始碱基位置和结束碱基位置第九列和第十列为：Subject开始碱基位置和结束碱基位置第十一列为：期望值第十二列为：比对得分

参考： https://www.jianshu.com/p/2c4c53b74594 --->三种比对方式 http://blog.sciencenet.cn/blog-299308-1142875.html --->详细格式

【本文地址】

blast与blast+使用（参数、输出文件格式）

blast与blast+使用（参数、输出文件格式）

今日新闻

推荐新闻