蛋白分析

您所在的位置:网站首页 氨基酸序列推断题方法有哪些 蛋白分析

蛋白分析

2024-07-09 16:48| 来源: 网络整理| 查看: 265

原创内容,欢迎转载,转载请注明出处**

主笔:于浩

注意事项 能够进行蛋白结构域预测的网站和工具有很多,最常用的数据库就是SMART数据库、NCBI的CDD数据库、InterPro数据库、Pfam数据库,这些数据库有自己的独特的地方,也有统一性,比如说前面几个数据库都整合了Pfam的结构域。具体的详细的信息可以自己查阅文献或者资料。 对于单个蛋白的分析建议使用SMART数据库,快速,图形化界面友好。NCBI的CDD数据库非常全,提供的信息很多。自己用Hmmer工具进行pfam数据库检索的好处是结果可以整理成为标准的格式,便于后续的分析。 利用SMART数据库进行蛋白结构域预测 单个蛋白的结构域分析

1、进入SMART数据库进行检索

在文本框中输入蛋白序列(可以只有氨基酸序列,也可以以fasta格式粘贴),把下面的要鉴定的复选框都选上,点击“Sequence SMART”就可以进行蛋白结构域分析了,速度非常快。

微信截图_20240116100016.png

2、结果展示

分析完成后会弹出一个新的窗口,里面有预测的结果,可以看到下面的蛋白预测到了一个信号肽signal peptide,预测到了2个Pfam结构域分别是“GMC_oxred_N"结构域和”GMC_oxred_C“结构域。

微信截图_20240116100332.png

蛋白批量结构域分析

点击下面的网址链接,进入批量分析界面:http://smart.embl.de/smart/batch.pl

在网页的“Sequences”文本框中输入蛋白序列,或者点击Sequences”后面的“选择文件”选择fasta格式的蛋白序列文本文档。

选择完成后把Options前面的复选框都选上。

点击“提交”,开始分析。

微信截图_20240116093953.png

利用NCBI的CDD数据库进行蛋白结构域预测 单个蛋白的结构域分析

1、进入CDD数据库进行检索

点击网址链接进入比对界面:https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi

跟SMART一样,输入蛋白序列,选择要分析的内容,点击“submit”开始分析。

微信截图_20240116101559.png

2、结果展示

下面的结果我们应该都比较熟悉,利用NCBI的Blastp比对蛋白的小伙伴都应该看过这个结果。

看起来要比SMART整合了更多的数据库的信息,NCBI牛!

微信截图_20240116101735.png

蛋白批量结构域分析

批量比对的网址如下:https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi

这里就不展示教程了,是时候展示你自己强大的自学能力了!

Hmmer软件利用Pfam数据库进行蛋白结构域预测 准备工作

1、下载Pfam数据库

Pfam数据库的下载地址如下:http://ftp.ebi.ac.uk/pub/databases/Pfam/releases/

下拉窗口,可以看到最新的Pfam数据库(2024年1月份是36.0),点击进入文件夹,右键点击“Pfam-A.hmm.gz“,点击”复制链接地址“。

在Linux系统中利用wget工具下载Pfam数据库。

# 下载Pfam数据库 wget http://ftp.ebi.ac.uk/pub/databases/Pfam/releases/Pfam36.0/Pfam-A.hmm.gz # 解压缩数据库 gzip -d Pfam-A.hmm.gz

2、在Linux系统中安装HMMER工具

建议使用系统工具或者Conda安装Hmmer,具体的代码如下

ubuntu系统中使用apt-get安装:

apt-get install hmmer

使用conda安装代码:

conda install hmmer

也可以自己下载安装这个软件,具体的方法如下。

# 首先下最新的hmmer软件压缩包(改地址可以下载到最新版本,也可以上官网自行下载最新版的压缩包) wget http://eddylab.org/software/hmmer/hmmer.tar.gz # 解压缩 tar -zxvf hmmer.tar.gz # 进入文件夹(我2024年1月份下载的是3.4版本) cd hmmer-3.4/ # 编译 ./configure # 编译 make # 最后一步添加环境变量 批量序列比对和信息提取

1、Pfam蛋白结构域预测

准备好了Pfam数据库和hmmer工具之后,把所有的蛋白序列放到proteome.fa文本文档里面,可以用下面的代码来进行蛋白批量的pfam结构域预测。

# 用下面的脚本批量进行蛋白的pfam结构域预测 hmmscan -o out.txt --tblout pfam_out.tbl --noali -E 1e-5 Pfam-A.hmm proteome.fa # proteome.fa 蛋白序列,需要是fasta结构 # pfam_out.tbl 以表格形式输出的pfam比对的结果 # 比对的evalue值为最常用的默认参数

2、提取Pfam蛋白预测结果整理成为excel表格的形式

按照我写的一个python脚本文件,可以将上面生成的 pfam_out.tbl 文件中的各个蛋白的Pfam结构域信息提取出来。

python脚本的下载地址如下:下载地址

python3 annotation_extraction_pfam.py

改脚本会生成两个excel表格文件:

prediction_info_from_pfam.xlsx:就是把pfam_out.tbl文件整理成为excel表格的形式。

proteome_annotation_pfam.xlsx:就是提取出来的每个蛋白的pfam结构域的注释信息,其中如果一个蛋白有多个结构域,不同结构域就会用“; "隔开。

如果脚本运行错误有可能是最新的Hmmer的版本不同导致输出结果不同导致的,可以自己修改python脚本或者下载比较早的hmmer用这个脚本。

上面用来比较的蛋白序列如下:

>A0A067NEU8MAPLHLLAISLVWLLLLQTCTGRIYSKLSDLPTTRFDFVIIGSGAAGNVLANRLTENPHISVLVLEAGGSNEGVLDSEVPFFCPKLSPGTPFDWNFTTTPQAALNNHTVAFPRGFMLGGSTSINFLAYTRGSMDDWNRFAAITGDKGWSWHRLQRYFRKNEHFTRPADHHNIIGEFNPRVHSRRGINSVSLGGFPRPIDQMVLRAMQELPDEFPFNVDMNSGKQIGIGWTQGTIKGGRRSSSATSYLGSKFIRRRNLHVLLHARVTRLLQDGVTGGKKSFRKVEFAQNAPGSGVNGPFGPRRTILASKSVILSAGSVMSPNILMHSGIGDEQMLRRVGIKPLHNLPSVGQNLIDHSLTRLAWNVNSTDTYETHLRNATIAAADLAEWKRSETGYLTTTRFSFLGWLRLPKNATIFQRFKDPAAGLDTAHIEMLIGVSSAFTNGMNLAPPTGNFLSLSVGVVSPASRGSITINSSNPFDPPLIDPGLMTSEFDLFTMREAIRSVARFLSAPAWAGYILSPAGALADVDLSSDEQLNAYIRNNTGSLFHPVGTSSMSRRGSSSGVVDPDLKVKGIEGVHVVDASVMPRVPAAHTQVPTYVVAERAADLIKEAWDCY



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3