BLOSUM62的知识 |
您所在的位置:网站首页 › 氨基酸一字符号的含义 › BLOSUM62的知识 |
1. BLOSUM:
BLOSUM 是“blocks substitution matrix”的缩写。它是目前常用的一种氨基酸替换打分矩阵。 BLOSUM打分矩阵最早由 Steven Henikoff. 和 J.G Henikoff在他们的论文中被提出。其中,他们从BLOCKS数据库中对那些在高度保守序列中的蛋白质家族进行观察测量进而整理出了氨基酸替换的概率。他们继续使用对数胜算来计算矩阵中的分值。与PAM打分矩阵相比,BLOSUM打分矩阵的内容皆由观察得出。在实际运用中,BLOSUM矩阵通常能获得更好的结果。 BLOSUM:首先寻找氨基酸模式,即有意义的一段氨基酸片断(如一个结构域及其相邻的两小段氨基酸序列) ,分别比较相同的氨基酸模式之间氨基酸的保守性(某种氨基酸对另一种氨基酸的取代数据),然后,以所有 60%保守性的氨基酸模式之间的比较数据为根据,产生BLOSUM60;以所有80%保守性的氨基酸模式之间的比 较数据为根据,产生BLOSUM80。 原文链接:https://blog.csdn.net/weixin_45156147/article/details/109953649 2. BLOSUM62BLOSUM-n中,n越小,表示氨基酸相似的可能性越小,相似的序列之间比较应该选用 n 值大的矩阵,不太相似的序列之间比较应该选用n值小的矩阵。BLOSUM-62用来比较62%相似度的序列,BLOSUM-80用来比较80%左右的序列。 BLOSUM62是应用得最广的氨基酸替换矩阵广泛应用于双序列比对,用来测量两条氨基酸段的相似程度,反应了蛋白质进化的信息。也是BLAST程序默认调用的计分矩阵。 也就是说BLOSUM62矩阵来自于序列间等同残基比超过62%的blocks(区块)。而block就是序列间联配上的无空位区域。 得到BLOSUM62的过程: 1.先定一个阈值L,比如你最后想得到BLOSUM62矩阵,就把L定为62。 2 . 前往蛋白质序列数据库,将符合序列间等同残基比大于L的序列归为一类。 3.将得到的类里面的序列作多序列比对(用PAM矩阵进行的多序列对比)。 4. 对比后,将保守无空位的区域划分为block。5.在block内统计频率,一个block相当于一个匹配模型。运用对数几率比得出s(a,b)。 原文链接:六种编码方案_Super齐的博客-CSDN博客 随机模型R:每一个碱基都是以频率q独立出现 匹配模型M:匹配上的碱基对以联合概率p(ab)出现,p(ab)的值可以认为是b就是由a演变而来的概率。 定义: 第一列的为AABACA,分别求出可能出现的配对情况(两两配对)和次数: 在AABACA中:AA两两配对出现了6次;AB出现了4次;AC出现了4次;BB出现了0次; BC出现了1次;CC出现了0次 于是可以归纳出一般计算配对频数的方法:若碱基相同,n*(n-1)/2;若碱基不同,n1 * n2,n为碱基出现次数。 3.2 遍历block的每一列,将特定配对情况的频数都加起来第二列BBBABA中AB出现的次数是8次,所以说加上第一列的就是一共是12次;将7列的所有出现的碱基对记录下来,就可以得到下表。 这些频数的加和一定是等于这个block中所有能观察到的配对数的和:w是列数,n是行数。 以AB为例,AB出现的次数是12次,总的次数是105次: 以计算A的概率为例,AA配对贡献两个A,A(其他氨基酸)这类配对贡献一个; PA= 7 * 2 + (12 + 9+ 5) / 310 = 7 /105 +( 12 /105 + 9 /105 + 5 /105) / 2 氨基酸在配对过程中总的出现次数是105*2,T=105;2 *T=310. 上面的结果再乘以2四舍五入取整即可 链接:https://www.jianshu.com/p/2c3fdeb4577e |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |