生物信息学名词解释(个人整理)WORD

您所在的位置:网站首页 BLAST生物信息学名词解释 生物信息学名词解释(个人整理)WORD

生物信息学名词解释(个人整理)WORD

2024-04-23 04:49| 来源: 网络整理| 查看: 265

1、文档可能无法思考全面,请浏览后下载! 一、名词解释:1.生物信息学: 研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。3.FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。4.genbank序列格式:是GenBank 数据库

2、的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“/”结尾。5.Entrez检索系统:是NCBI开发的核心检索系统,集成了NCBI的各种数据库,具有链接的数据库多,使用方便,能够进行交叉索引等特点。6.BLAST:基本局部比对搜索工具,用于相似性搜索的工具,对需要进行检索的序列与数据库中的每个序列做相似性比较。P947.查询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较的序列。P988.打分矩

3、阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如PAM)两类方法。P299.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P2910.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的引入不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P3711.E值:衡量序列之间相似性是否显著的期望值。E值大小说明了可以找到与查询序列(query)相匹配的随机或无关

4、序列的概率,E值越接近零,越不可能找到其他匹配序列,E值越小意味着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生物学意义。P9512.低复杂度区域:BLAST搜索的过滤选项。指序列中包含的重复度高的区域,如poly(A)。13.点矩阵(dot matrix):构建一个二维矩阵,其X轴是一条序列,Y轴是另一个序列,然后在2个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结构上的异

5、同,来回答大量的生物学问题。15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断出物种起源的时间。16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断不同物种或基因之间的进化关系。17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两个子分支。系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。8 / 1018.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。)19.

6、旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因在功能上可能发生了改变。(书:由于基因重复事件产生的相似序列。)20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。21.有根树:能够确定所有分析物种的共同祖先的进化树。22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找到距离最近的两类将其归为一类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。23.邻接法(neighbor-joining method):是一种不仅仅计算两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服UPGM

7、A算法要求进化速率保持恒定的缺陷。24.最大简约法(MP):在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。25.最大似然法(ML):它对每个可能的进化位点分配一个概率,然后综合所有位点,找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析评估,并在此基础上构建系统发育树。26.一致树(consensus tree):在同一算法中产生多个最优树,合并这些最优树得到的树即一致树。27.自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。28.开放阅读框(ORF):开放阅读框是基因序列的

8、一部分,包含一段可以编码蛋白的碱基序列。29.密码子偏好性(codon bias):氨基酸的同义密码子的使用频率与相应的同功tRNA的水平相一致,大多数高效表达的基因仅使用那些含量高的同功tRNA所对应的密码子,这种效应称为密码子偏好性。30.基因预测的从头分析:依据综合利用基因的特征,如剪接位点,内含子与外显子边界,调控区,预测基因组序列中包含的基因。31.结构域(domain):保守的结构单元,包含独特的二级结构组合和疏水内核,可能单独存在,也可能与其他结构域组合。相同功能的同源结构域具有序列的相似性。32.超家族:进化上相关,功能可能不同的一类蛋白质。33.模体(motif):短的保守的

9、多肽段,含有相同模体的蛋白质不一定是同源的,一般10-20个残基。34.序列表谱(profile):是一种特殊位点或模体序列,在多序列比较的基础上,氨基酸的权值和空位罚分的表格。35.PAM矩阵:PAM指可接受突变百分率。一个氨基酸在进化中变成另一种氨基酸的可能性,通过这种可能性可以鉴定蛋白质之间的相似性,并产生蛋白质之间的比对。一个PAM单位是蛋白质序列平均发生1%的替代量需要的进化时间。36.BLOSUM矩阵:模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如,在BLOSUM62矩阵中,比对的分值来自不超过62%一致率的一组序列。3

10、7.PSI-BLAST:位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵(scoring matrix)探测远缘相关的蛋白。38.RefSeq:给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的Genbank序列。39.PDB(Protein Data Bank):PDB中收录了大量通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以FASTA程序进行搜索。40.GenPept:是由GenBank中的DNA序列翻译

11、得到的蛋白质序列。数据量很大,且随核酸序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经试验证实,也没有详细的注释。41.折叠子(Fold):在两个或更多的蛋白质中具有相似二级结构的大区域,这些大区域具有特定的空间取向。42.TrEMBL:是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。43.MMDB(Molecular Modeling Database):是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子

12、结构数据。与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等 ,还提供生物大分子三维结构模型显示、结构分析和结构比较工具。44.SCOP数据库:提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到PDB的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次依次是类(class)、折叠子(fold)、超家族(super family

13、)、家族(family)、单个PDB蛋白结构记录。45.PROSITE:是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。 PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。 46.Gene Ontology 协会:编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。 从3个方面描述基因产物的性质,即,分子功能,生物过程,细胞区室。47.表谱(PSSM):指一张基于多

14、序列比对的打分表,表示一个蛋白质家族,可以用来搜索序列数据库。48.比较基因组学:是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。49.简约信息位点:指基于DNA或蛋白质序列,利用最大简约法构建系统发育树时,如果每个位点的状态至少存在两种,每种状态至少出现两次的位点。其它位点为都是非简约性信息位点。1.生物信息学:(狭义)专指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据的学科;(广义)指生命科学与数学、计算机科学和信息科学等交汇融合所形成的一门交叉学科。2.人类基因组测序计划:3基因组学

15、p150:以基因组分析为手段,研究基因组的结构组成、时序表达模式和功能,并提供有关生物物种及其细胞功能的进化信息。4基因组p150:是指一个生物体、细胞器或病毒的整套基因。5. 比较基因组学p166:是指基因组学与生物信息学的一个重要分支。通过模式生物基因组之间或模式生物基因组与人类基因组之间的比较与鉴别,可以为研究生物进化和分离人类遗传病的候选基因以及预测新的基因功能提供依据。6功能基因组:表达一定功能的全部基因所组成的DNA序列,包括编码基因和调控基因。功能基因组学:利用结构基因组学研究所得的各种来源的信息,建立与发展各种技术和实验模型来测定基因及基因组非编码序列的生物学功能。7蛋白质组p

16、179:是指一个基因组中各个基因编码产生的蛋白质的总体,即一个基因组的全部蛋白产物及其表达情况。8蛋白质组学:指应用各种技术手段来研究蛋白质组的一门新兴科学,其目的是从整体的角度分析细胞内动态变化的蛋白质组成成分、表达水平与修饰状态,了解蛋白质之间的相互作用与联系,揭示蛋白质功能与细胞生命活动规律。9功能蛋白质组学:(课件上只能找到功能蛋白质组,即细胞在一定阶段或与某一生理现象相关的所有蛋白)。10序列对位排列:通过插入间隔的方法使不同长度的序列对齐,达到长度一致。11分子系统树:是表达类群(或序列)间系统发育关系的一种树状图。12 BLAST搜索p73:是一种基本的局部对位排列搜索工具。13

17、 SNP p152:即单核酸多态性,是指基因组内特定核苷酸位点上存在两种不同碱基,其中每种在群体中的频率不小于1%。SNP大多数为转换置换。14 ESTp91:即表达序列标签,是从cDNA文库中生成的一些很短的序列(300500bp),它们代表在特定组织或发育阶段表达的基因,有时可代表特定的cDNA。16 基因组作图 p155:是确定界标或基因在构成基因组的每条染色体上的位置,以及同条染色体上各个界标或基因之间的相对距离。17 后基因组时代 p3:其标志是大规模基因组分析、蛋白质组分析以及各种数据的比较和整合。18 电子克隆 p98:又称虚拟克隆,其原理是依据大量EST具有相互重叠的性质,通过

18、计算机法获得cDNA全长序列。电子克隆是由一个查询序列开始,依靠EST数据库在计算机上对EST进行两端延伸,从而获得全长的cDNA序列。19 遗传连锁图 p155:是用遗传模式来描述DNA标记(基因和其他确定DNA序列)在染色体上的相对位置。20 物理图谱 p156:是标明一些界标(如限制酶切点、单一序列、基因等)在DNA分子或染色体上锁处位置的图,图距以物理长度为单位(如核苷酸对的数目)。1. 生物信息学:1)生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科;2)它综合运用了数学、计算机学和生物学的各种工具来进行研究;3)目的在于阐明大量生物学数据所包含的生物学意义。2

19、. BLAST(Basic Local Alignment Search Tool) 直译:基本局部排比搜索工具意译:基于局部序列排比的常用数据库搜索工具含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库3. PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST和FASTA的相似序列发现率。4. 一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。5. HMM 隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列。(课件定义)是蛋白质结构域家族序列的一种严格的统计模型,包括

20、序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。6. 信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。7. 非信息位点:对于最大简约法来说没有意义的点。8. 标度树:分支长度与相邻节点对的差异程度成正比的树。9. 非标度树:只表示亲缘关系无差异程度信息。10. 有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达其他任何节点。11. 无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,可以在无根树中指派根节点。12. 注释:指从原始序列数据中获得有用的生物学信息。这主要是指在基因组DNA中

21、寻找基因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。13. 聚类分析:一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。14. 无监督分析法:这种方法没有内建的分类标准,组的数目和类型只决定于所使用的算法和数据本身的分析方法。15. 有监督分析法:这种方法引入某些形式的分类系统,从而将表达模式分配到一个或多个预定义的类目中。16. 微阵列芯片:将探针有规律地排列固定于载体上,与标记荧光分子的样品进行杂交,通过扫描仪扫描对荧光信号的强度进行检测,从而迅速得出所要的信息。17. 虚拟消化:是基于已知蛋白序列和切断酶的特异性的情况下进行的理论酶切(课件定义)。是在已知蛋

22、白质序列和蛋白外切酶之类切断试剂的已知特异性的基础上, 由计算机进行的一种理论上的蛋白裂解反应。19. 分子途径是指一组连续起作用以达到共同目标的蛋白质。20. 虚拟细胞:一种建模手段,把细胞定义为许多结构,分子,反应和物质流的集合体。21. 先导化合物:是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。就是利用计算机在含有大量化合物三维结构的数据库中,搜索能与生物大分子靶点匹配的化合物,或者搜索能与结合药效团相符的化合物,又称原型物,简称先导物,是通过各种途径或方法得到的具有生物活性的化学结构22. 权重矩阵(序列轮廓):它们表示完全结构域序列,多序列联配

23、中每个位点的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法(课件定义)。基础上针对特定的应用目标而建立的数据库。23. 系统发育学(phylogenetic):确定生物体间进化关系的科学分支。24. 系统生物学(systems biology):是研究一个生物系统中所有组分成分(基因、mRNA、蛋白质等)的构成以及在特定条件下这些组分间的相互关系,并分析生物系统在一定时间内的动力学过程25. 蛋白质组(proteome):是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。1、生物信息学 广义:生命科学中的信息科学。生物体系和过程中信息的存贮、传递和表达;细胞

24、、组织、器官的生理、病理、药理过程的中各种生物信息。狭义:生物分子信息的获取、存贮、分析和利用。2、基因:有遗传效应的DNA片断,是控制生物性状的基本遗传单位。3、中心法则 是指遗传信息从DNA传递给RNA,再从RNA传递给蛋白质,即完成遗传信息的转录和翻译的过程。也可以从DNA传递给DNA,即完成DNA的复制过程。这是所有有细胞结构的生物所遵循的法则。4、一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 5、基因芯片基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理

25、是通过杂交检测信息。6、推动生物信息学快速发展的学科核心和灵魂:生物学基本工具:数学与计算机技术7、“组”学的主要创新点对生命科学发展的作用与意义21世纪是生物技术和信息技术的时代,基因组研究由结构基因组研究转向功能基因组研究,蛋白质组学已成为当前研究的热点和重点,生物信息学加快了生命科学的发展步伐。蛋白组研究的兴起和发展,在揭示生命运动的本质及疾病的诊断、治疗等方面发挥着重要作用。随着基因组学研究的不断深入,在基因组测序、蛋白质序列测定和结构解析等实验的基础上,产生了大量有关生物分子的原始数据,这些原始的数据需要利用现代计算机技术进行收集、整理、管理以便检索使用,生物信息学应用而生,其研究重

26、点集中在核酸和蛋白质两个方面。所谓组学,即从一个整体的角度来研究。相对于传统生命科学零敲碎打的研究手段,研究单个的基因或蛋白的功能、结构,而组学则是着眼于大局,将单个的基因、蛋白以“组”的水平进行研究,从而对于生命科学能够有一个大局的把握。作用:(1) 从学科角度方面:生命科学进入了新的发展时期;研究体系的突破:局部到整体;学科性质:经验型、资料积累到总结规律(2) 从研究人员角度:提高研究效率、深化研究成果、显著增加论文“厚度”与“重量”意义:正对生命科学产生深远的影响,极大提高科研的效率、质量、促进生命科学实现跨越式的发展。数据处理、分析能力直接影响当今生命科学研究机构的科研能力与研究成果

27、水平。8、世界上最权威的四大生物数据平台美国人工蛋白质数据库:1960年GenBank数据库:1979年欧洲分子生物学实验室(EMBL):1982年日本核酸序列数据库(DDBJ): 1984年19、分子钟蛋白质同系物的替换率,在几百万至几千万年的时间跨度上是基本保持恒定的,因此将氨基酸的匀速变异现象比作分子钟。基本规律:(1)不同类的基因间的氨基酸替换率的存在显著差异(2)同类的分子进化速率则几乎完全一致,同源蛋白质的差异取决于它们独立分化的时间20、进化树构建的主要方法、各自的原理及优缺点距离建树方法:利用双重序列比对的差异程度进行建树;最大简约法:进化往往会走最短的路-DNA序列发生的碱基

28、替换数量最少最大似然法:进化会走可能性最大的路1)距离建树方法(非加权组平均法UPGMA,相邻归并法Neighbor-joining, NJ(优点:快速),Fitch-Margoliash(FM)( 优点:允许OTU(操作分类单位)间存在不同的进化速率))原理:根据双重序列比对的差异程度(距离)优点:使用序列进化模型、计算强度较小缺点:屏蔽了真实的特征符数据。2)最大简约法原理:最能反映进化历史的树具有最短的树长(tree length),即进化步数(性状在系统树中状态改变的次数)最少。即:DNA序列发生的碱基替换数最少。3)最大似然法原理:首先选定一个进化模型,计算该模型下,各种分支树产生现有数据的可能性。具有最大可能性的系统树为最优。即一个树的似然性(likelihood)等于每一个性状的似然性之和或每一个性状的似然性对数之和。优点:完全基于统计,在每组序列比对中考虑了每个核苷酸替换的概率,使用越来越普遍缺点:计算量非常大,缺乏普遍适用的替换模型(不同的替换模型给出不同的结果)21、domain, fold, motif31、蛋白质的各级结构的定义Domain: 指具有特定且相对独立的三维立体结构、而且能够独立完成某种功能的蛋白质的一部分,但有时候也泛指蛋白质序列的一部分。Fold: 蛋白质基本三维结构,包括:(1) 二级结构元件(2)元件之间的顺序连接(3)



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3