NCBI基因及启动子序列查找

您所在的位置:网站首页 ncbi查找氨基酸序列 NCBI基因及启动子序列查找

NCBI基因及启动子序列查找

2023-06-11 04:09| 来源: 网络整理| 查看: 265

当已知基因名或ID时,可通过NCBI搜索基因序列。首先登陆NCBI官网,在下拉菜单选择gene,搜索基因名或ID。 NCBI:https://www.ncbi.nlm.nih.gov/ 这里选取一个调节根系发育的基因AT5G61350进行示例。

搜索结果共有159个,分别在不同的物种中,第一列是基因名和基因ID;第二列是简单的功能描述,中括号内为物种名;第三别是基因在基因组中的位置;第四列为其他名称。 点击基因名称进入详情页,summary中是对gene的主要介绍,包括基因名,基因的类型,以及主要的功能。 Genomic context部分,要注意基因的方向,这个基因的方向是从左往右,左侧为起始位置。如果是从右往左,那右侧则是起始位置。 点击fasta获得基因序列。下图所示,左侧为5'UTR,右侧为3'UTR,中间深绿色全部是外显子,也就是CDS编码区,这个基因没有内含子。

FASTA格式

在生物信息学中,FASTA格式(又称为Pearson格式)是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。

FASTA文件以序列表示和序列作为一个基本单元,各行记录信息如下: 第一行是由大于号">"开头的任意文字说明,用于序列标记,为了保证后续分析软件能够区分每条序列,单个序列的标识必须具有唯一性; 从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可,而氨基酸常用大写字母。

具体字母代表的含义如下: 核苷酸序列:

A --> adenosine M --> A C (amino) C --> cytidine S --> G C (strong) G --> guanine W --> A T (weak) T --> thymidine B --> G T C U --> uridine D --> G A T R --> G A (purine) H --> A C T Y --> T C (pyrimidine) V --> G C A K --> G T (keto) N --> A G C T (any) - gap of indeterminate length

氨基酸序列:

A alanine P proline B aspartate or asparagine Q glutamine C cystine R arginine D aspartate S serine E glutamate T threonine F phenylalanine U selenocysteine G glycine V valine H histidine W tryptophan I isoleucine Y tyrosine K lysine Z glutamate or glutamine L leucine X any M methionine * translation stop N asparagine - gap of indeterminate length

查看fasta,左侧为CDS序列,右侧方框内为序列所在范围,24667873——24670749。

通常认为启动子在基因上游2kb范围内,这个基因的方向从左至右,因此启动子范围就在基因左侧起始位置加2kb,24665873——24667872。如果基因方向是从右向左,那么启动子区域就是右侧位置加上2Kb。

FASTA格式参考: https://www.jianshu.com/p/cd232d34c408

引用请注明出处,如有错误敬请指出。


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3