NCBI基因及启动子序列查找

您所在的位置：网站首页 › ncbi查找氨基酸序列 › NCBI基因及启动子序列查找

NCBI基因及启动子序列查找

2023-06-11 04:09| 来源: 网络整理| 查看: 265

当已知基因名或ID时，可通过NCBI搜索基因序列。首先登陆NCBI官网，在下拉菜单选择gene，搜索基因名或ID。 NCBI：https://www.ncbi.nlm.nih.gov/ 这里选取一个调节根系发育的基因AT5G61350进行示例。

搜索结果共有159个，分别在不同的物种中，第一列是基因名和基因ID；第二列是简单的功能描述，中括号内为物种名；第三别是基因在基因组中的位置；第四列为其他名称。点击基因名称进入详情页，summary中是对gene的主要介绍，包括基因名，基因的类型，以及主要的功能。 Genomic context部分，要注意基因的方向，这个基因的方向是从左往右，左侧为起始位置。如果是从右往左，那右侧则是起始位置。点击fasta获得基因序列。下图所示，左侧为5'UTR，右侧为3'UTR，中间深绿色全部是外显子，也就是CDS编码区，这个基因没有内含子。

FASTA格式

在生物信息学中，FASTA格式（又称为Pearson格式）是一种基于文本的、用于表示核苷酸序列或氨基酸序列的格式。

FASTA文件以序列表示和序列作为一个基本单元，各行记录信息如下：第一行是由大于号">"开头的任意文字说明，用于序列标记，为了保证后续分析软件能够区分每条序列，单个序列的标识必须具有唯一性；从第二行开始为序列本身，只允许使用既定的核苷酸或氨基酸编码符号。通常核苷酸符号大小写均可，而氨基酸常用大写字母。

具体字母代表的含义如下：核苷酸序列：

A --> adenosine M --> A C (amino) C --> cytidine S --> G C (strong) G --> guanine W --> A T (weak) T --> thymidine B --> G T C U --> uridine D --> G A T R --> G A (purine) H --> A C T Y --> T C (pyrimidine) V --> G C A K --> G T (keto) N --> A G C T (any) - gap of indeterminate length

氨基酸序列：

A alanine P proline B aspartate or asparagine Q glutamine C cystine R arginine D aspartate S serine E glutamate T threonine F phenylalanine U selenocysteine G glycine V valine H histidine W tryptophan I isoleucine Y tyrosine K lysine Z glutamate or glutamine L leucine X any M methionine * translation stop N asparagine - gap of indeterminate length

查看fasta，左侧为CDS序列，右侧方框内为序列所在范围，24667873——24670749。

通常认为启动子在基因上游2kb范围内，这个基因的方向从左至右，因此启动子范围就在基因左侧起始位置加2kb，24665873——24667872。如果基因方向是从右向左，那么启动子区域就是右侧位置加上2Kb。

FASTA格式参考： https://www.jianshu.com/p/cd232d34c408

引用请注明出处，如有错误敬请指出。

【本文地址】

NCBI基因及启动子序列查找

NCBI基因及启动子序列查找

今日新闻

推荐新闻