基因名坑你没商量

您所在的位置:网站首页 dna的中文名称是什么意思 基因名坑你没商量

基因名坑你没商量

2024-05-24 06:31| 来源: 网络整理| 查看: 265

基因名字是我们日常数据分析、阅读文献中最常见的一类术语,以下根据自己工作经验探讨下基因名在生物信息学数据分析中常见的坑!

坑1:一个基因有两种名字

基因的名字分成两种:

一种是给计算机看的,也就是各种数据库中的基因ID,最常用的基因id数据库来源包括:Ensembl,NCBI,UCSC等;

另一种是给人看的,就是我们常见的gene symbol,例如TP53。

所以,根据名字来判断是哪个数据库中的id,是数据分析小伙伴的“职业修养”。

对于human来说,推荐使用Genecards(https://www.genecards.org)网站进行查询。

坑2:基因名字是变化的

基因名不是一成不变的。随着我们对基因更加深入地了解,基因名也会更新。

以这篇M5C regulator-mediated methylation modification patterns and tumor microenvironment infiltration characterization in lung adenocarcinoma(Translational lung cancer research,IF:6.498)为例。

啥?13个m5C修饰相关基因中仅11个有表达。TCGA LUAD中有几百例样品,其中有2个基因在这几百例里边都没有表达?不合逻辑啊!

经过查询,我们发现,不是这两个基因没有表达,是人家名字变了。

DNMT2的新名字是TRDMT1;NSUN1的新名字是NOP2。估计是分析人员直接用的旧名字搜索,发现TCGA里边没有这两个名字,所以就认为人家没有表达了。这个坑有点大啊!

因为文献里边的名字一般都是滞后的,当遇见报告里边只给一列gene symobl的时候,你文献里边的基因可能在你数据里边就查不到。

坑3:Excel会改变你的基因名

这个坑影响面很广,很早之前就被期刊报告过。

由于我们一般都是用excel打开数据,所以如果公司给你的不是真正的excel格式的文件,比如txt文件,tsv文件,csv文件,实际为txt格式的xls文件等的时候,这个坑你就要想办法自己填了。直接粘贴到excel里边也不一定行,你需要的是真正的excel格式。

常见被excel改变的基因包括:

2310009E13

FEB2

MAR1

DEC1

2310009E13

OCT4

APR1

SEP2

SEP-1

FEB1–FEB11

MARCH1–MARCH11

SEPT1–SEPT14

小贴士:我们是直接给客户excel格式文件滴,虽然增加了代码量,但是不会让客户踩坑。

坑4:基因名是区分大小写的



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3