如何确定公共转录组数据集的来源性别

您所在的位置:网站首页 如何利用四维数据判断男女 如何确定公共转录组数据集的来源性别

如何确定公共转录组数据集的来源性别

2024-07-16 21:27| 来源: 网络整理| 查看: 265

太长不看版: 文献报道XIST和RPS4Y1是区分性别的两个高可信度的标记基因,因此你没有必要去用其他性染色体上的基因去确定数据集的性别。

不仅仅是在使用公共的单细胞转录组数据,其实早在公共芯片数据或者RNA-seq数据挖掘中,就有人在考虑一个问题,这个数据的元信息作者会不会搞错了呢?

以性别为例,我们很容易想到表达Y染色体上基因数据肯定是男性,但是我们也知道基因也不是任何时刻都表达,所以如果一个Y染色体上的基因不表达,ta未必是女性。因此我们需要一个比较可靠的标记基因,来确保对性别的区别是正确的。

我最初的想法,也是对Y染色体的基因逐个看表达,但是转念想到,在我这个数据集中有用的标记未必适用于其他数据集呀。因此通过一波检索,我找到了一篇文献,里面给出了两个关键基因,XIST和RPS4Y1。

文献支持

接着我用Seurat提供的一个公共数据集进行测试,这个数据包括了不同技术处理的PBMC数据,预处理的代码如下。

library(Seurat) library(harmony) data("pbmcsca") library(dplyr) pbmc % Seurat::NormalizeData(verbose = FALSE) %>% FindVariableFeatures(selection.method = "vst", nfeatures = 2000) %>% ScaleData(verbose = FALSE) %>% RunPCA(pc.genes = [email protected], npcs = 20, verbose = FALSE) pbmc


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3