单细胞拾遗：UMAP图中不同谱系细胞“分不开”怎么办？ · Issue #3803 · ixxmu/mp

您所在的位置：网站首页 › 致美化打不开怎么办 › 单细胞拾遗：UMAP图中不同谱系细胞“分不开”怎么办？ · Issue #3803 · ixxmu/mp

单细胞拾遗：UMAP图中不同谱系细胞“分不开”怎么办？ · Issue #3803 · ixxmu/mp

2024-07-11 17:07| 来源: 网络整理| 查看: 265

在阅读单细胞文献或者我自己在分析实战过程中，特别针对是首次分群，偶尔会遇到不同细胞谱系有交叉的情况。最简单的一个例子就是UMAP图上T细胞与上皮细胞存在部分交叉（藕断丝连），无法做到泾渭分明的情况。例如我在实战过程遇到的：

image-20230903162907233另外，我在分析一个脑相关数据集中也遇到这种情况：

image-20230903163032806

其实即便是高分文章，也会有这种情况，例如：

2022年发表在Cancer Discovery的胃癌文章（PMID: 34642171）：

image-202309031555028072022年发表在NC上的泛癌文章（PMID: 36333338），这个谱系交叉就更加严重了：

image-20230903155114550

比较漂亮的UMAP图应该是泾渭分明的，例如：

2022年发表在NC上的胃癌文章（PMID: 35999201）：

image-20230903161604495

2022年发表在GB上的胃癌文章（PMID: 36550535）：

2022年发表在NC上的CRC文章（PMID: 35365629）

image-20230903162328395

如果说NC那篇泛癌文章（PMID: 36333338）是因为挖掘的公共数据集，批次效应太大了而造成的严重谱系交叉，那么这篇肺癌文章（PMID: 36368318）做出了一个很好的示例。同样是公共数据集挖掘，同样是超大细胞量，这篇文章的UMAP图显示不同谱系间仍然是泾渭分明的：

image-20230903163547682

那么，如果在初次分群时这种不同细胞谱系的交叉/藕断丝连情况会带来哪些问题呢？又有哪些解决方案呢？

很久以来，我一直在思考这个问题。

首先，不同细胞谱系“分不开”带来的最显著问题是UMAP图不美观。当然，也有朋友指出来，UMAP图是二维的，也许在空间上不同细胞谱系可能是泾渭分明的，只是视觉上的问题。

第二，是否有悖生物学常识（审稿人也许会对此进行质疑）？在考虑生物学背景的前提下，上皮/免疫/基质细胞这些细胞具有相当不同的谱系特征，因此理论上应该是泾渭分明的。

第三，我的经验上来说（针对这点，我认为我还需要更多经验），如果首次分群是藕断丝连的，再聚类时，容易造成细胞类型的误判（也许数量不会特别多），从而影响到二次分群。

第四，事出反常必有原因？从我的经验上来说，出现这种情况也有可能是数据存在双细胞/低质量细胞，从而造成了这种情况。所以说，出现了不同细胞谱系“分不开”的情况，也许可以提示分析者，反过去检查细胞的质量问题。这个问题的详细示例可见下文。

...（也许还会有一些别的问题，之后想到了再更新）

那么，解决方案有哪些？

按照我的经验思路来说，初次分群遇到这种藕断丝连的UMAP图，我一般会继续进行聚类分析，选择合适的分辨率后，先检查细胞质量（低质量细胞/双细胞），例如这个数据集中，我发现C2是一群低质量细胞的集合体，因此无法注释C2，且C2的存在导致了“藕断丝连”的情况。在删除这群细胞后再次降维聚类，这个问题就解决了。

image-20230903170701625

image-20230903171026771

第二，排除不同变异源。一种可能的原因是去批次时指定的batch标签未正确设置。此外，检查异常细胞是否是增殖相关的细胞（高表达MKI67，TOP2A），有可能是因为增殖的特性导致这种现象，因此可以考虑校正细胞周期，可参考单细胞归一化注意事项：校正变异源

第三，整合函数或者UMAP调参，例如整合函数中，是以sample为batch，还是不同的data.set为batch？RunUMAP函数调参可以考虑调整PCA的个数，min.dist等等。

第四，使用不同的整合方案。关于单细胞整合算法，我前期已介绍了很多种算法了，例如在R语言中运行CCA、RPCA、Harmony和BBKNN等算法：

我也有用python做过BBKNN、Harmony和scVI：

巧用Python加速单细胞分析单细胞多样本整合之scVI和scANVICCA单细胞多样本整合和插槽选择（一）单细胞多样本整合之RPCA单细胞多样本整合之Harmony，LIGER和LISIR版BBKNN整合去批次单细胞多样本整合之R语言版scVI

思考一下，这些大牛为何要前赴后继的开发出如此之多的整合算法？我想原因应该在于每一种算法都有其局限与优势。可能这种算法适合这种类型的数据，可能那种算法适合另外一种类型的数据。总而言之，如何判断到底哪款整合算法适合我当下分析的这个数据集？我觉得除了都跑一遍以外，没有别的好办法。例如我跑的另一个数据集：

image-20230903172018866

除了CCA以外，其他算法的结果都还可以。总之，我相信整合算法那么多，总有一款算法适合自己的数据。

以上是我分析过程中的一些思考和总结，希望能给小伙伴们一些启发。当然，有不对的地方还请各位批评指正。

- END -

【本文地址】

单细胞拾遗：UMAP图中不同谱系细胞“分不开”怎么办？ · Issue #3803 · ixxmu/mp

单细胞拾遗：UMAP图中不同谱系细胞“分不开”怎么办？ · Issue #3803 · ixxmu/mp

今日新闻

推荐新闻