单细胞拾遗:UMAP图中不同谱系细胞“分不开”怎么办? · Issue #3803 · ixxmu/mp

您所在的位置:网站首页 致美化打不开怎么办 单细胞拾遗:UMAP图中不同谱系细胞“分不开”怎么办? · Issue #3803 · ixxmu/mp

单细胞拾遗:UMAP图中不同谱系细胞“分不开”怎么办? · Issue #3803 · ixxmu/mp

2024-07-11 17:07| 来源: 网络整理| 查看: 265

在阅读单细胞文献或者我自己在分析实战过程中,特别针对是首次分群,偶尔会遇到不同细胞谱系有交叉的情况。最简单的一个例子就是UMAP图上T细胞与上皮细胞存在部分交叉(藕断丝连),无法做到泾渭分明的情况。例如我在实战过程遇到的:

image-20230903162907233另外,我在分析一个脑相关数据集中也遇到这种情况:image-20230903163032806

其实即便是高分文章,也会有这种情况,例如:

2022年发表在Cancer Discovery的胃癌文章(PMID: 34642171):image-202309031555028072022年发表在NC上的泛癌文章(PMID: 36333338),这个谱系交叉就更加严重了:image-20230903155114550

比较漂亮的UMAP图应该是泾渭分明的,例如:

2022年发表在NC上的胃癌文章(PMID: 35999201):image-20230903161604495

2022年发表在GB上的胃癌文章(PMID: 36550535):

2022年发表在NC上的CRC文章(PMID: 35365629)

image-20230903162328395

如果说NC那篇泛癌文章(PMID: 36333338)是因为挖掘的公共数据集,批次效应太大了而造成的严重谱系交叉,那么这篇肺癌文章(PMID: 36368318)做出了一个很好的示例。同样是公共数据集挖掘,同样是超大细胞量,这篇文章的UMAP图显示不同谱系间仍然是泾渭分明的:

image-20230903163547682

那么,如果在初次分群时这种不同细胞谱系的交叉/藕断丝连情况会带来哪些问题呢?又有哪些解决方案呢?

很久以来,我一直在思考这个问题。

首先,不同细胞谱系“分不开”带来的最显著问题是UMAP图不美观。当然,也有朋友指出来,UMAP图是二维的,也许在空间上不同细胞谱系可能是泾渭分明的,只是视觉上的问题。

第二,是否有悖生物学常识(审稿人也许会对此进行质疑)?在考虑生物学背景的前提下,上皮/免疫/基质细胞这些细胞具有相当不同的谱系特征,因此理论上应该是泾渭分明的。

第三,我的经验上来说(针对这点,我认为我还需要更多经验),如果首次分群是藕断丝连的,再聚类时,容易造成细胞类型的误判(也许数量不会特别多),从而影响到二次分群。

第四,事出反常必有原因?从我的经验上来说,出现这种情况也有可能是数据存在双细胞/低质量细胞,从而造成了这种情况。所以说,出现了不同细胞谱系“分不开”的情况,也许可以提示分析者,反过去检查细胞的质量问题。这个问题的详细示例可见下文。

...(也许还会有一些别的问题,之后想到了再更新)

那么,解决方案有哪些?

按照我的经验思路来说,初次分群遇到这种藕断丝连的UMAP图,我一般会继续进行聚类分析,选择合适的分辨率后,先检查细胞质量(低质量细胞/双细胞),例如这个数据集中,我发现C2是一群低质量细胞的集合体,因此无法注释C2,且C2的存在导致了“藕断丝连”的情况。在删除这群细胞后再次降维聚类,这个问题就解决了。image-20230903170701625image-20230903171026771

第二,排除不同变异源。一种可能的原因是去批次时指定的batch标签未正确设置。此外,检查异常细胞是否是增殖相关的细胞(高表达MKI67,TOP2A),有可能是因为增殖的特性导致这种现象,因此可以考虑校正细胞周期,可参考 单细胞归一化注意事项:校正变异源

第三,整合函数或者UMAP调参,例如整合函数中,是以sample为batch,还是不同的data.set为batch?RunUMAP函数调参可以考虑调整PCA的个数,min.dist等等。

第四,使用不同的整合方案。关于单细胞整合算法,我前期已介绍了很多种算法了,例如在R语言中运行CCA、RPCA、Harmony和BBKNN等算法:

我也有用python做过BBKNN、Harmony和scVI:

巧用Python加速单细胞分析单细胞多样本整合之scVI和scANVICCA单细胞多样本整合和插槽选择(一)单细胞多样本整合之RPCA单细胞多样本整合之Harmony,LIGER和LISIR版BBKNN整合去批次单细胞多样本整合之R语言版scVI

思考一下,这些大牛为何要前赴后继的开发出如此之多的整合算法?我想原因应该在于每一种算法都有其局限与优势。可能这种算法适合这种类型的数据,可能那种算法适合另外一种类型的数据。总而言之,如何判断到底哪款整合算法适合我当下分析的这个数据集?我觉得除了都跑一遍以外,没有别的好办法。例如我跑的另一个数据集:

image-20230903172018866

除了CCA以外,其他算法的结果都还可以。总之,我相信整合算法那么多,总有一款算法适合自己的数据。

以上是我分析过程中的一些思考和总结,希望能给小伙伴们一些启发。当然,有不对的地方还请各位批评指正。

- END -


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3