单细胞转录组tSNE和UMAP可视化有什么区别？别再问啦，这就告诉你！

您所在的位置：网站首页 › tsne图横纵坐标 › 单细胞转录组tSNE和UMAP可视化有什么区别？别再问啦，这就告诉你！

单细胞转录组tSNE和UMAP可视化有什么区别？别再问啦，这就告诉你！

2023-12-13 15:39| 来源: 网络整理| 查看: 265

图2 相同数据通过 tSNE（左）和UMAP（右）的可视化降维图

高维度距离的计算

首先，在高维空间内，描述两个点的距离算法不一样——tSNE通过正态分布将高维距离数据转换成概率，若两个点距离比较近的话，它所对应的概率较大；而UMAP使用的计算方法有很多，除了传统的欧式距离（即该n维空间中两个点间的真实距离）外，邻近KNN算法、皮尔森相似性、cosin相似性（R包seurat默认方法）都可以。总之来说，只要能代表两个点之间的相似性的计算方式，UMAP都可以使用。

由于每个亚群间/内点的疏散程度不一样，不利于将高维空间的距离映射到低维空间，因此tSNE会额外对距离进行标准化处理。

其次，tSNE会通过Perplexity（困惑度）参数对全局结构（即亚群间）与局部结构（即亚群内）间的软边界进行调整。Perplexity越大，细胞分布越紧密，局部结构信息越弱化。

对于较低的Perplexity，tSNE更倾向于将投影数据“区分”开，几乎不保留全局结构。相比之下，UMAP通过直接用邻近个数代替Perplexity，限定了各点受影响的邻近点数量，倾向于在低纬中将高维结构的相邻点分组在一起，体现了其对全局结构保留的重视性。

图3 UMAP与tSNE相比之下，会更加保留原高纬度的全局结构信息，缺失局部结构信息[1]

然而UMAP也会存在一定缺陷：无法区分丰度较高、距离较近和丰度较低、距离较远的亚群。

图4 UMAP无法区分丰度较高、距离较近和丰度较低、距离较远的亚群 [1]

计算好高维距离，接下来就是映射到低维空间了——tSNE使用随机分布初始化低维数据，而UMAP则是根据高维数据特征进行低维数据的初始化，故UMAP的结果具有更高的稳定性。

在向低维度进行转换的过程中，数据都会有部分信息缺失，因此，不论是tSNE还是UMAP都会对初始化的低维数据进行优化，尽可能的还原高维空间的数据信息。

优化维度转换计算过程中信息的缺失

tSNE所使用的损失函数为相对熵（KL散度），对低维近、高维远的调整程度较小，致使在低纬空间中，整体差异较小的亚群可能比差异较大的亚群距离更远。UMAP损失函数使用的是二元交叉熵（Cross-Entropy），对低维近、高维远或低维远、高维近的调整程度都较高，所以UMAP比tSNE更能体现真实的全局结构。

图5 相对熵（左）的调整是不对称的，X（高维距离）小、Y（低维距离）大时调整高，X大Y小时调整趋近于0，而二元交叉熵（右）罚分则是对称的，无论X大Y小还是X小Y大，均有较高调整

低维度距离的计算

低维数据tSNE使用t分布转换概率进行矫正，使得高维距离近的点在低维空间中更近，反之更远。而UMAP不直接用t分布拟合低维数据，而是添加最小距离参数min_dist进行动态调整，小于该距离的会被认为是一个点，故而会隐藏一部分局部结构信息。

此外，关于低维的坐标信息——不论是tSNE还是UMAP，坐标轴数值本身是没有意义的（而PCA的横纵坐标是主成分特征值，可被赋予生物学意义）。但由于UMAP是根据高维数据特征进行低维数据的初始化，所以UMAP图中亚群间的远近距离，一定程度上可以反应亚群间的相似性。

图6 二维UMAP下对三维猛犸图的还原，两支三维内相近且高度相似的前足在二维中距离甚远；象牙则是三维、二维中距离都很接近 [1]

简而言之，UMAP更容易将相似的亚群聚集在一块，而tSNE则是注重将不同亚群区分开。两种方法在选择上没有绝对的好坏，只要能体现目标亚群间的差异性即可。

最后，附上一个总结性的差异图

图7 tSNE与UMAP的差异

关于PCA、tSNE、UMAP可视化降维的区别就介绍到这里啦。关于单细胞转录组分析，你还有什么想了解的，不妨在后台进行留言~

参考资料

[1] https://pair-code.github.io/understanding-umap/

基迪奥生物|专业定制测序服务

联系方式：020-39341079；[email protected]返回搜狐，查看更多

【本文地址】

单细胞转录组tSNE和UMAP可视化有什么区别？别再问啦，这就告诉你！

单细胞转录组tSNE和UMAP可视化有什么区别？别再问啦，这就告诉你！

今日新闻

推荐新闻