单细胞转录组tSNE和UMAP可视化有什么区别?别再问啦,这就告诉你!

您所在的位置:网站首页 tsne图横纵坐标 单细胞转录组tSNE和UMAP可视化有什么区别?别再问啦,这就告诉你!

单细胞转录组tSNE和UMAP可视化有什么区别?别再问啦,这就告诉你!

2023-12-13 15:39| 来源: 网络整理| 查看: 265

图2 相同数据通过 tSNE(左)和UMAP(右)的可视化降维图

高维度距离的计算

首先,在高维空间内,描述两个点的距离算法不一样——tSNE通过正态分布将高维距离数据转换成概率,若两个点距离比较近的话,它所对应的概率较大;而UMAP使用的计算方法有很多,除了传统的欧式距离(即该n维空间中两个点间的真实距离)外,邻近KNN算法、皮尔森相似性、cosin相似性(R包seurat默认方法)都可以。总之来说,只要能代表两个点之间的相似性的计算方式,UMAP都可以使用。

由于每个亚群间/内点的疏散程度不一样,不利于将高维空间的距离映射到低维空间,因此tSNE会额外对距离进行标准化处理。

其次,tSNE会通过Perplexity(困惑度)参数对全局结构(即亚群间)与局部结构(即亚群内)间的软边界进行调整。Perplexity越大,细胞分布越紧密,局部结构信息越弱化。

对于较低的Perplexity,tSNE更倾向于将投影数据“区分”开,几乎不保留全局结构。相比之下,UMAP通过直接用邻近个数代替Perplexity,限定了各点受影响的邻近点数量,倾向于在低纬中将高维结构的相邻点分组在一起,体现了其对全局结构保留的重视性。

图3 UMAP与tSNE相比之下,会更加保留原高纬度的全局结构信息,缺失局部结构信息[1]

然而UMAP也会存在一定缺陷:无法区分丰度较高、距离较近和丰度较低、距离较远的亚群。

图4 UMAP无法区分丰度较高、距离较近和丰度较低、距离较远的亚群 [1]

计算好高维距离,接下来就是映射到低维空间了——tSNE使用随机分布初始化低维数据,而UMAP则是根据高维数据特征进行低维数据的初始化,故UMAP的结果具有更高的稳定性。

在向低维度进行转换的过程中,数据都会有部分信息缺失,因此,不论是tSNE还是UMAP都会对初始化的低维数据进行优化,尽可能的还原高维空间的数据信息。

优化维度转换计算过程中信息的缺失

tSNE所使用的损失函数为相对熵(KL散度),对低维近、高维远的调整程度较小,致使在低纬空间中,整体差异较小的亚群可能比差异较大的亚群距离更远。UMAP损失函数使用的是二元交叉熵(Cross-Entropy),对低维近、高维远或低维远、高维近的调整程度都较高,所以UMAP比tSNE更能体现真实的全局结构。

图5 相对熵(左)的调整是不对称的,X(高维距离)小、Y(低维距离)大时调整高,X大Y小时调整趋近于0,而二元交叉熵(右)罚分则是对称的,无论X大Y小还是X小Y大,均有较高调整

低维度距离的计算

低维数据tSNE使用t分布转换概率进行矫正,使得高维距离近的点在低维空间中更近,反之更远。而UMAP不直接用t分布拟合低维数据,而是添加最小距离参数min_dist进行动态调整,小于该距离的会被认为是一个点,故而会隐藏一部分局部结构信息。

此外,关于低维的坐标信息——不论是tSNE还是UMAP,坐标轴数值本身是没有意义的(而PCA的横纵坐标是主成分特征值,可被赋予生物学意义)。但由于UMAP是根据高维数据特征进行低维数据的初始化,所以UMAP图中亚群间的远近距离,一定程度上可以反应亚群间的相似性。

图6 二维UMAP下对三维猛犸图的还原,两支三维内相近且高度相似的前足在二维中距离甚远;象牙则是三维、二维中距离都很接近 [1]

简而言之,UMAP更容易将相似的亚群聚集在一块,而tSNE则是注重将不同亚群区分开。两种方法在选择上没有绝对的好坏,只要能体现目标亚群间的差异性即可。

最后,附上一个总结性的差异图

图7 tSNE与UMAP的差异

关于PCA、tSNE、UMAP可视化降维的区别就介绍到这里啦。关于单细胞转录组分析,你还有什么想了解的,不妨在后台进行留言~

参考资料

[1] https://pair-code.github.io/understanding-umap/

*未经许可,不得以任何方式复制或抄袭本篇文章之部分或全部内容。版权所有,侵权必究。

基迪奥生物|专业定制测序服务

联系方式:020-39341079;[email protected]返回搜狐,查看更多



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3