单细胞数据分析之蛋白活性推断篇

您所在的位置：网站首页 › 辐照食品的标志有哪些种类 › 单细胞数据分析之蛋白活性推断篇

单细胞数据分析之蛋白活性推断篇

#单细胞数据分析之蛋白活性推断篇| 来源: 网络整理| 查看: 265

作者，Evil Genius世事无常315打假日2月26日获知家里电信诈骗，到今日过去了17天，从一开始的震惊，到冷静也仅用了3天，我特别感谢那些帮助了我的人，很多人无偿捐助了我。很多人都还是学生，将来都会走向社会，进入岗位，其中有一些人也会遇到很大的挫折，我希望大家遇到挫折的时候可以想起我，我这么倒霉的情况下，依然要相信，生活还是很美好的，大多数人的挫折比起我来，也就不再是挫折了。

今天我们来分享一个关于蛋白活性推断的内容，最近一段时间因为一篇文章的发表，运用基因表达来推断蛋白活性，文章在Single-cell protein activity analysis identifies recurrence-associated renal tumor macrophages，杂志 Cell，顶刊，其中就用到了单细胞转录组数据来推断蛋白活性，其中用到的软件是viper,2021年5月的一个软件，值得关注。

推断原理

VIPER(Virtual Inference of Protein-activity by Enriched Regulon analysis)算法允许在单个样本的基础上，从基因表达谱数据计算蛋白质活性推断。它利用最直接受特定蛋白质调控的基因表达，如转录因子(TF)的靶标，作为其活性的准确推断手段。

viper实现了一种专门用于估计调控活性的算法，该算法考虑了调节子的作用模式， regulator-target gene相互作用的可信度和每个靶基因调控的多效性。

VIPER在这个包中提供了两种推断方法:多样本版本(msVIPER)设计用于基于多个样本或表达谱的基因表达特征，以及单样本版本(VIPER)，它在逐个样本的基础上估计相对蛋白质活性，从而允许将典型的基因表达矩阵(即多个样本中的多个mRNA)转换为蛋白质活性矩阵，表示每个样本中每个蛋白质的相对活性。

看一下实例代码安装，其中bcellViper提供了示例数据和需要的调控网络作为参考if (!requireNamespace("BiocManager", quietly=TRUE)) + install.packages("BiocManager") BiocManager::install("mixtools") BiocManager::install("bcellViper") BiocManager::install("viper")Getting startedlibrary(viper)Generating the regulon object

需要输入两个文件

gene expression signaturean appropriate cell context-specific regulatory network. This regulatory network is provided in the format of a class regulon object调控文件通常是由 ARACNe的输出文件产生的，我们来看一下分析过程：由于ARACNe的资源消耗问题，所有对于单细胞数据针对每个cluster进行计算为了生成准确的、鲁棒性好的ARACNe network，ARACNe需要输入表达矩阵中细胞的大部分转录结构相同的数据。对于单细胞转录组数据而言，这需要在生成ARACNe network之前将数据中的细胞进行clustering。这个cluster可以通过多种方式获取：任何一种用于单细胞聚类分群的方法都可以，也可以是简单的通过前几个主成分进行的简单聚类分群。PISCES包中的Clustering方法有：Partition Around Medioids (PAM), Multi-Way K-Means, and Louvain with Resolution Optimization。PISCES软件使用的是基于Seurat与PISCES R Package 对数据进行的two step optimize resolution cluster：所有的clustering step均分两步完成。Seurat中FindNeighbors与FindClusters函数使用的是Louvain算法，这种算法的缺陷是会导致过度分群。因此，在0.01 ~ 1.0的分辨率（resolution）范围内进行聚类以0.01为间隔，并在每个分辨率值上评估聚类质量，以在此范围内选择最佳的聚类方式。对于每个分辨率值（resolution），将cluster中的细胞数再次取样至1000，并计算这1000个细胞及其cluster标签的silhouette score。对于基因表达数据，Pearson correlation被用于细胞距离矩阵（就是用CorDist函数算出来的dist.mat）被用于计算silhouette score。对于VIPER推断出来的蛋白活性数据，VIPER包中的ViperSimilarity函数计算出的distance metric被用于计算silhouette score。这个过程会针对这1000个细胞随机进行100次，然后得出一个针对一个resolution的mean and standard deviation of average silhouette score。选择使平均silhouette score最大化的最高resolution值作为对数据进行聚类而不过度聚类的最佳resolution。Clustering完成后就可以产生meta-cells用于输入ARACNe：将cluster中距离最近的10个细胞的reads相加后进一步re-normalizing,生成一个具有250个sample的矩阵用于后续ARACNe（这个地方操作起来有点复杂，资源可以的话将所有细胞输入进行计算）。如果在数据集中的不同细胞类型已经进行了定义和注释，那么cell-type specific networks可以基于细胞注释得出。然而，由于无监督下的（无细胞定义与注释）PISCES 计算可以进一步确认实验的设计是否有问题并可能进一步得出新的生物学发现，因此推荐无监督下的PISCES 计算。这里大家就用定义好的Seurat分群就可以了。# Seurat clustering sce.combined.sct

【本文地址】

单细胞数据分析之蛋白活性推断篇

单细胞数据分析之蛋白活性推断篇

今日新闻

推荐新闻