蛋白质组学数据的归一化/标准化处理

您所在的位置:网站首页 2k数据标准化什么意思啊 蛋白质组学数据的归一化/标准化处理

蛋白质组学数据的归一化/标准化处理

2024-04-20 18:21| 来源: 网络整理| 查看: 265

1.前言

目的: 调整由于技术,如处理、上样、预分、仪器等造成的样本间误差。这实际上是一种数据缩放的方法。一般在一个表达矩阵中,会涉及到多个样本,其表达量差异比较大,不能直接进行比较。比如某个样本表达量很大,在总体中就会占据绝对领导地位,这样就会掩盖掉表达量小的样本的作用,但并不代表它不重要,也有可能是这个样本含有较多的低表达基因,所以需要指定一个统一的标准,提前对样本原始表达量进行一定的处理。

起源: 处理方法借鉴基因表达数据,如RNAseq和芯片数据。在RNAseq数据中,通常需要消除基因长度、测序量等因素产生的误差。转录组和芯片数据处理相对比较成熟,有现成的方法和工具可用,如RPM/CPM、TPM、RPKM等等。当然蛋白质组数据的标准化也有其独特的地方,如它主要通过是峰面积来定量的,需要对不同run之间的峰面积进行标准化,这在大部分搜库软件中都有处理。

归一化与标准化的区别: 归一化是特殊的标准化,在生信领域不严格区分。归一化Normalization一般是把数据缩放到一定范围,如[0,1], 受离群点影响大;标准化Standardization一般把数据缩放成均值为0,方差为1的状态,即重新创建一个新的数据分布,受离群点影响小,但变换后的数据边界不确定。

特点: 消除了量纲(单位)的影响,真正突出数据的差别,有点绝对值变为相对值的感觉。 对指标进行了统一,解决数据性质不同的问题。 标准化后的数据收敛速度更快,计算时间会短很多。

数据缩放scaling(标准化、归一化)的那些事 表达矩阵的归一化和标准化,去除极端值,异常值 基因芯片数据分析(一)--芯片数据预处理

2.主要方法及代码实现

蛋白质组中标准化的工具较少,一般是自己编写代码。一般用apply结合sweep函数来实现。

一个表达矩阵,通常行为蛋白,列为不同样本,我们可以标准化行,也可标准化列,具体问题具体分析,关键在于要解释什么问题。比如我们要尽可能减弱系统偏差对样本蛋白定量值的影响,使各个样本和平行实验的数据处于相同的水平,让下游分析更为准确可靠,我们需要对列进行归一化。类似于我们做WB或QPCR实验时,会选择内参校正多个样本的定量值。添加内参或QC的方法在代谢组学的标准化中常用。

image.png

前四种方法通过将每个蛋白原始定量值除以对应样本的某指定值(如平均值、中位数、最大值和总和等)实现校正,每个样本的指定值在校正后变为1;后三种方法通过一定标准对原始数据进行缩放实现校正。

中位数/均值/总和标准化 sweep(data,2,apply(data,2,median,na.rm=T),FUN="/") #中位数不受数列的极大值或极小值影响。 sweep(data,2,apply(data,2,mean,na.rm=T),FUN=“/”) sweep(data,2,apply(data,2,sum,na.rm=T),FUN="/") 中心化变换 将每一个数据减去对应列的均值,数据变换后,均值为0,方差不变。中心化以后,由于数据的均值变成0,可以消除量纲、数据自身差异所带来的影响(此处是做减法而不是除法,所以变量的单位还是保留的),而且对线性回归以及模型预测方面也有好处。 sweep(data,2,apply(data,2,mean,na,rm=T),FUN="-")

或者直接用scale函数:

scale(data,center=T,scale=F) #center中心化,scale标准化 极差标准化 将每一个数据减去对应列的均值,然后除以对应列最大值与最小值之间的差值。 datacenter


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3