蛋白质组学数据的归一化/标准化处理

您所在的位置：网站首页 › 2k数据标准化什么意思啊 › 蛋白质组学数据的归一化/标准化处理

蛋白质组学数据的归一化/标准化处理

2024-04-20 18:21| 来源: 网络整理| 查看: 265

1.前言

目的：调整由于技术，如处理、上样、预分、仪器等造成的样本间误差。这实际上是一种数据缩放的方法。一般在一个表达矩阵中，会涉及到多个样本，其表达量差异比较大，不能直接进行比较。比如某个样本表达量很大，在总体中就会占据绝对领导地位，这样就会掩盖掉表达量小的样本的作用，但并不代表它不重要，也有可能是这个样本含有较多的低表达基因，所以需要指定一个统一的标准，提前对样本原始表达量进行一定的处理。

起源：处理方法借鉴基因表达数据，如RNAseq和芯片数据。在RNAseq数据中，通常需要消除基因长度、测序量等因素产生的误差。转录组和芯片数据处理相对比较成熟，有现成的方法和工具可用，如RPM/CPM、TPM、RPKM等等。当然蛋白质组数据的标准化也有其独特的地方，如它主要通过是峰面积来定量的，需要对不同run之间的峰面积进行标准化，这在大部分搜库软件中都有处理。

归一化与标准化的区别：归一化是特殊的标准化，在生信领域不严格区分。归一化Normalization一般是把数据缩放到一定范围，如[0,1]，受离群点影响大；标准化Standardization一般把数据缩放成均值为0，方差为1的状态，即重新创建一个新的数据分布，受离群点影响小，但变换后的数据边界不确定。

特点：消除了量纲（单位）的影响，真正突出数据的差别，有点绝对值变为相对值的感觉。对指标进行了统一，解决数据性质不同的问题。标准化后的数据收敛速度更快，计算时间会短很多。

数据缩放scaling（标准化、归一化）的那些事表达矩阵的归一化和标准化，去除极端值，异常值基因芯片数据分析（一）--芯片数据预处理

2.主要方法及代码实现

蛋白质组中标准化的工具较少，一般是自己编写代码。一般用apply结合sweep函数来实现。

一个表达矩阵，通常行为蛋白，列为不同样本，我们可以标准化行，也可标准化列，具体问题具体分析，关键在于要解释什么问题。比如我们要尽可能减弱系统偏差对样本蛋白定量值的影响，使各个样本和平行实验的数据处于相同的水平，让下游分析更为准确可靠，我们需要对列进行归一化。类似于我们做WB或QPCR实验时，会选择内参校正多个样本的定量值。添加内参或QC的方法在代谢组学的标准化中常用。

image.png

前四种方法通过将每个蛋白原始定量值除以对应样本的某指定值（如平均值、中位数、最大值和总和等）实现校正，每个样本的指定值在校正后变为1；后三种方法通过一定标准对原始数据进行缩放实现校正。

中位数/均值/总和标准化 sweep(data,2,apply(data,2,median,na.rm=T),FUN="/") #中位数不受数列的极大值或极小值影响。 sweep(data,2,apply(data,2,mean,na.rm=T）,FUN=“/”) sweep(data,2,apply(data,2,sum,na.rm=T),FUN="/") 中心化变换将每一个数据减去对应列的均值，数据变换后，均值为0，方差不变。中心化以后，由于数据的均值变成0，可以消除量纲、数据自身差异所带来的影响（此处是做减法而不是除法，所以变量的单位还是保留的），而且对线性回归以及模型预测方面也有好处。 sweep(data,2,apply(data,2,mean,na,rm=T),FUN="-")

或者直接用scale函数：

scale(data,center=T,scale=F) #center中心化，scale标准化极差标准化将每一个数据减去对应列的均值，然后除以对应列最大值与最小值之间的差值。 datacenter

【本文地址】

蛋白质组学数据的归一化/标准化处理

蛋白质组学数据的归一化/标准化处理

今日新闻

推荐新闻