第八章基因表达数据分析

2023-05-24 21:50| 来源: 网络整理| 查看: 265

第八章基因表达数据分析

8.2 基因表达数据预处理

一次微阵列实验能获得细胞在某一条件下的全基因组表达数据，包含成千上万个基因在细胞中的相对或绝对丰度，不同条件（细胞周期的不同阶段、药物作用时间、肿瘤类型、不同病人等）下的全基因组表达数据就构成了一个G×N的数据矩阵M，通常情况下G>>N，其中每一个元素表示第 i 个基因在第 j 个条件下的表达水平值（在多数应用情况下，是 Ratio 值或 log(Ratio) ），行向量代表基因 i 在 N 个条件下的表达水平，称为基因 i 的表达谱，列向量代表某一条件下的各基因的表达水平。

（8-1）

对基因表达数据进行聚类、分类等数据分析之前，往往需要进行预处理，包括对丢失数据进行填补、清除不完整的数据或合并重复数据等数据清洗，根据分析的目的进行数据过滤，以及针对分析方法选择合适的数据转换方法等。

数据清洗是数据分析前必须进行的一项工作，对于基因表达数据，目的是去除表达水平是负值或很小的数据、或者明显的噪声数据 ( 单个异常大或小的峰谷信号 ) ，同时处理缺失数据。 DNA 微阵列实验得到的数据一般是经过归一化处理的，每个点的信号强度是前景信号减去背景信号，因此有时会出现负值或很小的值，显然负值是没有生物学意义的。对于这些数据点，通过数据清洗过程可以置为缺失或赋予统一的数值，例如，对于寡核苷酸芯片数据，可以将低于 100 的数据全部设置为 100 。 DNA 微阵列表达数据由于实验条件和芯片的因素，检测得到的信号强度往往与细胞中实际的 mRNA 丰度之间没有对应关系，因此，通常是采用两个条件下的信号强度的比值，例如，在 cDNA 微阵列双色实验中，最后得到的往往是 Ratio 值。而寡核苷酸单色实验的结果是信号强度，然而在处理一组数据时，也往往选择一个样本作为对照样本，将实验数据转换成 Ratio 值。在计算 Ratio 值时，如果参考样本的信号强度很小，就可能得到很大的 Ratio 。如果一个基因谱中仅仅存在单个特别大的 Ratio 值，称之为异常数据点，这往往是由于噪声造成的。对于这个异常数据点，必须去除。数据的缺失对于某些后续数据分析方法（例如层次式聚类和 PCA ）来说有着非常大的影响，甚至是致命性的，这时必须采取相应的方法。一个简单方法是直接过滤掉这些存在缺失数据项的行向量或列向量。另一个方法是设定阈值，计算行向量或列向量中的缺失项数目，如果达到该阈值，则将该数据项所在行或列从数据矩阵 M 中删除；如果没有达到阈值但存在缺失项，对这些缺失项可以进行插值。以 0 代替缺失项，或用基因表达谱中的平均值或中值进行替代，这些方法都比较简单，但是否与真实值接近，很难进行评估。较为复杂和可靠的方法是，分析基因表达谱的模式，从中得到相邻数据点之间的关系，根据这种关系，利用相邻数据点估算得到缺失值。这种方法类似于 k 近邻方法，需要有足够的完整的模式来发现有缺失值的相邻模式，需要有足够的值来确定它们的邻居。

在细胞中，基因表达有时空特异性，在某一条件下，能够表达的基因占基因总数的少部分，而大多数基因仅维持基础转录或不转录，转录本丰度很小，因此， DNA 微阵列实验得到的数据矩阵中存在大量的基因表达谱曲线是平坦的，即基因表达水平变化很小。对于这些基因，往往不是生物学家所关心的，而它们的存在，却会大大增加数据分析的复杂性，而且会对一些分析方法的结果有干扰。对这些数据进行过滤是非常有必要的。要保留的基因表达谱究竟占总体数据的多少比例？这个问题是与分析目的密切相关的，例如对于分析细胞周期相关的基因表达，保留的基因可能较多；而对于肿瘤特异基因表达谱分析，保留的基因往往较少。过滤基因所采用的标准有：①基因表达谱中最大值与最小值的差；②标准差；③均方根；④绝对值大于阈值的数据个数等。根据分析的对象和目的，可以选择以上一个或多个标准，确定阈值，从而选择基因表达谱。

基因表达谱数据经过过滤，在进行聚类分析等操作前，往往还需要进行数据转换。数据转换是将数据变换为适合数据挖掘的形式，可以根据需要构造出新的数据属性以帮助理解分析数据的特点，或者将数据规范化，使之落在一个特定的数据区间中。因此，数据转换包括对数转换和标准化两个过程。

许多 DNA 微阵列实验的结果是测量样本与对照样本间信号强度的 Ratio 值，对于 Ratio 值，在大多数情况下是转换到对数 (log) 空间中进行处理，常用的对数底为 2, e, 10 。考虑时间序列上的基因表达数据，实验结果是相对于 0 时刻的表达水平。如图 8.1 所示，假设在时间点 1 ，基因的表达水平没有改变，在时间点 2 ，上调 2 倍，而时间点 3 ，下调 2 倍，原始的比率值分别为 1.0 、 2.0 、 0.5 。在大多数应用中，需要把上调 2 倍和下调 2 倍看作是变化的相同幅度，只是方向不同。在 Ratio 空间中，时间点 1 和 2 之间的差异是 +1.0 ，而时间点 1 和 3 之间是 -0.5 ，从数学角度看，上调 2 倍的数值是下调 2 倍的 2 倍。而在 log 空间中，（为了简化，用 2 为底），这三个数据点分别为 0 、 1.0 、 -1.0 ，上调 2 倍与下调 2 倍是关于 0 对称的。因此，对数转换可以使小于 1 的值变大，大于 1 的值变小，从而使它们关于 0 对称化，这种变换是否反映了一定的生物学意义，能更直观的了解基因的上调或下调的幅度？尚没有定论，但是对于大多数基因表达数据分析过程，都是在 log 空间中进行的。

图 8.1 表达数据的 Ratio 和 log2(Ratio) 表示

数据的标准化是将所有的数据转换到同一个范围内，这样做的好处是方便比较和计算相关系数，缺点是在标准差接近 0 的时候，会产生大的噪声，这也是首先要进行数据过滤的一个重要理由。数据标准化按如下公式进行:

（8-2）

（8-3）

通过标准化，使得每个基因表达谱的平均值为 0 ，标准差为 1 。如果要求所有的数据 x 分布在 [0 ， 1] 之间，还需要进行如下转换 :

(8-4)

其中， ,, 而要求数据满足分布在 [a,b] 区间，则变换如下：

(8-5)

还有一种数据标准化方法是数据的中心化。对于来自细胞系的大量肿瘤样本与一个共同的对照样本比较，每一个基因，相对于对照样本中那个基因的表达水平，都有一系列的 Ratio 值。因为对照样本通常对实验没有什么帮助，对照样本中的基因表达量是独立于分析的。这样，可以通过调整每一个基因的数值来反映系列观察值的变化，例如平均值或者中值。这就是平均值 / 中值中心化，中心化可以减少对照样本的影响。中心化数据同样可以用于去除某些类型的偏差。例如，许多双色荧光杂交实验的结果没有校正 Ratio 值的系统偏差，它们是由于 RNA 数量差异、标记效率和图像获取参数偏差所造成的。这样的偏差对于所有的基因与一个固定数值的 Ratio 有放大的效应。在 log 空间的平均值和中值中心化有校正这种偏差的效果。数据中心化是基于这样的一种假设，在特定的实验中，基因的平均值期望比率是 1.0( 在 log 空间中为 0) 。通常，更多的是使用中值中心化。

目前对数据预处理这种策略的作用还不是很清楚，还没有人进行系统的研究，提供有说服力的证据来帮助研究人员针对特定的任务选择特定的数据预处理的策略和方法。在具体应用时，往往是根据分析目的和个人经验选择不同的方法。

返回总目录

返回页首

【本文地址】

第八章基因表达数据分析

第八章基因表达数据分析

今日新闻

推荐新闻

第八章 基因表达数据分析

第八章 基因表达数据分析

今日新闻

推荐新闻

第八章基因表达数据分析

第八章基因表达数据分析