limma包差异分析

您所在的位置:网站首页 差异表达分析原理有哪些方法 limma包差异分析

limma包差异分析

2024-07-12 15:42| 来源: 网络整理| 查看: 265

差异分析的原理就是判断组间(处理)差异是否显著大于组内(误差)差异。比如两组样本,高浓度镉离子处理的拟南芥,和正常对照(没有处理)的拟南芥,每组三个植株。由于不同个体间会有个体差异,那么如何判断基因表达差异是由个体间差异导致的还是处理导致的?这就涉及到组间差异和组内差异的比较了。一般差异分析软件如edgeR、DESeq的原理就是比较组间差异和组内差异。所以说通常情况下,如果没有重复,则组内差异无法计算,这就是为什么我们一直强调要有生物学重复样本的原因。但是软件在没有重复样本的时候也可以计算组内差异,是通过公式预估或者人为预设误差差异的。所以说现在不管有没有重复样本,都是可以进行差异分析的,只是有重复样本的话,才能准确估算个体差异带来的误差,差异分析结果才会更准确。 在这里插入图片描述基于R语言进行差异分析的包有很多个,本次详细介绍使用limma(Linear Models for Microarray Data)进行差异分析。

什么是limma?

原理: limma 最初是针对基因芯片数据开发的,但后来也被应用于 RNA 测序数据。limma 基于线性模型,使用加权最小二乘法来估计基因表达的差异,并通过贝叶斯方法来校正多重检验问题。limma 通常假设基因表达数据服从正态分布,在处理大规模数据时表现出色,适用于高通量数据分析,如芯片和大规模RNA测序数据,能够很好地控制假阳性率。

limma也是广义线性模型的一种,其对每个gene的表达量拟合一个线性方程。limma的分析过程包括ANOVA分析、线性回归等。 0limma对每个gene拟合出这样一个方程,其中: X可以是:

一个连续变量:如pH,RIN值,年龄,体重,身高…一个分类变量:如性别、种族、与中位数比较的gene高低表达…

β \beta β 是limma将要求出的值 ϵ \epsilon ϵ 是假定在整个数据集中正态分布的残差(residual)

1.数据准备

差异分析是两两数据集间的比较,一个是对照组样本(CK),一个是处理组样本(Treat)。

2.数据分析 2.1 导入所需的包 ## 导入R包 library(limma) library(dplyr) 2.2 加载数据 df head(list) CK Treat 1 0 1 2 0 1 3 0 1 4 0 1 5 0 1 6 0 1 ............. list


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3