方差分析

您所在的位置:网站首页 anova函数使用方法 方差分析

方差分析

#方差分析| 来源: 网络整理| 查看: 265

方差分析 梁雪枫 单因素方差分析(one-way ANOVA) 假设检验 oneway.test()和aov()函数进行方差分析 模型比较 效果大小(Effect size) 多重比较 离群点检测 残差的相关检验 单因素协方差分析(Analysis of covariance ,ANCOVA) 调整的组均值 多重比较 检验回归斜率的同质性 结果可视化 I类型的平方和(Type I sum of squares)单因素协方差分析 II/III类型的平方和(Type II/III sum of squares)单因素协方差分析 基于II类型的平方和的模型比较 回归系数(Test individual regression coefficients) 效果大小(Effect size) 调整的组均值 双因素方差分析(Two-way ANOVA) I型双因素方差分析(SS type I) II/III型双因素方差分析(SS type II or III) 绘制边际均数及格均数图 效果大小(Effect size estimate) 简单效应(Simple effects) 多重比较 单元多重比较(Cell comparisons using the associated one-way ANOVA) 非计划Scheffe检验 残差的相关检验 正态性检验 重复测量方差分析 单因素重复测量方差分析(One-way repeated measures ANOVA) 双因素重复测量方差分析(Two-way repeated-measures ANOVA) 宽格式数据 anova.mlm() 和 mauchly.test() 效果大小(Effect size estimates) 简单效应(Simple effects) 多元方法(Multivariate approach) 两级裂区设计(Two-way split-plot ANOVA) 宽数据格式 宽数据格式anova.mlm()和mauchly.test() 效果大小(Effect size estimates) 简单效应 计划的多重比较(Planned comparisons for the between-subjects factor) 再裂区设计(Three-way split-plot ANOVA) SPF-pq⋅r SPF-p⋅qr 混合模型重复测量方差分析(Mixed-effects models for repeated-measures ANOVA) 单因素重复测量方差分析(One-way repeated measures ANOVA, RB-p design) 双因素重复测量方差分析(Two-way repeated measures ANOVA ,RBF-pq design) 两级裂区设计的方差分析(Two-way split-plot-factorial ANOVA ,SPF-p⋅q design) 三级裂区设计的方差分析(Three-way split-plot-factorial ANOVA ,SPF-pq⋅r design) 三级裂区设计的方差分析Three-way split-plot-factorial ANOVA (SPF-p⋅qr design) 四级裂区设计的方差分析(Four-way split-plot-factorial ANOVA ,SPF-pq⋅rs design)

方差分析(analysis of variation,简写为ANOVA)又称变异数分析或F检验,用于两个及两个以上样本均值差别的显著性检验,从函数的形式看,方差分析和回归都是广义线性模型的特例,回归分析lm()也能作方差分析。其目的是推断两组或多组数据的总体均值是否相同,检验两个或多个样本均值的差异是否有统计学意义。方差分析的基本思路为:将试验数据的总变异分解为来源于不同因素的相应变异,并作出数量估计,从而明确各个变异因素在总变异中所占的重要程度;也就是将试验数据的总变异方差分解成各变因方差,并以其中的误差方差作为和其他变因方差比较的标准,以推断其它变因所引起的变异量是否真实的一种统计分析方法。把对试验结果发生影响和起作用的自变量称为因素(factor),即我们所要检验的对象。如果方差分析研究的是一个因素对于试验结果的影响和作用,就称为单因素方差分析。因素的不同选择方案称之为因素的水平(level of factor)或处理(treatment)。因素的水平实际上就是因素的取值或者是因素的分组。样本数据之间差异如果是由于抽样的随机性造成的,称之为随机误差;如果是由于因素水平本身不同引起的差异,称之为系统误差。

方差分析的基本前提各组的观察数据,要能够被看作是从服从正态分布的总体中随机抽得的样本。各组的观察数据,是从具有相同方差的总体中抽取得到的。观察值是相互独立的。 方差分析的原假设:\(H_{0}\ \theta _{1}=\theta _{2}=...=\theta _{k}\) 即因素的不同水平对实验结果没有显著差异或影响。备择假设:不是所有的\(\theta _{i}\)都相等\((i=1,2,...,k)\),即因素的不同水平对实验结果有显著差异或影响。

aov()函数的语法为aov(formula,data=dataframe),formula可使用的特殊符号如下,其中y为因变量,A、B、C为自变量。

符号 用法 ~ 分隔符,左边为因变量,右边为自变量。例y~A+B+C + 分隔自变量 : 表示交互项,如y~A+B+A:B * 表示所有可能的交互项,如y~A * B *C等价于y~A+B+C+A:B+A:C+B:C+A:B:C ^ 表示交互项达到的某个次数,如y~(A+B+C)^2等价于y~A+B+C+A:B+A:C+B:C . 表示包含除因变量以外的所有变量。如y~.

常用的方差设计表达式如下,其中小写字母表示定量变量,大写字母表示组别因子,Subject是被试着的标识变量。

设计 表达式 单因素ANOVA Y~A 含但个协变量的单因素ANCOVA Y~x+A 双因素ANOVA Y~A*B 含两个协变量的双因素ANCOVA Y~x1+x2+A*B 随机化区组 y~B+A(B是区组因子) 单因素组内ANOVA y~A+Error(Subject/A) 含单个组内因子(w)和单个组间因子(b)的重复测量ANOVA Y~B*W+Error(Subject/W)

组别间观测数相等的设计均衡设计(balanced design),观测数不等的设计为非均衡设计(unbalanced design)。如果因子不止一个,且别是非平衡设计,或者存在协变量,表达式中的顺序会对结果造成影响。样本大小越不平衡,效应项的顺序对结果影响越大。通常,越基础的效应需要风在表达式的前面,如,先协变量,然后主效应,接着双因素的交互项,再接着是三因素的交互项。标准的anova()默认类型为序贯型,car包中的Anova()函数提供使用分层型和边界型(SAS和SPSS默认类型)的选项。

单因素方差分析(one-way ANOVA)

单因素方差分析是指对单因素试验结果进行分析,检验因素对试验结果有无显著性影响的方法。单因素方差分析是用来检验多个平均数之间的差异,从而确定因素对试验结果有无显著性影响的一种统计方法。对于完全随机设计试验且处理数大于2时可以用单因素方差分析(等于2 时用t检验)。离差平方和的分解公式为:SST(总和)=SSR(组间)+SSE(组内),F统计量为MSR/MSE,MSR=SSR/k-1,MSE=SSE/n-k。其中SST为总离差、SSR为组间平方和、SSE为组内平方和或残差平方和、MSR为组间均方差、MSE为组内均方差。

例 某医院欲研究A、B、C三种降血脂药物对家兔血清肾素血管紧张素转化酶(ACE)的影响,将家兔随机分为三组,均喂以高脂饮食,分别给予不同的降血脂药物。一定时间后测定家兔血清ACE浓度(u/ml),A组(45 44 43 47 48 44 46 44 40 45 42 40 43 46 47 45 46 45 43 44),B组(45 48 47 43 46 47 48 46 43 49 46 43 47 46 47 46 45 46 44 45 46 44 43 42 45),c组(47 48 45 46 46 44 45 48 49 50 49 48 47 44 45 46 45 43 44 45 46 43 42),问三组家兔血清ACE浓度是否相同?

a F) ## group 2 0.3886 0.6795 ## 65

对模型的残差进行组间方差齐性检验,P值大于0.05满足残差方差齐性的要求。

单因素协方差分析(Analysis of covariance ,ANCOVA)

单因素协方差分析在单因素方差分析的基础上包含一个或多个定量的协变量。

例 multcomp包中litter数据集是怀孕小白鼠被分为四个小组,每个小组接受不同剂量(0、5、50和500)的药物处理dose为自变量,产下幼崽的体重weigth均值为因变量,怀孕时间gesttime为协变量。

data(litter,package = "multcomp") pander(head(litter)) dose weight gesttime number 0 28.05 22.5 15 0 33.33 22.5 14 0 36.37 22 14 0 35.52 22 13 0 36.77 21.5 15 0 29.6 23 5 ddply(.data = litter,.(dose),summarize,mean=mean(weight)) ## dose mean ## 1 0 32.30850 ## 2 5 29.30842 ## 3 50 29.86611 ## 4 500 29.64647

单因素协方差分析

shapiro.test(litter$weight) ## ## Shapiro-Wilk normality test ## ## data: litter$weight ## W = 0.9674, p-value = 0.05282 bartlett.test(weight~dose,data = litter) ## ## Bartlett test of homogeneity of variances ## ## data: weight by dose ## Bartlett's K-squared = 9.6497, df = 3, p-value = 0.02179 ancova F) ## gesttime 1 134.3 134.30 8.049 0.00597 ** ## dose 3 137.1 45.71 2.739 0.04988 * ## Residuals 69 1151.3 16.69 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

数据满足正态性的要求,但不满足方差齐性的要求。ANCOVA检验结果表明怀孕时间gesttime与出生体重weight相关,在控制怀孕时间后,每种药物剂量dose下出生体重weight均值不同。

调整的组均值

去除协变量效用的组均值,可以使用effects包中的effect()函数计算。

effect("dose",ancova) ## ## dose effect ## dose ## 0 5 50 500 ## 32.35367 28.87672 30.56614 29.33460 多重比较 contrast |t|) ## no drug vs drug == 0 8.284 3.209 2.581 0.012 * ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## (Adjusted p values reported -- single-step method)

在未用药和用药条件下,出生体重有显著的不同。

检验回归斜率的同质性

ANCOVA模型假定回归斜率相同,如果ANCOVA模型包含交互项,则需要对回归斜率的同质性进行检验。本例中假定四个处理组通过怀孕时间来预测出生体重的回归斜率都相同。

summary(aov(weight~gesttime*dose,data = litter)) ## Df Sum Sq Mean Sq F value Pr(>F) ## gesttime 1 134.3 134.30 8.289 0.00537 ** ## dose 3 137.1 45.71 2.821 0.04556 * ## gesttime:dose 3 81.9 27.29 1.684 0.17889 ## Residuals 66 1069.4 16.20 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

交互效应不显著,支持斜率相等的假设。如果交互效应显著,则意味怀孕时间和出生体重的关系依赖于药物剂量,需使用不需要假设回归斜率同质性的非参数ANCOVA方法,如sm包中的sm.ancova()函数。

结果可视化 library(HH) ## Loading required package: lattice ## Loading required package: grid ## Loading required package: latticeExtra ## Loading required package: RColorBrewer ## Loading required package: gridExtra ## ## Attaching package: 'HH' ## The following object is masked from 'package:gplots': ## ## residplot ## The following object is masked from 'package:DescTools': ## ## OddsRatio ## The following objects are masked from 'package:car': ## ## logit, vif ancova(weight~gesttime+dose,data = litter) ## Analysis of Variance Table ## ## Response: weight ## Df Sum Sq Mean Sq F value Pr(>F) ## gesttime 1 134.30 134.304 8.0493 0.005971 ** ## dose 3 137.12 45.708 2.7394 0.049883 * ## Residuals 69 1151.27 16.685 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

用怀孕时间预测出生体重的回归线相互平行,只是截距不同。随着怀孕时间的增加,出生体重也会增加。若用ancova(weight~gesttime*dose,data = litter)生成的图形将允许斜率和截距依据组别发生变化,对违背回归斜率同质性的实例比较有用。

I类型的平方和(Type I sum of squares)单因素协方差分析

I类型的平方和效应根据表达式中先出现的效应做调整。A不做调整,B根据A调整,A:B交互项根据A和B调整。

fitFull F) ## 1 70 1312.8 ## 2 69 1151.3 1 161.49 9.6789 0.00271 ** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

RSS值较小的模型较好,以怀孕时间gesttime为协变量的单因素模型比仅含有药物剂量dose和怀孕时间gesttime的模型校好。

回归系数(Test individual regression coefficients) (sumRes |t|) ## (Intercept) -45.366 24.984 -1.816 0.07374 . ## gesttime 3.519 1.131 3.111 0.00271 ** ## dose5 -3.477 1.318 -2.639 0.01027 * ## dose50 -1.788 1.344 -1.330 0.18780 ## dose500 -3.019 1.352 -2.232 0.02883 * ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Residual standard error: 4.085 on 69 degrees of freedom ## Multiple R-squared: 0.1908, Adjusted R-squared: 0.1439 ## F-statistic: 4.067 on 4 and 69 DF, p-value: 0.005105 confint(fitFull) #95%置信区间 ## 2.5 % 97.5 % ## (Intercept) -95.206425 4.4752052 ## gesttime 1.262361 5.7749312 ## dose5 -6.105369 -0.8485267 ## dose50 -4.468125 0.8930650 ## dose500 -5.716971 -0.3211661 效果大小(Effect size)

\(\omega^{2}\)基于II类型的平方和

anRes F) G-G Pr H-F Pr ## (Intercept) 1 17.585 2 40 3.3128e-06 1.1726e-05 5.5951e-06 ## Residuals 20

P大于0.05,符合球形假设。

重复测量的多变量方差分析(Multivariate approach)

\(Hotelling's T^{2}\)检验是单变量检验的推广,常用于两组均向量的比较。

DVwF) ## Pillai 1 0.99197 2471.071 1 20 < 2.22e-16 *** ## Wilks 1 0.00803 2471.071 1 20 < 2.22e-16 *** ## Hotelling-Lawley 1 123.55357 2471.071 1 20 < 2.22e-16 *** ## Roy 1 123.55357 2471.071 1 20 < 2.22e-16 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## ------------------------------------------ ## ## Term: time ## ## Response transformation matrix: ## time1 time2 ## value.time0 1 0 ## value.time24 0 1 ## value.time72 -1 -1 ## ## Sum of squares and products for the hypothesis: ## time1 time2 ## time1 1.6046679 0.5625321 ## time2 0.5625321 0.1972012 ## ## Sum of squares and products for error: ## time1 time2 ## time1 1.0566451 0.2309589 ## time2 0.2309589 0.5838118 ## ## Multivariate Tests: time ## Df test stat approx F num Df den Df Pr(>F) ## Pillai 1 0.6110546 14.92502 2 19 0.00012704 *** ## Wilks 1 0.3889454 14.92502 2 19 0.00012704 *** ## Hotelling-Lawley 1 1.5710549 14.92502 2 19 0.00012704 *** ## Roy 1 1.5710549 14.92502 2 19 0.00012704 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

P值小于0.05,可以认为不同时间记录(time)的VEGF差异显著,截距(Intercept)差异显著,但无实际意义。

双因素重复测量方差分析(Two-way repeated-measures ANOVA)

双因素重复测定资料中的因素是指一个组间因素(处理因素)和一个组内因素(时间因素)。组间因素是指分组或分类变量,它把所有受试对象按分类变量的水平分为几个组。组内因素是指重复测定的时间变量。

例 将42名诊断为胎粪吸入综合症的新生儿患儿随机分为肺表面活性物质治疗组(PS组)和常规治疗组(对照组),每组各21例。PS组和对照组两组所有患儿均给予除用药外的其他相应的对症治疗。PS组患儿给予牛肺表面活性剂70mg/kg治疗。采集PS组及对照组患儿0小时,治疗后24小时和72小时静脉血2ml,离心并提取上清液后保存备用并记录血清中VEGF的含量变化情况。不同组间不同时间的记录的VEGF是否有差异?

传统的重复测量方差分析(Traditional univariate approach)

aov()同样需要长格式数据。

dfRBFpqL F) G-G Pr H-F Pr ## (Intercept) 1 3.2704 2 40 0.048365 0.062985 0.059304 ## Residuals 20 mauchly.test(fitRBFpq, M=~treatment, X=~1, idata=inRBFpq) ## ## Mauchly's test of sphericity ## Contrasts orthogonal to ## ~1 ## ## Contrasts spanned by ## ~treatment ## ## ## data: SSD matrix from lm(formula = cbind(value.contrast.time0, value.ps.time0, value.contrast.time24, SSD matrix from value.ps.time24, value.contrast.time72, value.ps.time72) ~ SSD matrix from 1, data = dfRBFpqW) ## W = 1, p-value = 1 mauchly.test(fitRBFpq, M=~treatment + time, X=~treatment, idata=inRBFpq) ## ## Mauchly's test of sphericity ## Contrasts orthogonal to ## ~treatment ## ## Contrasts spanned by ## ~treatment + time ## ## ## data: SSD matrix from lm(formula = cbind(value.contrast.time0, value.ps.time0, value.contrast.time24, SSD matrix from value.ps.time24, value.contrast.time72, value.ps.time72) ~ SSD matrix from 1, data = dfRBFpqW) ## W = 0.51779, p-value = 0.001925 mauchly.test(fitRBFpq, M=~treatment + time + treatment:time, X=~treatment + time, idata=inRBFpq) ## ## Mauchly's test of sphericity ## Contrasts orthogonal to ## ~treatment + time ## ## Contrasts spanned by ## ~treatment + time + treatment:time ## ## ## data: SSD matrix from lm(formula = cbind(value.contrast.time0, value.ps.time0, value.contrast.time24, SSD matrix from value.ps.time24, value.contrast.time72, value.ps.time72) ~ SSD matrix from 1, data = dfRBFpqW) ## W = 0.70417, p-value = 0.03572 效果大小(Effect size estimates) EtaSq(aovRBFpq, type=1) ## eta.sq eta.sq.part eta.sq.gen ## treatment 0.02082200 0.1105771 0.03263793 ## time 0.33556123 0.6833031 0.35221811 ## treatment:time 0.02646937 0.1405380 0.04112598 简单效应(Simple effects) summary(aov(value ~ treatment + Error(id/treatment), data=dfRBFpqL, subset=(time=="time0"))) ## ## Error: id ## Df Sum Sq Mean Sq F value Pr(>F) ## Residuals 20 1.837 0.09185 ## ## Error: id:treatment ## Df Sum Sq Mean Sq F value Pr(>F) ## treatment 1 0.0219 0.0219 0.193 0.665 ## Residuals 20 2.2646 0.1132 summary(aov(value ~ treatment + Error(id/treatment), data=dfRBFpqL, subset=(time=="time24"))) ## ## Error: id ## Df Sum Sq Mean Sq F value Pr(>F) ## Residuals 20 0.5558 0.02779 ## ## Error: id:treatment ## Df Sum Sq Mean Sq F value Pr(>F) ## treatment 1 0.1670 0.16695 8.759 0.00775 ** ## Residuals 20 0.3812 0.01906 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 summary(aov(value ~ treatment + Error(id/treatment), data=dfRBFpqL, subset=(time=="time72"))) ## ## Error: id ## Df Sum Sq Mean Sq F value Pr(>F) ## Residuals 20 0.3124 0.01562 ## ## Error: id:treatment ## Df Sum Sq Mean Sq F value Pr(>F) ## treatment 1 0.2557 0.2557 11.36 0.00304 ** ## Residuals 20 0.4501 0.0225 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 多元方法(Multivariate approach) summary(AnovaRBFpq, multivariate=TRUE, univariate=FALSE) ## ## Type III Repeated Measures MANOVA Tests: ## ## ------------------------------------------ ## ## Term: (Intercept) ## ## Response transformation matrix: ## (Intercept) ## value.contrast.time0 1 ## value.ps.time0 1 ## value.contrast.time24 1 ## value.ps.time24 1 ## value.contrast.time72 1 ## value.ps.time72 1 ## ## Sum of squares and products for the hypothesis: ## (Intercept) ## (Intercept) 1036.012 ## ## Sum of squares and products for error: ## (Intercept) ## (Intercept) 7.459729 ## ## Multivariate Tests: (Intercept) ## Df test stat approx F num Df den Df Pr(>F) ## Pillai 1 0.99285 2777.613 1 20 < 2.22e-16 *** ## Wilks 1 0.00715 2777.613 1 20 < 2.22e-16 *** ## Hotelling-Lawley 1 138.88063 2777.613 1 20 < 2.22e-16 *** ## Roy 1 138.88063 2777.613 1 20 < 2.22e-16 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## ------------------------------------------ ## ## Term: treatment ## ## Response transformation matrix: ## treatment1 ## value.contrast.time0 1 ## value.ps.time0 -1 ## value.contrast.time24 1 ## value.ps.time24 -1 ## value.contrast.time72 1 ## value.ps.time72 -1 ## ## Sum of squares and products for the hypothesis: ## treatment1 ## treatment1 1.174341 ## ## Sum of squares and products for error: ## treatment1 ## treatment1 9.445765 ## ## Multivariate Tests: treatment ## Df test stat approx F num Df den Df Pr(>F) ## Pillai 1 0.1105771 2.486492 1 20 0.13051 ## Wilks 1 0.8894229 2.486492 1 20 0.13051 ## Hotelling-Lawley 1 0.1243246 2.486492 1 20 0.13051 ## Roy 1 0.1243246 2.486492 1 20 0.13051 ## ## ------------------------------------------ ## ## Term: time ## ## Response transformation matrix: ## time1 time2 ## value.contrast.time0 1 0 ## value.ps.time0 1 0 ## value.contrast.time24 0 1 ## value.ps.time24 0 1 ## value.contrast.time72 -1 -1 ## value.ps.time72 -1 -1 ## ## Sum of squares and products for the hypothesis: ## time1 time2 ## time1 11.956939 3.545731 ## time2 3.545731 1.051457 ## ## Sum of squares and products for error: ## time1 time2 ## time1 3.1266691 -0.1861941 ## time2 -0.1861941 1.0728858 ## ## Multivariate Tests: time ## Df test stat approx F num Df den Df Pr(>F) ## Pillai 1 0.840054 49.89489 2 19 2.74e-08 *** ## Wilks 1 0.159946 49.89489 2 19 2.74e-08 *** ## Hotelling-Lawley 1 5.252094 49.89489 2 19 2.74e-08 *** ## Roy 1 5.252094 49.89489 2 19 2.74e-08 *** ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## ------------------------------------------ ## ## Term: treatment:time ## ## Response transformation matrix: ## treatment1:time1 treatment1:time2 ## value.contrast.time0 1 0 ## value.ps.time0 -1 0 ## value.contrast.time24 0 1 ## value.ps.time24 0 -1 ## value.contrast.time72 -1 -1 ## value.ps.time72 1 1 ## ## Sum of squares and products for the hypothesis: ## treatment1:time1 treatment1:time2 ## treatment1:time1 0.8544617 0.12687829 ## treatment1:time2 0.1268783 0.01884005 ## ## Sum of squares and products for error: ## treatment1:time1 treatment1:time2 ## treatment1:time1 4.210046 1.088387 ## treatment1:time2 1.088387 1.443103 ## ## Multivariate Tests: treatment:time ## Df test stat approx F num Df den Df Pr(>F) ## Pillai 1 0.1748240 2.012695 2 19 0.16114 ## Wilks 1 0.8251760 2.012695 2 19 0.16114 ## Hotelling-Lawley 1 0.2118626 2.012695 2 19 0.16114 ## Roy 1 0.2118626 2.012695 2 19 0.16114

多元方法分析结果类似,主效应time具有显著性,交互效应交互效应treatment:time和treatment主效应无显著性。可以认为不同时间的记录的VEGF有差异,不同组见记录的VEGF无差异。

两级裂区设计(Two-way split-plot ANOVA)

在一个区组上,先按第一个因素(主因素或主处理)的水平数划分主因素的试验小区,主因素的小区称为主区或整区,用于安排主因素;在主区内再按第二个因素(副因素或副处理)的水平数划分小区,安排副因素,主区内的小区称副区或裂区。从整个试验所有处理组合来说,主区仅是一个不完全的区组,对第二个因素来讲,主区就是一个区组,这种设计将主区分裂成副区,称为裂区设计。

例 试验一种全身注射抗毒素对皮肤损伤的保护作用,将10只家兔随机等分两组,一组注射抗毒素,一组注射生理盐水作对照。之后,每只家兔取甲、乙两部位,随机分配分别注射低浓度毒素和高浓度毒素, 观察指标为皮肤受损直径。结果如下:

家兔编号 注射药物(A) 毒素低浓度(B1) 毒素高浓度(B2) 1 抗毒素A1 15.75 19.00 2 15.50 20.75 3 15.50 18.50 4 17.00 20.50 5 16.50 20.00 6 生理盐水A2 18.25 22.25 7 18.50 21.50 8 19.75 23.50 9 21.25 24.75 10 20.75 23.75 diameterF) ## A 1 62.13 62.13 74.881 2.47e-05 *** ## A:B 1 0.08 0.08 0.094 0.767 ## Residuals 8 6.64 0.83 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

主因素和副因素均有统计学意义。

宽数据格式 dfSPFpqW F) ## B 2 79851 39925 1301.08 < 2e-16 *** ## B:A 4 6869 1717 55.96 1.74e-13 *** ## Residuals 30 921 31 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ## ## Error: Within ## Df Sum Sq Mean Sq F value Pr(>F) ## C 1 167.65 167.65 48.440 1.17e-08 *** ## C:B 2 212.61 106.31 30.715 3.88e-09 *** ## C:A 2 15.07 7.54 2.177 0.125 ## C:B:A 4 17.63 4.41 1.274 0.294 ## Residuals 45 155.75 3.46 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

C、C和B交互均有统计学意义。

效果大小(Effect size estimates) EtaSq(aovSPFp.qr, type=1) ## eta.sq eta.sq.part eta.sq.gen ## A 0.0394681461 0.87954182 0.698203907 ## B 0.8646245925 0.98860254 0.980650719 ## B:A 0.0743756486 0.88181536 0.813421028 ## C 0.0018153406 0.51840521 0.096175442 ## C:B 0.0023021900 0.57718835 0.118901553 ## C:A 0.0001631849 0.08822602 0.009474745 ## C:B:A 0.0001909351 0.10170330 0.011068126 宽格式数据 dfW1 F) G-G Pr H-F Pr ## (Intercept) 1 1015.640 2 30 0.0000e+00 0.0000e+00 0.0000e+00 ## A 2 42.633 4 30 5.7885e-12 4.0068e-10 5.4387e-11 ## Residuals 15 anova(fitSPFp.qr, M=~B + C, X=~B,idata=inSPFp.qr, test="Spherical") ## Analysis of Variance Table ## ## ## Contrasts orthogonal to ## ~B ## ## ## Contrasts spanned by ## ~B + C ## ## Greenhouse-Geisser epsilon: 1 ## Huynh-Feldt epsilon: 1 ## ## Df F num Df den Df Pr(>F) G-G Pr H-F Pr ## (Intercept) 1 1261.578 1 15 0.0000e+00 0.0000e+00 0.0000e+00 ## A 2 54.976 2 15 1.2448e-07 1.2448e-07 1.2448e-07 ## Residuals 15 anova(fitSPFp.qr, M=~B + C + B:C, X=~B + C,idata=inSPFp.qr, test="Spherical") ## Analysis of Variance Table ## ## ## Contrasts orthogonal to ## ~B + C ## ## ## Contrasts spanned by ## ~B + C + B:C ## ## Greenhouse-Geisser epsilon: 0.8101 ## Huynh-Feldt epsilon: 0.8940 ## ## Df F num Df den Df Pr(>F) G-G Pr H-F Pr ## (Intercept) 1 988.35 2 30 0.0000e+00 0.0000e+00 0.0000e+00 ## A 2 42.41 4 30 6.1847e-12 4.9597e-10 7.1332e-11 ## Residuals 15 mauchly.test(fitSPFp.qr, M=~B, X=~1,idata=inSPFp.qr) ## ## Mauchly's test of sphericity ## Contrasts orthogonal to ## ~1 ## ## Contrasts spanned by ## ~B ## ## ## data: SSD matrix from lm(formula = cbind(DV.1.1, DV.2.1, DV.1.2, DV.2.2, DV.1.3, DV.2.3) ~ SSD matrix from A, data = dfSPFp.qrW) ## W = 0.77596, p-value = 0.1694 mauchly.test(fitSPFp.qr, M=~B + C, X=~B, idata=inSPFp.qr) ## ## Mauchly's test of sphericity ## Contrasts orthogonal to ## ~B ## ## Contrasts spanned by ## ~B + C ## ## ## data: SSD matrix from lm(formula = cbind(DV.1.1, DV.2.1, DV.1.2, DV.2.2, DV.1.3, DV.2.3) ~ SSD matrix from A, data = dfSPFp.qrW) ## W = 1, p-value = 1 mauchly.test(fitSPFp.qr, M=~B + C + B:C, X=~B + C, idata=inSPFp.qr) ## ## Mauchly's test of sphericity ## Contrasts orthogonal to ## ~B + C ## ## Contrasts spanned by ## ~B + C + B:C ## ## ## data: SSD matrix from lm(formula = cbind(DV.1.1, DV.2.1, DV.1.2, DV.2.2, DV.1.3, DV.2.3) ~ SSD matrix from A, data = dfSPFp.qrW) ## W = 0.76557, p-value = 0.1541 混合模型重复测量方差分析(Mixed-effects models for repeated-measures ANOVA)

在分析数据时,考虑一个因素和它的不同水平对结果变量的影响,称之为这个因素不同水平对因变量的效应。这种效应不是固定效应就是随机效应,当参数能被认为是固定的常数时,这种因素所产生的效应为固定效应,当参数有随机变量的特征时,称之为随机效应。当模型中有多个因素,一部分产生固定效应,一部分产生随机效应,这样的模型就称为混合效应模型。重复测量中的单次测量为低水平,个体为高水平,建立的模型如下:\[Y=X\beta +Z\gamma +\epsilon\],\(X\)为已知设计矩阵,\(\beta\)为固定效应参数构成的未知向量,\(\epsilon\)为未知的随机误差向量,其元素不必为独立同分布。\(Y\)和\(\gamma\)均为正态随机变量。

例 d1为长格式的重复观测数据,因变量为Y,自变量为Xw1、Xb1和Xb2,w表示组内因子,b表示组间因子,id为标示变量。d2为长格式的重复观测数据,因变量为Y,自变量为Xw1、Xw2、Xb1和Xb2,w表示组内因子,b表示组间因子,id为标示变量。

d1 F) ## Xw1 2 5756 2878.2 3.363 0.0371 * ## Residuals 158 135211 855.8 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

结果显示自变量Xw1有统计学意义。

混合效应分析(Mixed-effects analysis)

对重复测量的数据有个假设就是重复测量的数据间的关系是相同的,这就是我们所说的compound symmetry。但在实际中,往往会违背这个假设,特别是当临床试验的时间特别长或各个测量的时间点的间隔不相同时,这是因为间隔时间长的两个点的测量值之间的关系往往不如间隔时间短的两个点的测量值之间的关系紧密。

#没有明确是否符合compound symmetry假设 anova(lme(Y ~ Xw1, random=~1 | id, method="ML", data=d1)) ## numDF denDF F-value p-value ## (Intercept) 1 158 2554.7564 F) ## Xw1:Xw2 4 6118 1529 0.610 0.6558 ## Xb1:Xw1:Xw2 4 7609 1902 0.759 0.5530 ## Xb2:Xw1:Xw2 4 24545 6136 2.447 0.0465 * ## Xb1:Xb2:Xw1:Xw2 4 7595 1899 0.757 0.5539 ## Residuals 304 762320 2508 ## --- ## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Xb1、Xb2、Xb1:Xb2、Xw1、Xb1:Xw1、Xb2:Xw1和Xb1:Xb2:Xw1均有统计学意义。

混合效应模型(Mixed-effects analysis) nlme包lme方法(Using lme() from package nlme) #没有明确是否符合compound symmetry假设 anova(lme(Y ~ Xb1*Xb2*Xw1*Xw2, random=list(id=pdBlocked(list(~1, pdIdent(~Xw1-1), pdIdent(~Xw2-1)))), method="ML", data=d2)) ## numDF denDF F-value p-value ## (Intercept) 1 608 2782.9276


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3