功效等值线:心理学研究中样本量和精度的优化 · Issue #591 · OpenSci

您所在的位置:网站首页 研究设计中估计样本量的原因 功效等值线:心理学研究中样本量和精度的优化 · Issue #591 · OpenSci

功效等值线:心理学研究中样本量和精度的优化 · Issue #591 · OpenSci

2024-07-13 17:58| 来源: 网络整理| 查看: 265

(原文地址在最后)

鉴于个人能力有限,翻译中难免有不足之处,强烈建议直接阅读原文:Baker, D. H., Vilidaite, G., Lygo, F. A., Smith, A. K., Flack, T. R., Gouws, A. D., & Andrews, T. J. (2020). Power contours: Optimising sample size and precision in experimental psychology and human neuroscience.?Psychological Methods. ?http://dx.doi.org/10.1037/met0000337。此外,鉴于篇幅原因,译文中我们并未对涉及到的参考文献进行一一标注,因此在时间和精力允许的情况下,我们强烈推荐观看原文。

在进行以人为被试的心理学实验研究设计时,研究者必须确定每个被试需要完成的试次数量,以及研究中需要的被试数量(又称为样本量)。但以往关于统计功效(statistical power,也称统计检验力,是指研究设计中检测效应的能力)的讨论主要集中在样本量上,但前提是被试需要完成足够的试次数量。

统计功效是指一个研究在给定样本量下检测到相应效应量的能力。近年来,低统计功效的问题一直备受关注。与高统计功效的研究相比,低统计功效的研究检测到得到真实效应的能力较低(因此可能产生更多的 II 型错误)。低统计功效的研究容易发现统计上具有显著差异但并不真实的效应,并且由于发表偏向(即显著的结果比不显著的结果更可能发表),发表的低统计功效的研究也导致较高的 I 型错误(假阳性)率。此外,研究中发现的任何实际效应可能具有一定的效应量膨胀空间。以上问题在许多科学学科的研究中非常常见,神经科学研究中对统计功效估计取值的研究范围得出的功效值一般在 8%~30% 之间,远低于≥80% 的预期水平。低统计功效研究成果的大量发表使某些领域充斥着无法重复但很可能虚假的效应。但已有的研究中关于提升统计功效的方法主要是:增加样本量(如图 1d 所示)。

但是,除样本量之外,在实验研究设计阶段,试次数量是研究者的第二个自由度,试次数量是指每个参与者对于给定实验条件的重复(或 试次)数量。

图 1 标准差和统计功效的仿真示意图。(a)是 50 个个体的模拟数据。其中总体平均值 M=0、被试内内标准偏差σw=0、被试间标准偏差σb=2 和样本标准偏差σs=2,个体数据点具有随机的垂直漂移。(b)参与者内的标准差增加到σw=10,每个点是 20 个试次的平均值,水平误差线表示 ±1 SEM。(c)每个参与者将试次增加到 200 个试次的效应。(d)经典的基于效应量(Cohen’s d)和样本量(N)的统计功效曲线图。水平虚线表示 80% 的统计功效,一般认为可以接受。(e)样本标准差(σs)取决于每个被试的试次数量(k)以及被试之间的标准差σb=2。(f)基于样本量 N=200,平均值 M=0.5 计算出的(e)中统计功效。(g)(h) 如文中所述,以及组平均值 M=1 下,σw 和σb 的不同组合的统计功效等值线。模拟使用正态分布的随机数,统计功效计算为双侧 t 检验,与 0 比较的单样本 t 检验。

当感兴趣的因变量可以被高精度估计时,重复测量几乎没有益处,并且方差的主要来源是被试间的差异。图 1a 的分布说明了这一点,每个参与者(点)在正态分布(曲线)上的分布不同,但每个点的方差可以忽略不计。图 1b 呈现了许多实验范例的真实情形。如水平标准误差线所示,每个估计值的方差都很大,同时会产生增加样本总体标准偏差的连锁反应(图 1a 中σs?= 2 个单位以及图 1b 中σs?= 3 个单位)。样本标准偏差增加的改善可以通过增加测量次数来提高每个被试估算均值(estimated mean)的准确性。如图 1c 所示,与图 1b 中试次 k=20 个相比,从 k=200 个试次中估算每个参与者的平均值,样本(曲线)的标准偏差显著降低(到σs=2.1 个单位)。

统计功效一般来源于效应量的计算,如:Cohen’s?d,取决于样本均值(或均值差)和样本标准差(公式:d=M/σs)。如图 1e 所示,在参数化假设下,每个参与者的试次数量(k)会影响样本标准差,公式如下:

公式中σb 和σw 分别表示被试间 - 和(平均)被试内的标准差,k 是每个被试的试次数量。样本标准差(σs)影响效应量,之后影响功效(如 图 1f 所示)。从公式中可以看出,因变量很大程度上取决于被试内的方差变异,因此提高每个被试的估计精度可以有效地提高整体的统计功效,或许可以在一定程度上减少研究中所需的样本量。尽管大多数的研究人员都意识到了这一事实(众所周知,进行大量试次可以提供 “更好” 的数据),而且这个问题已经得到数学上的证实,但还没有较为被研究者广泛接受的程序或方法来确定要进行的研究中适当的试次数量。相反,很多研究者在进行研究设计时通常是使用经验法则、先例和猜测来进行设计的。

在本文中我们以行为学、感觉阈限、fMRI、MEG、EEG 等为方法的 8 个实验范式和数据来集中于探讨样本量和试次数量对统计功效的影响。在未来的研究中可以通过 Power Contours(https://shiny.york.ac.uk/powercontours/)?这个在线计算工具来获得相应的统计功效的等值线图,从而更好的优化实验设计。

1 . 统计功效等值线

首先考虑上述情况,从单个试次中可以准确地对因变量进行估计,但个体都呈现了变量的不同真值(从形式上讲,被试内的方差很低,但被试间的方差很高,σwσb)。样本标准差随着试次数量的增加而减小(图 1e),因为每个参与者的均值估计随着重复测量变得更加准确。实际上,统计功效取决于试次数量和样本量,统计功效等值线的弯曲度就非常明显(图 1h)。

这些统计功效等值线为潜在的实验设计对统计功效的影响提供了有效的总结。既定的统计功效(如:80%,统计功效等值线图中的蓝色粗线)可以从样本量和试次数量之间的不同组合中获得。这是一个有用的观点,因为研究设计可以根据其他约束条件进行优化。如果可供选择的样本量相对较少(可能是因为经济拮据,或者对临床人群进行测试),那么可以增加试次的数量。但是,请注意,在特定数量的试次(图 1h 中的 k=50 左右)外,当统计功效接近极值渐近线时和以及更多的试次是没有好处的。或者,如果每个被试都必须非常迅速地进行测试(例如,针对涉及儿童的研究),但有许多参与者可供选择,则可以将试验数量保持在相对较低的水平(此处约为 k=20),从而对更大的样本量进行测试。这对于大型系列研究具有潜在价值,其中许多参与者各自完成一系列不同的任务。更典型的情况是,研究人员希望最小化样本量和测试时间,而统计功效曲线拐点附近的值允许对样本量和试次数量这两个参数进行联合优化。使用 R 脚本,可以为被试内和被试间的方差和均值差异的任何组合生成功效等值线图,该脚本可以通过 web 界面访问:https://shiny.york.ac.uk/powercontours/。

为了在实验设计中具有实用价值,有必要从经验上确定统计功效是否确实随典型实验范式中的试次数量而变化。为此,我们使用心理学和认知神经科学的一系列经典实验,包括 RTs、比例选择、感觉阈限、EEG、MEG 和 fMRI,重新分析了 8 项研究的数据。我们通过对数据进行重复抽样来估计功效等值线,因此我们的目标是包括具有大样本量的数据集,其中每个参与者都完成了许多试次(尽管并不总是能够同时满足这两个标准)。所有这些分析都基于单样本或配对样本 t 检验,但同样的原理适用于更复杂的统计技术(见讨论部分),并且可以使用下面描述的重复抽样技术来实现。所有示例数据和分析脚本都可以在 osf(https://osf.io/ebhnk/)中获得,也可以在文章中直接引用,以允许其他人复制我们的分析,并将这些方法应用到他们自己的研究中。

2.?行为学实验(行为反应时)

我们首先分析了 Pirrone、Wen、Li、Baker 和 Milne(2018)先前报道的 Posner-style attentional cueing 实验的反应时。被试(N=38)看到一个中央线索刺激,将他们的注意力引导到注视点的左侧或右侧。然后在线索一致的位置(一致条件)或线索不一致的位置(不一致条件)呈现正弦波光栅目标。每个参与者完成 k=600 一致性试次和 k=200 不一致性试次,图 2a 显示了一个参与者的 RT 分布示例。

图 2 行为学数据总结示意。(a)显示了一个示例参与者的 RT 分布,垂直线给出了平均值。(b)显示了 38 名参与者样本的组平均 RTs 数据。(c)显示功效等值线图,其中颜色表示统计功率(见图例)。粗蓝线表示统计功效为 80% 时的样本量和试次数量的组合。y 轴表示不一致条件下的试验次数(一致条件下的试验次数是三倍)。

在组水平上,在不一致条件下,RTs 平均慢 51 ms(见图 2b),差异的标准偏差(σs)为 42 ms。对于总的数据集,产生的效应量为:d=1.2。我们还通过不一致和一致条件下的 RTs 的方差来估计参与者内的标准差,并对参与者进行平均,其中σw=151 ms。最后,为了估计σb,我们公式 1 进行一定的修改,得到公式 2:

由公式可得,σb=41 ms。

我们通过从数据中对试次和样本量进行重新抽样产生随机子集,并使用平均值和标准差计算效应大小和功率,将配对 t 检验与 0 进行比较(使用 R 的 pwr 包中 pwr.t.test 函数)。此外,另一种方法是简单地用重采样数据进行 t 检验,并计算显著性检验的概率,但对统计功效进行直接估计时,此方法上的计算更有效,因此我们在可能的情况下使用此方法。我们执行 10000 次的重复抽样,平均功效估算结果如图 2c 所示。正如我们的模拟所预测的那样(图 1h),80% 功效的 iso - 功效等值线(由粗蓝线显示)是弯曲的(我们通过使用 power contour Shiny app 来计算的汇总统计数据从而确认重复抽样的结果)。**大样本量(N>20)和小样本量(k50)和小样本量(N=8)均可获得高功率。****功率曲线的拐点发生在样本大小为 N=10,每个被试完成约 k=20 个试次。**当然,这是一个相对较大的效应量与一个稳健的效应(注意线索)。其他具有较小效应量的研究设计将需要较大的样本量和 / 或更多的试次,但值得肯定的是,相同的基本计算方式模式应适用于此类实验的研究设计。

3.??爱荷华博弈任务中的比例选择

随后,我们重新分析了 Steingroever 等人(2015)报告的一个关于 504 名被试完成爱荷华博弈任务的数据集。在爱荷华博弈任务中,参与者从四个卡牌中选择其中一个卡片。两张牌的总体收益更大(“好” 牌),而另外两张牌的收益更差(“坏” 牌)。参与者必须在实验过程中学习这些概率,并尝试使他们的收益最大化。因此,在整个实验过程中,被试的表现会发生变化,并且我们将在后面讨论这种学习的结果,但首先分析总的(例如:无序)试次。图 3a 显示了一组参与者的汇总数据,每个参与者都完成了 k=100 次试次。在所有试次中取平均值,从 “好” 牌组中选择一张牌的平均概率为 0.54(样本标准差σs=0.16),与概率基线 0.5 相比,效应大小 d=0.24(见图 3a)。我们计算了个体选择的标准差,并对参与者进行平均,得出σw=0.47,这意味着(通过公式 2)受试者之间的标准差σb=0.15。

图 3 ?爱荷华博弈任务中的比例选择分布。(a)显示了从 “好” 牌组中选择一张牌的平均概率的密度图,该图包含 N=504 名参与者,每个参与者在 k=100 次试验中的平均值。垂直黄线表示总平均值,垂直虚线表示偶然预期的概率。黑色曲线(灰色阴影显示 ±1 SE)显示每个试验中所有参与者的平均概率(1 到 100)。(b)显示了单样本 t 检验的功效等值线,将平均概率与概率基线(0.5)进行比较。对于这些模拟,试次是进行随机重复抽样的结果。(c)显示了有序试次的统计功效曲线。

我们再次通过从数据中对试次和参与者的随机子集重新取样,并使用平均值和标准偏差计算效应量和功效,并与 0.5 进行单样本 t 检验(使用 R 的 pwr 包中 pwr.t.test 函数)。这个过程重复了 10000 次,平均功效估计值如图 3b 所示。与图 1h 中的模拟一致, 功效取决于样本量和试次数量。在试次数量较少(k



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3