科学网

2024-07-12 09:09| 来源: 网络整理| 查看: 265

统计效度：一类容易被忽视的效度精选

已有 10715 次阅读 2021-6-25 23:57 |系统分类:科研笔记

博文《两类基本效度：内部效度与结构效度》提到，Cook和Campbell（1979）把研究效度分为四类，并介绍了内部效度和结构效度，博文《外部效度：其他群体、其他情境、其他时间》介绍了外部效度，本文介绍剩下的统计效度。这是一类容易被忽视或者虽然受到重视，却往往不从效度视角来考虑的效度

一、统计效度的概念

统计效度，又称统计结论效度，是指统计结果的真实程度，它涉及的是研究中统计分析的适当性、准确性问题。数据分析，往往有特定的统计前提（statistical assumption），违背这些前提，所做的统计分析就可能是不适当的。因此，统计效度更多地与统计分析适当性有关。同时，统计效度还包括统计分析的准确性，例如，经常看到一些期刊论文刊登勘误，更正的错误主要是统计结果方面的。学位论文中也往往会有一些明显的统计错误，比如，t值的绝对值、F值小于1，对应检验的p值却小于.05（可能是作者转抄数据时出错所致，也可能是其他莫名其妙的错误所致）。这样的结果，让人质疑其统计效度。

除了与统计前提相关联的具体问题，任何研究都需要考虑与统计效度有关的一般问题――它们涉及影响统计效度的常见因素。

二、影响统计效度的因素

1、测量指标的信度和效度

心理学研究要对数据进行统计分析，而数据来自具体的测量指标。统计分析有效的根本条件是，这些测量指标得具有符合心理测量学要求的信度和效度。如果分析的数据不可靠、不可信，那么，相应研究的统计效度就是根本无法得到保障的。

2、第一类错误与统计显著性

研究者认为存在一种效应而实际上不存在时，就产生了第一类错误（即“假阳性”）。这是研究者有内在动机会犯的一类错误。如果研究者由于p < .05拒绝零假设，得到存在一种效应的结论，那么需要考虑如下几个问题：

（1）数据来源

心理学研究的数据，应当是来自样本的，但是，有时研究者会由于各种原因而积累一些数据，例如，留意并记录媒体报道的自杀事件，经过一定的量化处理，可以进行统计分析。但是，这样的数据是来自枚举，而非样本，从而就不适于进行显著性检测。当然，此类数据可以进行基本情况描述。

（2）样本性质

如果数据是来自样本的，那么，是来自随机样本还是非随机样本？如果来自非随机样本，显著结果的误差则是不能确定的。虽然现在可以用bootstrap进行显著性检验，但是，这种显著性的解释与从总体中随机取样是不同的――它是从已有的数据中不断抽取样本，再怎么抽样，也不会出现不在已有样本中的个体。

（3）随机性质

心理学研究中有两种性质（或者说两种情形）的随机，一种是随机取样，一种是随机分配。通常，研究者很难进行随机取样，却可以做到随机分配被试，即做随机实验。这样可以近似控制额外变量，但是不能控制取样偏差。例如，如果被试全是男性，那么，对女性来说就可能是无效的――即使这样的统计分析是显著的。

（4）研究性质

心理学研究可以分为验证性研究和探索性研究。从而，即使数据来自随机样本，也要视研究性质而确定统计检验的显著性水平。在社会科学中，验证性分析的显著性水平通常是.05，而探索性分析的显著性水平通常是.10（Garson, 2013），心理学研究也可以采用这个标准。

（5）检验性质

心理学研究者在做统计显著性检验时，具体情况存在差异，有些是基于事前假设进行的，有些则是数据钓鱼，即对于可能存在效应的情况都进行检验，根据检验结果，描述显著的内容。如果是数据钓鱼，采用.05的显著性水平，就是单凭几率，20种效应中就可能有一种是显著的。对于心理学研究中更常见的事后多重比较，则需要调整显著性水平，通常进行Bonferroni校正，即把原来确定的显著性水平除以进行比较的个数，例如，显著性水平是.05，进行3个两两比较，那么，显著性要调整为.05/3 = .017。

3、第二类错误与统计效力

如果研究者认为没有效应而其实存在这种效应时，就发生了第二类错误（“假阴性”）。除非有其他目的，否则，这是研究者不太愿意犯的一类错误。如果研究者是由于p > .05而得出没有效应的结论，那么只要问一个问题就行了――研究具有足够的统计效力吗？如果效力大于等于.80，那么，不存在这种效应的结论，有令人满意的统计效度。一般而言，研究的统计效力与样本量有关，因此，研究者能够通过增大样本量而提高统计效力。这里的核心问题是，研究者如果得到一个不显著的统计检验结果，那么就需要核查效应量与统计效力，如果效应量是中等及以上，显然，此时的统计效力过低，统计效度是有问题的。

4、交互作用与非线性

心理学研究中的许多变量之间均可能存在复杂的关系，最常见的是交互作用。在研究时，有无考察某个或某些变量，决定着能否检验相应的效应，特别是交互作用。同样地，一个变量的效应检验，与研究时这个变量的取值及水平数量有关，如果取值范围有限、如果只取两个水平，那么，也难以考察出它的非线性效应。虽然，往往从研究设计的角度分析这类问题，但是，它们涉及的内容包括了统计效度，即，相应效应的检验，是通过统计分析而进行的。

5、因果关系模棱两可

总体而言，心理学研究是考察变量之间的因果关系的，然而，有些变量之间的关系非常微妙，特别是在相关研究而非实验研究中，研究者在看待与解释因果关系时可能会出现方向性困惑，论及的因果关系显得模棱两可。例如，学生的幸福感与学习行为――这两个变量之间的因果关系如何确定呢？提高学生的幸福感，是为了让学生有更好的学习行为？培养学生更好的学习行为，是为了提高学生的幸福感？统计分析可以为相应的问题提供数据支持，但是，如果理论建构存在问题，这样的统计分析也无法起到应有的作用。

三、统计效度与内部效度的比较

显然，在心理学研究中，统计效度和内部效度比较类似，都涉及自变量与因变量之间的因果关系。但是，统计效度和内部效度强调的是不同角度的问题。内部效度要保证的是，自变量和因变量之间的因果关系是真实的、而非虚假的；统计效度要保证的是统计数据的结果是真实的、而非偶然的。内部效度需要统计效度提供支持，统计效度是为内部效度服务的。从现实性讲，失去统计效度的基础，内部效度也无以言说。

由于内部效度广为人知，无须多讲，这里再就统计效度总括性地提示一个问题，即，研究者应当形成一种意识，不能以为研究结果是以统计分析为基础的，就是可靠的、有效的。特别地，在数据分析时需要考虑一些基本层面，例如，数据本身的质量，包括测量水平、研究设计、研究程序、作答情况；统计分析的条件，亦即参数检验的数据甄别，比如，正态分布检验、方差齐性检验、多元共线检验、回归齐性检验；统计方法的选择，涉及需要做多元方差分析时，不宜做多个一元方差分析，需要做因素方差分析时，不宜做多个单因素方差分析，需要做事前比较的，不宜做事后比较，需要做单尾检验的，不宜做双尾检验――常用的统计软件包SPSS只呈现双尾检验的结果，研究者需要根据情况，自行调整成单尾检验；统计结果的解读，涉及对统计方法的解读、对测量工具的解读――例如，许多测量工具是通过因素分析技术编制的，但是，确定的因素能够解释的方差往往相当有限（比如，达不到总方差的60%），在分析及讨论时无视这样的事实，显然是不当的。

总之，心理学研究者有了研究效度的观念，包括统计效度的观念，对心理学研究也就有了洞若观火的视野，从而，心理学研究素养也就可能得到突飞猛进的提升。

参考文献

Cook, T. D., & Campbell, D. T. (1979). Quasi-experimentation: Design and Analysis Issues for Field Settings. Chicago, IL: Rand McNally.

Garson, G. D. (2013). Validity and Reliability. Asheboro, NC: Statistical Associates Publishing.

https://blog.sciencenet.cn/blog-2619783-1292778.html 上一篇：认识行为的方式：权威、逻辑、直觉、完形、科学下一篇：生态效度：一个充满争议的效度术语收藏 IP: 116.9.46.*| 热度|

【本文地址】

科学网

科学网

今日新闻

推荐新闻