定性资料如何合理选择统计方法及常见错误分析

您所在的位置：网站首页 › 多个样本方差分析误用t › 定性资料如何合理选择统计方法及常见错误分析

定性资料如何合理选择统计方法及常见错误分析

2024-06-21 04:16| 来源: 网络整理| 查看: 265

医学论文中常见定性资料的统计和分析，但是部分医学论文对于定性资料的统计方法选择不当，导致结果和结论不恰当或者欠足够的证据。对于定性资料如何合理选择统计方法，定性资料统计中常见的错误是什么？胡良平老师曾发过系列文章，本文作一总结。

定性资料

定性资料是指对每个研究对象的某些方面的特征和性质进行表达或描述所得的资料，其具体的取值要么是名义的，如血型 (A、B 、O、AB) 、职业 (工人、农民、军人、学生)，性别(男、女) 等；要么是有序的或等级的，如疗效(治愈、显效、好转、无效、死亡)，抗体滴度( + 、+ + 、+ + + 、+ + + + ) 等。

这些定性资料有些属于原因、有些属于结果，若将每个受试者的定性变量的具体取值全部列出，则不便看出资料之间内在的联系，故人们常以表格的形式对资料进行整理或归纳，这种表格被称为列联表。

例如临床资料中最常见的列联表如表 1 、表 2 和表 3 所示。

定性资料如何合理选择统计方法及常见错误分析

表 1 和表 2 中都只含有两个定性变量 (药物种类、疗效)，因而叫做二维列联表，又因表 1 中的原始频数只有两行两列，故简称为 2 ×2 表或四格表。而表 2 中的原始频数占 3 行 4 列，故简称为 3 ×4 表，一般被简称为 R ×C 表。表 3 中含有 3 个定性变量(医院名称、药物种类、疗效)，故被称为三维列联表，当列联表中定性变量的个数大于等于 3 时，一般被统称为高维列联表。

定性资料常用分析方法 1. 2 ×2 表资料的统计分析方法的合理选择

2 ×2表资料的统计分析方法取决于其设计类型，即横断面研究设计、队列研究设计、病例对照研究设计和配对设计四种类型。每种类型又需考虑一些具体情况，方可选择较为合适的统计分析方法处理资料。

常用的方法有：一般χ2 检验、校正χ2 检验、Fisher精确检验。计算相对危险度 ( RR) 、计算比数比(OR) 、检验总体RR (或 OR) 与 1 之间的差别是否具有统计学意义的χ2 MH 检验。配对设计定性资料的 McNemarχ2 检验。

向您推荐我制作的EXCEL自动卡方检验及Fisher检验，不用自己再考虑是用普通卡方还是校正卡方了，输入数据就直接得出结果。

2. R ×C 表资料的统计分析方法的合理选择

R ×C 表资料的统计分析方法取决于表中两定性变量的性质和分析目的，按性质可将此类列联表分为以下四类：即「双向无序的 R ×C 表」、「结果变量为有序变量的单向有序的 R ×C 表」、「双向有序且属性不同的 R ×C 表」和「双向有序且属性相同的 R ×C 表」。

这些 R ×C 表资料，还需结合资料所具备的条件或分析目的，选择合适的统计分析方法，他们是：一般χ 2 检验、Fisher 的精确检验；秩和检验、Ridit 分析、有序变量的 Logistic 回归分析；秩相关分析或典型相关分析；线性趋势检验；一致性(或叫 Kappa) 检验或特殊模型分析。

3. 高维表资料的统计分析方法的合理选择

高维表资料的统计分析方法取决于表中定性变量是否能分出「原因和结果变量」，若分不出原因和结果变量，一般需要选用对数线性模型分析法。

若分得出原因和结果变量，则可分为以下 3 种情形：即结果变量为二值变量的高维表、结果变量为多值有序变量的高维表和结果变量为多值名义变量的高维表。

对于这些高维表资料，其统计分析方法有：多元Logistic 回归分析、对数线性模型；有序变量的多元Logistic 回归分析；扩展的多元 Logistic 回归分析。

定性资料统计分析方法合理选择的要领

我们认为对于定性资料的统计分析，可以遵循这样的思路

明确实验研究的专业目的；辨清实验中存在的影响因素和观测结果；要注意资料的收集方式与实验设计是否吻合，要注意实验设计的四个基本原则(随机、对照、重复、均衡)是否严格遵守；要注意列联表资料所对应的设计类型、资料所具备的前提条件、结果变量的性质和分析目的，在系统、全面地学习和掌握了常见的定性资料的统计分析方法之后，方可合理选用统计分析方法处理定性资料，最后还应注意检查结果解释和专业结论是否同时满足专业及统计学要求，千万不要将χ2检验视为处理定性资料的「万能工具」,千万不要作出含糊其词的解释和专业结论。

定性资料统计分析错误辨析与释疑资料整理过失及误差和对资料类型判断错误导致错误的统计分析方法

例原文作者研究非脱垂子宫切除微创手术在妇科的临床应用价值，表 4 为研究对象的基本情况

定性资料如何合理选择统计方法及常见错误分析

对差错的辨析与释疑

根据原作者在文字叙述部分介绍可知，表4中将总病例数写成 208 例，将子宫 > 8 孕周病例数写成 188例。将 TAH写成 TAHP，且该组中子宫 > 8 孕周病例数应为 182 例，而表 4 中却写成 112 例。如此多的过失误差出现在同一张表格中，是不应该的。

在该表格中记录的年龄这个变量，对于每一个研究对象而言，都可以得到一个精确量化的数值，应该是一个定量资料，若以组来概括表达，年龄应该用「x±s」的形式表达，不应仅写一个数据；更为不妥的是误用χ2 检验来分析表中后 3 组的年龄与第 1组(即 TVH 组) 的年龄之间的差别是否具有统计学意义。

另外在表 4 中，就子宫大小、腹部手术史的比较而言，原作者的用意让人感到困惑。因为该试验的目的是比较微创手术 TVH、LAVH、CISH 较常规剖腹手术TAH 优越，对于基本情况的比较应该是试图说明各组间在重要非处理因素方面均衡性好，组间的差异无统计学意义 ;而将各组与同为微创手术的 TVH 组比较，并不能说明微创手术组患者的基本情况与常规剖腹手术 TAH 组患者之间的差异无统计学意义，即所作的统计分析并不是原作者期望达到的目的。

定性资料例数很小时仍盲目套用χ2 检验或仅给出 P 值而缺少统计量的值，此时可靠性较差。

例某作者试图「建立一氧化碳中毒所致迟发性脑病大鼠模型」观测大鼠中毒后表现和迷宫实验结果。

在 A、B 、C、D 4 组实验动物均为 10 只的情况下，又将 A、D 2 组动物在实验中的 5 个不同时间点上(第 3 、7 、14 、21 、28天) 分 5 批处死动物，每批每小组仅 2 只动物，最后再运用χ 2 检验进行 A、B 、C组动物的发病率的比较。

对差错的辨析与释疑

从实验设计角度看，各小组之间不仅在动物数目上缺乏可比性 (有些组有 10只，有些组只有 2 只)。而且在重要的非处理因素(如中毒的时间) 上不具有可比性，故这些均使得出的结论缺乏说服力。

在实验结果的表达中，使用的多为定性的描述，在统计分析部分虽交代采用了 t 检验和χ 2 检验，但在给出统计分析结果时未给出检验统计量的具体值，直接就写 B、C 二组与 A、C 二组比较差异无显著意义 ( P > 0 1 05)，使人不能不对其 P 值的可靠性提出质疑。样本较小的定性资料的统计分析，一般不宜采用χ 2 检验，而应选用 Fisher 的精确检验来处理。

由于多方面的错误导致统计分析方法的误用

例某作者对 TRT 组与对照组疗效进行比较，结论为 TRT 组疗效显着地优于对照组的疗效，资料见表 5 。

定性资料如何合理选择统计方法及常见错误分析

对差错的辨析与释疑

其一，原作者在收集和整理资料时违背了实验设计的要求，将原本属于「重复观测」的多因素定性资料错误地按「独立重复试验」方式进行收集和整理。因为两组患者中的每一位都在「第2 、6 、12 个月」被重复观察了 3 次，而且每次都按完全适应、基本适应、部分适应、未适应来给出疗效的评定，此时的「疗效」是「多值有序变量」。

其二，原作者将一个三维列联表资料简单地拆分成三个独立的二维列联表资料，割裂了整体设计，无法正确反映原因与结果之间的真正联系。

其三，对结果变量（疗效）的有序性不予理睬，简单地将其分为适应与不适应两档（因为分析的是总适应率），采用无法利用结果变量有序性信息的χ2检验进行资料处理，其结论的可靠性大大降低（注 :表中 26 1 9 %为原文漏项）。

本例最妥当的做法是严格按重复测量设计收集资料，并采用重复测量设计定性资料的统计分析方法进行统计分析。若一定要在错误收集资料的情况(表 5)下处理资料，应将其视为结果变量为多值有序变量的三维列联表资料，可选用有序变量的多元Logistic 回归分析方法处理之。

例原作者展示了实验动物的切口愈合情况和感染情况，其中一部分实验结果列在表6中，其中甲、乙、丙分别代表切口愈合的等级，从甲到丙表示由优到劣。

定性资料如何合理选择统计方法及常见错误分析

对差错的辨析与释疑

原作者在文章中虽未明确提及所使用的统计分析方法，但从统计表底部的注释中我们可以看到，原作者采用的是在固定细菌浓度的条件下，比较实验组与对照组切口感染率之间的差别是否具有统计学意义，采用的是一般χ2检验。对于「感染与否」这个二值的结果变量来说，它受到组别(即实验组与对照组) 和细菌浓度两个因素的影响，应同时分析这两个因素对结果的影响，宜采用多元 Logistic 回归分析方法处理资料。

若希望排除细菌浓度的影响，重点考察实验组与对照组感染率之间的差别是否具有统计学意义，可以采用加权χ2 检验处理之。

然而，原作者对表 6 中切口愈合情况未作任何分析，未充分发挥现有资料的作用，实在有点遗憾。最好将表 6 资料按表7格式重新整理，然后选用结果变量为多值有序变量的多元 Logistic 回归分析方法进行处理为宜。

定性资料如何合理选择统计方法及常见错误分析

误用χ2 检验回答相关性问题

例：很多医学期刊论著中都采用χ2 检验处理类似表8的资料，其目的是希望回答表中「两个有序变量之间是否呈相关关系」。

定性资料如何合理选择统计方法及常见错误分析

原文用χ2 检验处理表 1 资料，得χ 2= 163.01，P < 0.005，结论为：可认为肺门密度与矽肺期次有关，结合本资料可见肺门密度有随矽肺期次增高而增加的趋势。

问：处理此资料所用的统计分析方法以及所得出的结论有何不妥之处 ?

对差错的辨析

因表8资料叫做「双向有序且属性不同的二维列联表资料」,对于这种资料的处理有3 个不同的目的。因此，也就对应着 3 套不同的统计分析方法。原文作者分析此资料的目的是「希望考察表中两个有序变量之间是否呈相关关系」,而χ2检验是检验「表中两个定性变量之间是否互相独立」,当检验的结果为拒绝「独立性」假设时，其对立的假设不是「相关」,而应当是「各矽肺期次的患者在3 种肺门密度级别上的人数分布是不同的」。

原作者误认为用χ2 检验拒绝了「独立性」假设后，其对立的假设一定是「相关」。事实上，从χ2检验的计算公式上不难看出，它与表中两个有序变量本身毫无关系，若将表中任何两行上的频数互换或将任何两列上的频数互换，它们所对应的χ2检验统计量的数值(本例为χ2= 163.01) 是不会变化的。显然，变换后的数据已预示其结论要发生变化，而χ2检验的结果却隐含着结论是不变的，这充分说明χ2检验用于处理由有序变量形成的二维列联表资料是不合适的。

释疑：结合表8的标题可知，若一定要根据χ2检验的结果作出结论的话，其结论应当是针对各行上的「频数分布」是否相同来作出明确的回答，而绝对不应当针对表中两个有序变量之间是否呈「相关关系」。要想对后者作出明确回答需要选用分析定性资料的相关分析方法，如：Spearman 秩相关分析，Kendall 秩相关分析或典型相关分析。

就上例言，若采用 Spearman 秩相关分析，得 : rs=0.53215，P

【本文地址】

定性资料如何合理选择统计方法及常见错误分析

定性资料如何合理选择统计方法及常见错误分析

今日新闻

推荐新闻