陈希孺院士:统计学的正确用法

您所在的位置:网站首页 统计学里的cf 陈希孺院士:统计学的正确用法

陈希孺院士:统计学的正确用法

#陈希孺院士:统计学的正确用法| 来源: 网络整理| 查看: 265

统计学研究的对象,一是如何收集数据,一是如何分析数据。

01

什么是统计学

在日常用语中,“统计”相当于“计数”。小至一个家庭、单位,大至一个国家,都有许多计数即统计的工作要做。

世界各国大都设立了中央到地方的各级统计机构,负责收集关于人口、经贸、社会等各方面的数据资料。在一定意义上,这种活动可视为“统计学”这门科学的起源。

丹麦统计史学家哈尔德认为,“统计学”和“统计学家”等词源出于意大利,统计学即国情学,对象是国务活动家感兴趣的事实,而统计学家则是“处理国务的人”。在这样广泛的意义下,统计学简直是无所不包了。

经过演变,到 19 世纪,统计学定位为一门关于收集和分析数据的科学,但不涉及数据所来自的具体学科领域的研究。例如,一个统计学家可以帮助生物学家处理其工作中涉及的数据收集和分析问题,但统计学并不去研究生物学自身的问题。

统计学是有关收集和分析带随机性误差的数据的科学和艺术。分析着重在数量化,而随机性的数量化,是通过概率表现出来的,由此可以看出统计学与概率论的密切关系。

统计学研究的对象,一是如何收集数据,一是如何分析数据。

关于收集数据有两种情况,一种是自一个大群体中抽取一部分个体,对他们测量所关注的指标(如人的体重、农民的年纯收入)。一种是通过做试验来产生数据(天平称物、试验田的产量等)。针对前一种情况,统计学中有一个叫作“抽样调査”的专门分支学科去研究。针对后一种情况,统计学也设有专门分支,叫“试验设计”。

我们对统计方法的特点做些进一步的解释,目的是更清楚地说明,统计学方法有别于其他数学方法的特征在哪里。

读者在中学数学课中,学习了不少数学方法,如几何学中有证题、推理和作图的方法,代数学中有解方程的方法,等等。统计学方法作为一种数学方法,有哪些自己的特点呢?这就是以下要回答的问题。

02

从部分推整体:归纳与演绎

统计方法的一个基本特点,是它有“从部分推断整体”的性质。这是一种在对有关信息缺乏完全掌握的情况下,去进行推断的方法。由于这个原因,它不能担保所得结论一定准确无误,而是容许结论可能出错或有误差。

好的统计方法的主要标志,就是它出错的机会较小,产生的误差一般较小,但不可能完全避免误差。

部分推断整体的特点,在抽样调查中看得很清楚。一个群体(人群或任何同类对象,如工厂、学校等由个体组成的集体),在统计学上称为总体(也称为母体),它由大量个体组成。我们所想要了解的,是该群体作为一个整体的某项指标或性质,而并非要去一一细究全部个体的状况如何。

“平均收入”是一个整体性质,用统计学的语言说,是一个总体指标。我们抽取该省一部分农民——在统计学上称为样本或子样,所抽出的农民人数称为样本量——做调査,而有关总体指标(即全省农民平均收入)的结论,即依这一部分的情况做出。所有抽样调查的研究全是这种情况。

统计方法的“部分推断整体”的性质,引出一个重要之点:统计方法是一种归纳性质的方法,统计推断是一种归纳推理。

我们知道,推理的方法可以分成两大类:演绎法和归纳法。演绎法是用逻辑推理的方式,从一些被承认为公理的前提(如部分大于整体,若a=b,b=c,则 a=c之类,以及适用于某一特定领域的被承认的前提,如牛顿三大定律,可视为牛顿力学的公理)出发,推证出一些结论,其正确性依赖于所据公理的正确性。

这些已被证明的结论,又可以作为证明其他结论的依据。一个大家都熟悉的例子是欧几里得平面几何,它从一些公理出发,推演出很多结论,如“三角形的 3 条中线交于一点”“三角形 3 个角的度数之和为 180°”之类。

这种类型的演绎推理是纯思辨性的,不涉及物质世界,只要坚持公理体系的前提(认定公理体系的正确性),且在推理中未犯逻辑错误,没有引用错误的或未加证明的断言,则可以保证推理所得结论(在该体系下)的正确性。

应当注意的是,在一定限度内,所谓公理也是出于人造,并无“天然正确”的品格。

例如大家在中学学习的平面几何公理体系中,有所谓“平行公设”(欧几里得第五公设),即过直线外一点有一条且只有一条直线,与该直线平行。“三角形 3 个角度数之和为 180°”这一结论,就是在平行公设(及欧氏几何的其他公理)的前提下证明的。

在高等数学中,有一种几何学叫作罗巴切夫斯基几何,该几何学中有一条公理是:过直线外一点可以作两条不同的直线,都与该直线平行。在这种几何学中,三角形 3 个角的度数之和已不再是 180°,因为前提变了,结论也跟着改变,这些都合乎逻辑,没有矛盾。

在现实世界中,这种演绎式的推理也很常见。

有一些著名的例子,例如 1919 年观测到太阳光线经过水星引力场时要发生弯曲,这本是根据爱因斯坦相对论所推演出的结论。

与上述数学演绎推理不同的是,在物质科学中,演绎结论不能视为当然成立,还须经过试验验证,而经过试验验证,反过来支持了所据理论的正确性。小至日常生活,我们也常做演绎推理。

例如判断一个我们并无直接接触的人的素质如何,可以根据他的家庭背景、所受教育、工作经历和社会关系等因素。这在广义的意义上说也是一种演绎推理,不过具有更粗疏的性质,也没有无懈可击的逻辑性。其正确性如何,仍需要通过亲自与该人接触才能确信,这也是一种试验验证。许多创造发明的起点中,都包含有这种松散的演绎性推理。

例如设计治某一疾病的药物,可以是根据病理学的分析及某种物质的化学性质和生理作用,推测该药物应有疗效,但究竟如何,不能据此定论,还须经过严格设计的临床试验。

与演绎推理相反,归纳推理是由总结若干个别事例而做出的一般性结论。例如,你与某人打过若干次交道,发现他在与你共事时按正道行事,于是你做出他“为人正直”的结论。

这是你归纳若干事例(可解释为观察或试验结果)而引申的结论。它在逻辑上并非无懈可击(且实际上也未必尽然),因为你是“由部分推断整体”——你并不了解他的全部情况。

实用科学中的许多结论,都是根据一定的观察试验结果得出,都属于归纳性的结论。在许多情况下,观察或试验结果受到偶然性因素的影响而带来一些不定因素。

统计方法的作用,正是在这种情况下,帮助人们做出尽可能正确(在数据所提供的信息的限度内)的归纳。因此,统计性的推理是一种归纳推理。

从现实世界的角度看,作为推理方法,归纳高于演绎。不仅在许多情况下思辨或理论推理不可行而只能诉诸试验,即使在演绎推理可用的场合,其结论仍须经过试验即归纳的验证。这也就是我们常说的“实践是检验真理的唯一标准”。由此也可以看出统计方法对于认识和改造世界的重大意义。

03

统计规律与因果关系

吸烟会增加患肺癌、其他癌症以及诸如心脏病等严重疾病的风险。医生提出告诫,劝人戒烟,各种媒体和出版物中不时可以见到有关的报道。这并不是空穴来风,它得到了统计数据的支持。

早在 1948—1949 年,英国有两位学者多尔和希尔就研究过此问题。自那时起至 1956 年,他们发表了一系列的报告。他们从伦敦 20 家医院中搜集了 709 名肺癌病人,以及对照组——另外 709 名未患肺癌者的吸烟情况的资料,按吸烟斗还是纸烟、男还是女、是否将烟吞进肺里等指标分类。

经过统计分析,他们发现吸烟与患肺癌呈明显的正相关(即吸烟会增加患肺癌的风险),而纸烟的危害性又大于烟斗。

自那时以来,类似的统计资料发表了不少,几乎全部证实了二者有正相关的说法。这个正相关的结论是一个统计性的结论,或把它称为一个统计规律也可以。统计规律有什么特点,怎样去理解它的意义?下面我们要通过本例和其他一些实例来回答这些问题。

首先,统计规律是关于群体的规律。对群体中的个体,情况复杂多样,不是一定就是这样的。拿本例来说,有重度吸烟却终生保持健康者,也有不吸烟而很早罹患肺癌者,不能用这类个别的例子来否定二者有正相关的结论,因为它讲的是群体中的一种趋势。

又如,统计资料的分析表明,人的收入与其受教育年限呈正相关。但高学历低收入和低学历高收入的情况,所在多有,这并不否定上述规律的正确性,也是因为它讲的是一种总的倾向性。前些年常提到“体脑倒挂”的说法,并非指存在个别(甚至不少)学历与收入错位的例子,而是指在整个人群(全国,或某地区、部门)中,收入与学历呈负相关,大的趋势有了倒转。

有的读者可能会有疑问:“群体是抽象的,每件事都必须落实到其中的个体,患不患肺癌是每个人的事,这样一种关乎群体中的趋势的规律有何意义?”

对此我们是这样理解的。第一,这种规律反映了某种客观存在的现实,有科学意义和认识意义。如在本例中,此规律指出(这正是“正相关”的含义),在抽烟的人群中,患肺癌人数的百分比,要高于不抽烟的人群中的同一百分比,且这百分比还随着抽烟量的增加而上升。这个认识就很有实际意义,它是许多国家和团体发起“戒烟运动”的理由所在。

第二,对个人而言,有警诫的作用。我们说这个结论是一个关于群体的规律,并不是说它就与个人无关。天生万物各不齐,个体之间有差异(遗传、环境等)不好比,但就同一个人说,吸烟增加患肺癌的风险这一警告并非不适用。又如,一个人多学一些东西,提高自己的能力,对增加自己的收入总会有好处。这与在社会上确实存在学历高而收入低的情况,并无矛盾之处。

“统计规律”这个提法的启示是,教人看问题不可绝对化,因而有思想方法上的教育意义。习惯于从统计规律看问题的人,在思想上不拘执一端。他既认识到一种事物从总的方面看有其一定的规律在,也承认存在例外的个案。

二者看似矛盾,却是并行不悖的,它反映了我们生活在其中的世界的多样性和复杂性。甚至可以说,如果不是如此,我们处处被一些铁板钉钉的规律所支配,则生活将变得何等单调无味。说起来这不过是一个初浅的常识,但事实表明,并非每一个人都能习惯于这种思想方式,使其成为一种本能。

常听见有这种争论:当甲提出某种说法时,乙就指出一个反例,证明其所说不实。统计学家对此的看法是:甲的说法可以是一个统计性的规律,它需要大量的统计资料的证明或证伪,乙指出的个别反例不一定能构成否定甲的说法的充分理由。

从反面讲,也可以说统计规律这种东西的出现,反映了人类认识上的局限性,反映了人类对偶然性的作用无力完全掌握,也反映了人类在这种局限性的约束下认识自然的一种努力,即在偶然性造成的纷乱无序的状态下,尽量从中找出一些虽不完善,但具有规律性的品格的东西。

拿本例来说,人人都希望能有这样一个公式,当你按照这个公式生活时,可保证你不患肺癌。这种公式现在没有,将来什么时候会有也难说,如果你要求把事情搞到这样确切的程度,则只好什么也不做。究其原因,还是由于个体差异即偶然性的作用。“不吸烟能减小患肺癌的风险”这类统计规律的获得,是一项有用的成果,虽然它有其局限性。

其次,统计方法只是从事物的外在数量表现上去研究问题,通过对数据的分析,揭示可能有某种规律性的东西存在,而不涉及事物的质的规定性。换句话说,统计分析的结果可以告诉你,从观察和试验资料来看事情是怎样的,而不能告诉你为什么会这样。

拿吸烟与患肺癌的关系来说,统计分析不能告诉你为什么吸烟是患肺癌的危险因子,那是要由医学家去研究的问题。又如,通过抽样检验对所得数据进行统计分析,表明生产同一产品(如电视机)的甲、乙两厂中,甲厂产品质量优于乙厂。这纯粹是从所掌握的数据上得出的结论,它不能告诉你为何甲厂产品质量会好一些,这可能是由于它的设备新、管理好、工人素质高等,具体如何,要做进一步研究才能确定。

要指出的是,说甲厂产品质量优于乙厂,这也是一个统计性的规律,它可以通过统计学的概念和术语,以某种形式表述出来。但当从两厂各拿出一件具体产品来比较时,并不能保证甲厂那一件一定好一些。

“知其然而不知其所以然”一般是一种含有贬义的说法,用统计分析方法得出的结果,就属于这种情况,其意义何在,有必要加以说明。下面从两个方面来讨论这个问题。

从应用上说,一旦我们从数量的表层发现了某种有实用价值的规律性,就可立即将其付诸应用,至于其机理问题,可留待学者们从长研究。有许多具实效的药物、偏方和治疗方法,经过一定范围内的使用验证确有成效而得到推广,其机理有的并无满意的解释。

在工业中,通过配方、工艺上的改进而得以改善产品质量的例子很多,这些在起初都是经过多次试验而总结出的结果,经过生产实践证明其有成效而得到推广使用,即使其理论根据一时未能完全探明,也无妨其实用——当然,这不是说不必去做出努力以弄清其“所以然”。因为,明白了有关的机理,可以指示进一步努力的方向。

至于在以认识自然为目的的基础研究中,目标本来就在于探求事情的“所以然”,当然不能停留在事物表层上。但即使在这类活动中,统计方法仍有其不可缺少的作用。事物本质的秘密往往隐藏在深处,不是轻易能够被揭示的,但它可能以一种曲折间接的方式,在某些数量之间的关系上,露出冰山的一角。许多重大的发现,都是先通过观察或试验积累数据,对之进行统计分析,其结论指示了向哪个方向去探索。

通过表面上的数量关系的分析,而推动科学上重大发现的一个著名的例子,是孟德尔遗传定律的发现。而对现代生命科学有决定性影响的基因学说的提出,就是建立在这个发现的基础上。

孟德尔是奥地利生物学家,他的上述成果发表在 1865 年的一篇论文中。他用豌豆做试验,这种豆有黄、绿两种颜色,孟德尔分别培养了一个黄色的纯系和一个绿色的纯系,其每一代所结的豌豆全部保持同一种颜色。

孟德尔将这两个纯系进行杂交,发现这种杂交品种豆子全是黄色,看上去与黄色纯系并无不同,但在将这种杂交品种再进行一次杂交时,孟德尔发现这第二代杂交豆子的颜色黄、绿都有,其比例接近 3∶1。孟德尔将这个试验重复了很多次,每次都得到类似的结果。

如果他将这项工作就进行到此处为止,则这个 3∶1 的统计性规律也可算是一项科学的发现,但意义毕竟就比较有限了,因为它只涉及这么一件具体事情。但这个表面上的统计规律性启发了孟德尔去着手提出一种假说来解释这个现象。

具体说,他假定有一种后来被称为“基因”的实体控制着豆子的颜色,这实体有两个状态(被称为等位基因):y(黄)和 g(绿),共组成 yy、gg、gy、gg 4 种配合,称为基因型。前 3 种配合,即其中至少有一个 y 的,使豆子呈黄色,唯有第 4 种配合使豆子呈绿色(在遗传学上,称 y 是显性的而 g 是隐性的,意思是只要有 y 在,g 的作用就退隐了)。

根据这个假说,孟德尔的试验结果就得到了圆满的解释。黄、绿纯系的基因型分别是 yy 和 gg,杂交第一代只有 yg 一种可能的基因型,故全呈黄色。但第 2 代杂交是 yg 配 yg,每方出一个基因,共有 4 种同等的可能性,即 yy,yg,gy,gg,前 3 种呈黄色而只有后一种呈绿色。这解释了第 2 代杂交豆子中黄、绿两种颜色之比近似为 3∶1。表 2.1 是孟德尔试验中的一些具体数据。

就每一株来说,绿色豆子占该株豆子总数的比例接近 1/4,但有些差距,有的株差距还不太小,全部 10 株绿色豆子所占比例为 123/ (355+123)≈25.7%,就相当接近 1/4。为什么这个比例只是接近而不是严格等于 1/4 ?这就要归结于偶然性的作用。

每个植株豆子都不多,偶然性的作用就比较明显,10 株合起来,豆子总数加大,偶然作用彼此抵消了,1/4 的比例就更突出。如果植株更多,这比例与 1/4 的差距就会更小。

“基因”这个名称是英国学者贝特森在 1909 年提出的,自此,基因学说主导了 20 世纪生物学尤其是遗传学的发展,其意义无可估量。到 1950 年,基因的存在在分子的水平上得到证实,可以说是给从孟德尔开始的这一项重要研究工作画上了一个圆满的句号。

可以看出,统计方法在其中起了先导的作用。群体中的个体数太多,即使你有能力对其一个个加以跟踪研究,也会因为个体的差异性而呈现的纷乱状态,得不出什么有用的结论。相反,一个或一些反映统计规律性的统计数量对我们更有用。

例如,调査了成千上万的人的身高体重状况,都登记在一本册子上,杂乱无章,看不出什么问题。而一个反映统计规律的粗糙公式——体重 = 身高 - 105,则对我们有用得多,虽然这公式远非确切。薛定谔所说“我们实际感兴趣的乃是统计机制的运用”,指的正是“通过个别情况的研究从中总结出统计规律性”的方法。而薛定谔指出,这种规律性有助于我们探求事物的实质。

在有计算机之前,有不少统计方法,因为涉及的计算量太大,人力难于完成,因而实际上无法应用。现在,像处理大气污染这类问题,牵涉几十个因素和极大量的数据,在以往是不能想象的,如今用计算机可在很短的时间完成。

1858 年,英国为绘制本国地图,做了一次大型的大地测量,收集了极大量的数据,用最小二乘法处理这些数据,涉及解 920 个未知数的线性方程,整个工作分两组人员独立进行,花了两年半的时间才完成。如今在电子计算机上,这类的计算已算是比较轻而易举的事情。这种情况的出现,使基于数据的统计分析方法在探究自然的奥秘中,起着比以往更大的作用。

以上的论述着重在替统计分析方法“评功摆好”,那么,有没有负面的因素呢?我们说有,不过要赶紧申明的是,这种负面因素并非出自方法本身,而是在于方法的不当使用甚至滥用。

多年前有一位知名的美国统计学家来中国访问,他曾半开玩笑地说:“什么是统计学家?有人说,统计学家是一群骗子,他们可以用数据证明任何想要证明的事情。”这是指对统计方法的滥用,甚至是为了自私的目的而损害公共利益,其中包括伪造数据,所谓“官出数字,数字出官”,指的就是这件事。

即使不伪造数据,只要通过有偏向地采取数据,也可以引导出所想要的结论。

例如在宣传某种药物或保健品的功效时,只提正面的例子,对无效甚至有反面效果的例子略而不提。更多的情况是使用不当。这首先是数据的采集。数据的采集方式必须严格符合随机性等一系列的要求,才能用作统计分析的原料,不然就会产生误导。

其次是效应或差距的显著性问题。这指的是如下的情况:有的试验的目的是为了证实某项措施有效(例如,一种治病的新方法,其疗效比现有的方法高),但试验规模很小,或试验误差太大,因而偶然性影响增大,从数据上显示的差距,其实不过是出于偶然性的作用而非实质的。

这一点用严格的统计检验方法本是可以鉴别的,但因未做这种严格的统计检定,就按其表面差距以成果的形式报道出来,而产生误导。

我们不时地从媒体及出版物中,看到对同一件事的两种不同的说法,都有其统计资料的根据:盐吃多了易导致高血压,但也有说二者并无关联的;糖是健康的杀手,但也有要“为糖平反”的。类似这种例子很多,尤其是涉及与人体有关的。

那么,为何这些截然不同的说法,都有其统计资料的支持呢?

一方面,这需要仔细审查其数据的获得方式,以及数据的规模。因为,在有些问题,特别是与人体有关的问题中,个体的差异太大,局部的数据,即使其来源正当,统计分析方法也合乎规范,但依靠规模不大的数据分析所得的结论外推至于普遍,常会发生问题。

例如,根据法国人喝葡萄酒多而心脏病患者少,就推出喝葡萄酒有助于降低心脏病发病率的结论。可是首先,法国人心脏病发病率低是否与多喝葡萄酒有关,是一件未经严格统计分析证实的事情,还有待做进一步的研究。

其次,即使这一说法对法国人成立,它是否必然也适用于其他人,尤其是在地域上、体质上和生活习惯上与法国人都有较大差异的东方人,这也需要统计资料的证实。

总之,统计方法是一个很有用的方法,但其单从表面数量关系着眼的特点,使其有易于被滥用、误用和夸大的危险。统计学的任务就是教人怎样去正确使用这种方法,恰当而有分寸地解释其结论,对种种统计分析的结果做出正确的评估(这需要对其数据来源及使用的方法有了解)而避免误导公众或为人所误导。

应当指出的是,统计规律未必蕴含因果关系,这一点,是统计方法的本性而非其缺陷。寻找因果关系是各类专门学科的任务。统计学作为一门数学学科,统计方法作为一种研究问题的工具,不可能把寻求万事万物的因果关系这样复杂的任务担当起来。但它通过数量上的分析揭示表面关联的存在,起着为专门研究指示努力的方向的作用。

推荐阅读



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3