“数据不会说谎”,如何看穿大数据背后的真相?

您所在的位置:网站首页 数据不撒谎 “数据不会说谎”,如何看穿大数据背后的真相?

“数据不会说谎”,如何看穿大数据背后的真相?

2024-07-06 14:34| 来源: 网络整理| 查看: 265

我们生活在一个数据爆炸的时代,数据的作用被无限放大。美国管理学家、统计学家爱德华·戴明有一句名言:除了上帝,任何人都必须用数据说话。然而,这也带来了一个问题:数据也许是客观的、科学的,但是分析和处理数据的方法,却被描述成了耸人听闻、华而不实、迷惑不清且过分简单的东西。

在报道社会和经济趋势、进行科学研究时,要用到大量数据,此时方法和术语就不可或缺,但是如果作者不能诚实地报道,甚至根本没有理解这些研究方法,读者也就无法明白作者所说的内容,那么这些分析结果就只能是无稽之谈。    在这里相信有许多想要学习大数据的同学,大家可以+下大数据学习裙:957205962,即可免费领取套系统的大数据学习教程

除此以外,同一现象,分析方法不同,导致结论不同的情况也较为常见。因此,关于数据会不会说谎的争论一直未曾停歇,如果在百度搜索“数据会说谎”或“数据不会说谎”,都可以轻易获得数十万条检索记录。然而,谈论到数据产生误导的原因,有研究者认为至少有三种类型:一是读数据的人缺乏专业知识;二是分析数据的人采用了不合理的方法;三是数据不说谎,做数据的人也不想说谎,但是读数据的人只想读到自己想读到的数据。    

数据量的影响    

统计量    

随着社会生活方式的巨大转变,目前研究者面对的问题已经从数据匮乏走向了另一个极端——数据量过大。在统计调查中,随着样本量的扩张,有时我们获得的结论可能仅具备统计学意义,却缺乏现实意义。下面我们以研究者基于样本均值来检验关于位置总体的假设统计,以t统计量为例(该问题也存在于其他统计量中,如z),t统计量的公式为。从公式中可以看出,其他因素不变,n越大,t越大,随着样本量变大,将会影响t检验的统计学意义。

表为黑色金属和有色金属价格变化幅度独立样本t检验    

表中选择了对黑色金属和有色金属的价格变化幅度进行t检验,仅仅是数据的多次重复就可以使得p值(Sig)在样本量扩大(4扩大到48)之后降低至0.05以下,达到了统计学上的显著性。如果只留存第二行数据,以此来说明问题,则会对结果产生一定程度的误导。    

效果量    

一般的统计检验方法是基于虚无假设的显著性检验进行的,但是这种方法只能告诉我们在假定某虚无假设为真的情况下,研究者所观察到的数据的概率大小,即p值,然后在p值基础上做出接受或拒绝虚无假设的二分决定。    

基于上文的例子,p值也受到样本量的影响,可能导致统计检验结果没有意义。为了弥补不足&#



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3