数据分析

2023-03-11 07:04| 来源: 网络整理| 查看: 265

适用背景：在数据分析时，我们往往会遇到以下场景——原始数据指标属性、量纲差异过大，此时若直接使用原始指标数据做分析，会导致结论的准确性大幅下滑，通俗来讲就是此时原始指标数据不具可对比性。为了使原数据有可比性，保证结果的可靠性，我们在分析数据之前，需要对原始变量进行一定的处理，即数据的标准化处理。

一、定义

数据的标准化，是通过一定的数学变换方式，将原始数据按照一定的比例进行转换，使之落入/映射到一个小的特定区间内，例如0~1或-1~1的区间内，消除不同变量之间性质、量纲、数量级等特征属性的差异，将其转化为一个无量纲的相对数值，也就是标准化数值，使各指标的数值都处于同一个数量级别上，从而便于不同单位或数量级的指标能够进行综合分析和比较。总结：将不同量级或不同性质的原始数据转化为同性质同量级的新数据的数据整理方法。

二、类型数据标准化处理主要包括指标一致化处理和无量纲化处理两种类型。1、指标一致化处理

主要解决的是数据之间不同性质的问题。根据数据指标的作用，可以分为正指标和逆指标两种。正指标，数值越大越好，例如访问购买率、下单转化率。逆指标则恰好相反，数值越小越好，例如跳失率、人口死亡率。当原始数据中既有正指标，又有逆指标时，我们可以该表逆指标的性质和方向，使得所有指标的性质和方向一致。针对逆指标一致化处理的方法主要有两种：

倒数一致化。即对原始数据取倒数，X’ = 1 / X（x>0）减法一致化。即增加一个上界值（在原始数据的允许范围内，例如原始数据的范围在0-100，我们可以设定上界值120），依次减去每一个原始数据，X’ = M - X

（注意：倒数一致化常常会改变原始数据的分散程度（又叫离中趋势，指一组数据远离其中心值的程度。数据的分散程度越小，集中趋势的测度值对这组数据的代表性就越好），这种改变会夸大或缩小原始数据的实际差异，降低准确性。减法一致化则不会影响原始数据的分散程度。）

2、无量纲化处理

数据无量纲化处理，主要解决数据之间可比性的问题，也是数据分析的工作中的常见问题。

由于不同变量自身的量纲不同，数据的量级存在较大差异，无法直接进行比较（例如曝光量和下单金额）。因此，为了消除不同变量量纲的影响，比较不同变量之间的作用和关系，就需要对数据进行无量纲化处理，将其转化为无量纲的纯数值来进行分析。常用的数据处理方法有：2.1、极差标准化法适用条件：最大值最小值已知，无超出取值范围的离群值（指在原数据组中有一个或几个与其他数值差异较大的数值）。处理后的数据变化范围为0≤X’≤1。具体公式：极差R=Xmax-XminX’ = (X-Xmin) / R例：在某月的闲时商户激励项目中，我们需要同时看商户增长量和商户流水增长额，两组数据各占50%的权重。这个时候由于两组数据量纲不同，我们不能直接各乘50%来做排名。而是需要用极差标准化对两组变量做处理，而后各乘50%相加得出新的加权数据，以加权数据做排名。

方便举例所做的虚拟案例数据，非真实数据

2.2、Z-score标准化法当我们遇到某个指标的最大值和最小值未知的情况时，或者有超出取值范围的离群数值的时候，不适合再用极差标准化方法，而需使用Z-score标准化的方法，也叫标准差标准化法。经过Z-score标准化后，数据将符合标准正态分布，即将有约一半观察值的数值小于0，另一半观察值的数值大于0，变量的均值为0，标准差为1，变化范围为-1≤X’≤1。在SPSS中，默认的标准化方法就是Z-score标准化法。操作步骤如下：

Analyze（分析） → Descriptive Statistics（描述性统计） → Descriptives（数据描述）将分析变量Y选入Variable(s)框中，并勾选Save standardized values as variables，点击OK完成

图片来源于网络，如侵删变量列表中生成一列新变量ZY，即Zscore（Y），也就是经过Z-score标准化转化后生成的新变量。新变量按正负、数值大小正常排序即可。

图片来源于网络，如侵删

（Z-score标准化的两张图片均来源于网络，如侵删）

三、常见问题数据无量纲化处理后，会改变原始数据的规律吗？

极差/Z-score标准化处理本质是一种线性变换（将原始数据“缩小”映射至某数值空间），线性变换后不会改变原数据的规律和排序，反而可以像放大镜一样放大数据的表现（使得数据更清晰）。

如果单纯想消除变量的自身量纲影响，用极差标准化处理还是Z-score标准化法？

如果有离群数值，可适当使用Z-score标准化处理。如果没有，则用极差标准化处理。因为极差对离群数值的“敏感性”非常高，所以在存在离群数值的情况使用极差标准化法，会导致数据分析的准确性大幅降低。当然，Z-score标准化处理方法也会受到离群数值影响，但是相对于极差标准化处理方法而言，影响较低。

如果变量中含离群值，用什么方法分析数据？

方法一：简单粗暴，去掉离群值。再对变量做标准化处理（删除离群值也意味着部分数据丢失，一定程度上会影响分析结论精准性和客观性）。方法二：替换离群值。例如选择某些指定数值（众数、平均数、中位数、某些分位数等等）来替换离群数值。替换相对于删除而言，保留了这部分数据。其它：还有大佬推荐使用Robust标准化（适用于变量中存在异常值的情况），但是本人没有实操过，对这个方法也不甚了解，这里只做提及。

对想深入了解的小伙伴，推荐两篇参考文献（如侵删）：数据离群值的检验及处理方法讨论数据预处理（上）之离群值处理、标准化

【本文地址】

数据分析

数据分析

今日新闻

推荐新闻