正态分布对数据分析很重要!

您所在的位置:网站首页 为什么正态分布面积就是概率 正态分布对数据分析很重要!

正态分布对数据分析很重要!

2024-07-08 16:16| 来源: 网络整理| 查看: 265

转自:机器之心

大家好,我是阳哥。

我们从高中就开始学正态分布,现在做数据分析、机器学习还是离不开它,那你有没有想过正态分布有什么特别之处?为什么那么多关于数据科学和机器学习的文章都围绕正态分布展开?本文作者专门写了一篇文章,试着用易于理解的方式阐明正态分布的概念。

机器学习的世界是以概率分布为中心的,而概率分布的核心是正态分布。本文说明了什么是正态分布,以及为什么正态分布的使用如此广泛,尤其是对数据科学家和机器学习专家来说。

我会从最基础的内容开始解释,以便读者们理解为什么正态分布如此重要。

文章结构如下:

什么是概率分布?

什么是正态分布?

为什么变量如此青睐正态分布

如何用 Python 查看查看特征的分布?

其它分布变一变也能近似正态分布

先让我们来看一点背景知识:

1. 首先,要注意的最重要的一点是,正态分布也被称为高斯分布。

2. 它是以天才卡尔·弗里德里希·高斯(Carl Friedrich Gauss)的名字命名的。

3. 最后需要注意的是,简单的预测模型一般都是最常用的模型,因为它们易于解释,也易于理解。现在补充一点:正态分布因为简单而流行。

因此,正态概率分布很值得我们去花时间了解。

什么是概率分布?

想象我们正在自己的数据科学项目中构建感兴趣的预测模型:

如果我们想准确地预测变量,那么首先我们要了解目标变量的基本行为。

我们先要确定目标变量可能输出的结果,以及这个可能的输出结果是离散值(孤立值)还是连续值(无限值)。简单点解释就是,如果我们要评估骰子的行为,那么第一步是要知道它可以取 1 到 6 之间的任一整数值(离散值)。

然后下一步是开始为事件(值)分配概率。因此,如果一个值不会出现,则概率为 0%。

概率越高,事件发生的可能性就越大。

举个例子,我们可以大量重复一个实验,并记录我们检索到的变量值,这样概率分布就会慢慢展现在我们的面前。

每次实验产生一个值,这些值可以分配到类别/桶中了。对每个桶来说,我们可以记录变量值出现在桶里的次数。例如,我们可以扔 10,000 次骰子,每次骰子会产生 6 个可能的值,我们可以创建 6 个桶。并记录每个值出现的次数。

我们可以根据这些值作图。所作曲线就是概率分布曲线,目标变量得到一个值的概率就是该变量的概率分布。

理解了值的分布方式后,就可以开始估计事件的概率了,甚至可以使用公式(概率分布函数)。因此,我们可以更好地理解它的行为。概率分布依赖于样本的矩,比如平均值、标准差、偏度及峰度。如果对所有概率求和,总和为 100%。

现实世界中存在很多概率分布,最常用的是「正态分布」。

什么是正态概率分布?

如果对概率分布作图,得到一条倒钟形曲线,样本的平均值、众数以及中位数是相等的,那么该变量就是正态分布的。

这是正态分布钟形曲线的示例:

9f283c60640b4f30da314eb932eef16c.png

上面是一个变量的高斯分布图形,像神经网络那样上百万的参数量,每个参数都有自己独立的分布形状,还有极其恐怖的联合分布形状。这种高维联合分布就主导了不同任务的表现,因此理解和估计目标变量的概率分布是很重要的。

以下变量非常接近正态分布:

1. 人群的身高

2. 成年人的血压

3. 扩散后的粒子的位置

4. 测量误差

5. 人群的鞋码

6. 员工回家所需时间

此外,我们周围的大部分变量都呈置信度为 x% 的正态分布(x



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3