机器学习

2023-09-30 10:04| 来源: 网络整理| 查看: 265

在机器学习中，对于特征选择的方法分为三类：过滤式（Filter），包裹式（Wrapper），和嵌入式（Embedding）。过滤式方法是先按照某种规则对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关，这相当于先用特征选择过程对初始特征进行“过滤”，再用过滤后的特征来训练模型。相关系数法、卡方检验法和互信息法是进行特征选择时常用的几种过滤式方法。

变量关系

协方差

线性相关系数

互信息

卡方检验和卡方分布

变量关系

先从变量之间的关系来说明，变量之间的关系可分为两类：

（1）存在完全确定的关系——称为函数关系，即类似于Y=2X+3；

（2）不存在完全确定的关系——虽然变量间有着十分密切的关系，但是不能由一个或多各变量值精确地求出另一个变量的值，那么这种关系称为相关关系，存在相关关系的变量称为相关变量。相关变量的关系也可分为两种：

（1）两个及以上变量间相互影响——平行关系；

（2）一个变量变化受另一个变量的影响——依存关系；

它们对应的分析方法：

相关分析是研究呈平行关系的相关变量之间的关系

回归分析是研究呈依存关系的相关变量之间的关系

在这里我们主要研究变量与变量之间的相关分析，如下图，比如要买房的人越多，房价就越高，两者的关系称为正相关；从出生率和城镇化率我们可以看出是负相关。

类似上图中的这种相关性可以通过协方差和相关系数来具体表示和计算。

协方差

在概率论中，两个随机变量 X 与 Y 之间相互关系，大致有下列3种情况：

当 X, Y 的联合分布像左图那样时，大致上有： X 越大 Y 也越大， X 越小 Y 也越小，这种情况，我们称为“正相关”。

当X, Y 的联合分布像中间图那样时，大致上有：X 越大Y 反而越小，X 越小 Y 反而越大，这种情况，我们称为“负相关”。

当X, Y 的联合分布像右图那样时，既不是X 越大Y 也越大，也不是 X 越大 Y 反而越小，这种情况我们称为“不相关”。

同样将这3种相关情况，用一个简单的数字表达出来呢？，令 EX、EY 分别是 X 和 Y 的期望值。什么是期望呢？在这里我们可以把它看成是平均值，即 EX 是变量 X 的平均值，EY 是变量 Y 的平均值

在图中的区域（1）中，有 X>EX ，Y-EY>0 ，所以(X-EX)(Y-EY)>0；

在图中的区域（2）中，有 X0 ，所以(X-EX)(Y-EY)

【本文地址】

机器学习

机器学习

今日新闻

推荐新闻