主成分回归笔记

2023-11-03 23:34| 来源: 网络整理| 查看: 265

关于主成分分析，请参考我之前的文章。

主成分回归（PCR）是多元线性回归（MLR）的替代方法，相对于MLR具有许多优势。

1. 什么是主成分回归，为什么要使用它？主成分回归最初是由肯德尔（Kendall，1957）提出的。前提是使用对回归变量执行的主成分分析结果，并将输出用作新的回归变量。这样，自变量是正交的，并确保计算更容易，更稳定（Jolliffe（1982））。

线性回归中的PCA已用于实现两个基本目标。第一个是在预测变量数量过多的数据集上执行的。它已成为减少维度和偏最小二乘回归的一种方法。另外，为了减小尺寸，还有一些方法，例如岭回归，套索和使用罚分法的剩余回归模型（H. Lee，Park和Lee（2015））。 PCR的第二个目标是消除变量之间的共线性。由于每个随后的主要成分都是正交的，因此已使用PCR来防止因回归中假设的独立变量之间的依赖性而引起的错误（Hadi和Ling（1998））。

在选择合适的主要成分数量时，研究人员并非一致。一种方法是选择最佳主成分，就好像它们是常规变量一样。另一则指出，最好选择能够确定最大方差的第一个确定数量的PC（Hadi和Ling（1998））。这导致拒绝一些解释低方差的主要成分。然而，这种方法受到了批评，因为那些被拒绝的PC实际上可能是与因变量相关的PC（H。Lee，Park和Lee（2015））

PCR的优势：

因为PC，W1，…，Wm是正交的，多重共线性问题完全消失了，无论实际使用多少个PC，回归方程将始终包含X中的所有变量因为每个PC是X中变量的线性组合。由Z’Z的特征向量形成）。由于使用了正交PC，PCR可能会提高回归估计的数值准确性。

PCR步骤：

步骤1：执行PCA来创建PC作为我们的新输入. 步骤2：使用这些PC作为输入功能来训练我们的线性回归模型。步骤3：现在，我们将这些PC转换回原始输入功能，以便对实际数据集进行预测。

PCR基本上是使用PCA，然后在这些新PC上执行线性回归。因此，PCR和PCA所使用的方法没有显着差异，它们实质上包含相同的概念。

按照通常的表示法，假设我们的回归方程可以用矩阵形式写成 Y = XB + e 其中Y是因变量，X代表自变量，B是要回归的系数估计，e代表误差或残差。

在普通最小二乘法中，回归系数使用以下公式估算 B =（X’X）^− 1^ X’Y 由于变量是标准化的，因此X’X = R，其中R是独立变量的相关矩阵变量。

为了执行主成分（PC）回归，我们将自变量转换为其主成分。数学上，我们写 X’X = PDP’= Z’Z

其中D是X’X的特征值的对角矩阵，P是X’X的特征向量矩阵，Z是数据由主要成分组成的矩阵（结构与X相似）。 P是正交的，所以P’P =I。

我们已经创建了新变量Z作为原始变量X的加权平均值。这对我们来说并不是什么新鲜事物，因为在执行回归计算之前，我们习惯对数据值使用对数和平方根之类的转换。由于这些新变量是主要成分，因此它们彼此之间的相关性均为零。如果我们以变量X1，X2和X3开头，则将以Z1，Z2和Z3结尾。

为了消除多重共线性的数据，我们省略了与小特征值相关的分量（z）。通常，将仅获得一个或两个相对较小的特征值。例如，如果在一个具有三个自变量的问题上仅检测到一个小的特征值，我们将省略Z3（第三主成分）。

当我们在Z1和Z2上回归Y时，多重共线性不再是问题。然后，我们可以将结果转换回X尺度，以获得B的估计值。这些估计值将带有偏差，但我们希望这种偏差的大小可以通过方差的减少而得到更多补偿。也就是说，我们希望这些估计的均方误差小于最小均方误差。

在数学上，估计公式变为 A =（Z’Z）^− 1^ Z’Y = D ^− 1 ^Z’Y 因为主要成分的特殊性。注意，这是应用于不同自变量集的普通最小二乘回归。两组回归系数A和B使用公式A = P’B关联和B = PA

省略主成分可以通过将A的对应元素设置为零来实现。

因此，可以将主成分回归概述如下： 1.完成X矩阵的主成分分析并将主成分保存在Z中。 2.将Y的回归拟合到Z，以获得A的最小二乘估计。 3.将A的最后一个元素设置为零。 4.使用B = PA变换回原始系数。

【本文地址】

主成分回归笔记

主成分回归笔记

今日新闻

推荐新闻