R语言高维数据的主成分pca、 t

您所在的位置：网站首页 › r语言可视化分析案例 › R语言高维数据的主成分pca、 t

R语言高维数据的主成分pca、 t

#R语言高维数据的主成分pca、 t| 来源: 网络整理| 查看: 265

## ---

## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

检验统计量在5％水平上是显着的，因此我们可以拒绝零假设（区域对特征没有影响）。

酿酒厂的地理位置

由于区域对威士忌起着重要作用，我们将通过绘制其纬度和经度来探索数据集中的酿酒厂所在的位置。以下苏格兰威士忌地区存在：

PCA

使用PCA可视化威士忌数据集：

在第二个图中，我们将绘制酿酒厂的标签，以便我们可以更详细地解释类别。

点击标题查阅往期内容

R语言主成分PCA、因子分析、聚类对地区经济研究分析重庆市经济指标

左右滑动查看更多

总的来说，主成分似乎反映了以下特征：

PC1表示味道的强度：如烟熏味，药用味（如Laphroaig或Lagavulin）与温和味道（如Auchentoshan或Aberlour） PC2表示味道的复杂性：即味道特征（例如Glenfiddich或Auchentoshan）与更具特色的味道特征（例如Glendronach或Macallan）

## Cluster Campbeltown Highlands Islands Islay Lowlands Speyside

## 1 1 2 17 2 2 0 19

## 2 2 0 8 2 1 3 22

## 3 3 0 2 2 4 0 0

对类别的合理解释如下：

群集1：复合威士忌，主要来自Highlands / Speyside 群集2：均衡的威士忌，主要来自斯佩塞德和高地群集3：烟熏威士忌，主要来自艾莱岛

可视化有两个有趣的观察结果：

Oban和Clynelish是唯一一个类似于艾莱岛酿酒厂口味的高地酿酒厂。 Highland和Speyside威士忌主要在一个方面不同。在一个极端是平滑，均衡的威士忌，如Glenfiddich。在另一个极端是具有更有特色的味道，如麦卡伦。

这包含了我们对PCA的可视化研究。我们将在本文末尾研究使用PCA进行预测。

核PCA

内核PCA（KPCA）是PCA的扩展，它利用了内核函数，这些函数在支持向量机上是众所周知的。通过将数据映射到再现内核Hilbert空间，即使它们不是线性可分的，也可以分离数据。

在R中使用KPCA

要执行KPCA，我们使用包中的kpca函数kernlab。

使用此核，可以按如下方式减少维数：

检索到新维度后，我们现在可以在转换后的空间中可视化数据：

就可视化而言，结果比我们使用常规PCR获得的结果稍微粗糙一些。尽管如此，来自艾莱岛的威士忌分离得很好，我们可以看到斯佩塞特威士忌的集群，而高地威士忌则分布较广。

T-SNE

t-SNE已成为一种非常流行的数据可视化方法。

使用t-SNE可视化数据

在这里，我们将威士忌数据集的维度降低到两个维度：

与PCA相比，簇的分离更加清晰，特别是对于簇1和簇2。

对于t-SNE，我们必须进行解释：

V1表示味道复杂性。这里的异常值是右侧的烟熏艾莱威士忌（例如Lagavulin）和左侧复杂的高地威士忌（例如麦卡伦）。 V2表示烟熏/药用味道。

使用PCA进行监督学习

PCA是独立完成的，这一点至关重要。因此，需要遵循以下方法：

为此，我们将使用ķ最近邻模型。此外，因为所有的变量是在特征空间[0,4]。我们必须优化k，因此我们还预留了用于确定此参数的验证集。

PCA转换

首先，我们编写一些函数来验证预测的性能。

get.accuracy

【本文地址】

R语言高维数据的主成分pca、 t

R语言高维数据的主成分pca、 t

今日新闻

推荐新闻