R语言高维数据的主成分pca、 t

您所在的位置:网站首页 r语言可视化分析案例 R语言高维数据的主成分pca、 t

R语言高维数据的主成分pca、 t

#R语言高维数据的主成分pca、 t| 来源: 网络整理| 查看: 265

## ---

## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

检验统计量在5%水平上是显着的,因此我们可以拒绝零假设(区域对特征没有影响)。

酿酒厂的地理位置

由于区域对威士忌起着重要作用,我们将通过绘制其纬度和经度来探索数据集中的酿酒厂所在的位置。以下苏格兰威士忌地区存在:

PCA

使用PCA可视化威士忌数据集:

在第二个图中,我们将绘制酿酒厂的标签,以便我们可以更详细地解释类别。

点击标题查阅往期内容

R语言主成分PCA、因子分析、聚类对地区经济研究分析重庆市经济指标

左右滑动查看更多

01

02

03

04

总的来说,主成分似乎反映了以下特征:

PC1表示味道的强度: 如烟熏味,药用味(如Laphroaig或Lagavulin)与温和味道(如Auchentoshan或Aberlour) PC2表示味道的复杂性: 即味道特征(例如Glenfiddich或Auchentoshan)与更具特色的味道特征(例如Glendronach或Macallan)

## Cluster Campbeltown Highlands Islands Islay Lowlands Speyside

## 1 1 2 17 2 2 0 19

## 2 2 0 8 2 1 3 22

## 3 3 0 2 2 4 0 0

对类别的合理解释如下:

群集1: 复合威士忌,主要来自Highlands / Speyside 群集2: 均衡的威士忌,主要来自斯佩塞德和高地 群集3: 烟熏威士忌,主要来自艾莱岛

可视化有两个有趣的观察结果:

Oban和Clynelish是唯一一个类似于艾莱岛酿酒厂口味的高地酿酒厂。 Highland和Speyside威士忌主要在一个方面不同。在一个极端是平滑,均衡的威士忌,如Glenfiddich。在另一个极端是具有更有特色的味道,如麦卡伦。

这包含了我们对PCA的可视化研究。我们将在本文末尾研究使用PCA进行预测。

核PCA

内核PCA(KPCA)是PCA的扩展,它利用了内核函数,这些函数在支持向量机上是众所周知的。通过将数据映射到再现内核Hilbert空间,即使它们不是线性可分的,也可以分离数据。

在R中使用KPCA

要执行KPCA,我们使用包中的kpca函数kernlab。

使用此核,可以按如下方式减少维数:

检索到新维度后,我们现在可以在转换后的空间中可视化数据:

就可视化而言,结果比我们使用常规PCR获得的结果稍微粗糙一些。尽管如此,来自艾莱岛的威士忌分离得很好,我们可以看到斯佩塞特威士忌的集群,而高地威士忌则分布较广。

T-SNE

t-SNE已成为一种非常流行的数据可视化方法。

使用t-SNE可视化数据

在这里,我们将威士忌数据集的维度降低到两个维度:

与PCA相比,簇的分离更加清晰,特别是对于簇1和簇2。

对于t-SNE,我们必须进行解释:

V1表示味道复杂性。这里的异常值是右侧的烟熏艾莱威士忌(例如Lagavulin)和左侧复杂的高地威士忌(例如麦卡伦)。 V2表示烟熏/药用味道。

使用PCA进行监督学习

PCA是独立完成的,这一点至关重要。因此,需要遵循以下方法:

为此,我们将使用ķ最近邻模型。此外,因为所有的变量是在特征空间[0,4]。我们必须优化k,因此我们还预留了用于确定此参数的验证集。

PCA转换

首先,我们编写一些函数来验证预测的性能。

get.accuracy



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3