概述
本文使用Kaggle上的一个公开数据集,从数据导入,清理整理一直介绍到最后数据多个算法建模,交叉验证以及多个预测模型的比较全过程,注重在实际数据建模过程中的实际问题和挑战,主要包括以下五个方面的挑战:
缺失值的挑战异常值的挑战不均衡分布的挑战(多重)共线性的挑战预测因子的量纲差异
以上的几个主要挑战,对于熟悉机器学习的人来说,应该都是比较清楚的,这个案例中会涉及到五个挑战中的缺失值,量纲和共线性问题的挑战。
案例数据说明
本案例中的数据可以在下面的网址中下载: https://www.kaggle.com/primaryobjects/voicegender/downloads/voicegender.zip 下载到本地后解压缩会生成voice.csv文件 下面首先大概了解一下我们要用来建模的数据 数据共包含21个变量,最后一个变量label是需要我们进行预测的变量,即性别是男或者女 前面20个变量都是我们的预测因子,每一个都是用来描述声音的量化属性。 下面我们开始我们的具体过程 ##步骤1:基本准备工作## 步骤1主要包含以下三项工作:
设定工作目录载入需要使用的包准备好并行计算
### the first step: set your working directory
setwd("C:/Users/chn-fzj/Desktop/R Projects/Kaggle-Gender by Voice")
### R中的文件路径应把Windows系统默认的"\"替换为"/"
### load packages to be used, if not installed, please use ##install.packages("yourPackage")
require(readr)
require(ggplot2)
require(dplyr)
require(tidyr)
require(caret)
require(corrplot)
require(Hmisc)
require(parallel)
require(doParallel)
require(ggthemes)
# parallel processing set up
n_Cores |