完整的R语言预测建模实例

2024-06-14 01:17| 来源: 网络整理| 查看: 265

概述

本文使用Kaggle上的一个公开数据集，从数据导入，清理整理一直介绍到最后数据多个算法建模，交叉验证以及多个预测模型的比较全过程，注重在实际数据建模过程中的实际问题和挑战，主要包括以下五个方面的挑战：

缺失值的挑战异常值的挑战不均衡分布的挑战(多重)共线性的挑战预测因子的量纲差异

以上的几个主要挑战，对于熟悉机器学习的人来说，应该都是比较清楚的，这个案例中会涉及到五个挑战中的缺失值，量纲和共线性问题的挑战。

案例数据说明

本案例中的数据可以在下面的网址中下载： https://www.kaggle.com/primaryobjects/voicegender/downloads/voicegender.zip 下载到本地后解压缩会生成voice.csv文件下面首先大概了解一下我们要用来建模的数据数据概览数据共包含21个变量，最后一个变量label是需要我们进行预测的变量，即性别是男或者女前面20个变量都是我们的预测因子，每一个都是用来描述声音的量化属性。下面我们开始我们的具体过程 ##步骤1：基本准备工作## 步骤1主要包含以下三项工作：

设定工作目录载入需要使用的包准备好并行计算 ### the first step: set your working directory setwd("C:/Users/chn-fzj/Desktop/R Projects/Kaggle-Gender by Voice") ### R中的文件路径应把Windows系统默认的"\"替换为"/" ### load packages to be used, if not installed, please use ##install.packages("yourPackage") require(readr) require(ggplot2) require(dplyr) require(tidyr) require(caret) require(corrplot) require(Hmisc) require(parallel) require(doParallel) require(ggthemes) # parallel processing set up n_Cores

【本文地址】

完整的R语言预测建模实例

完整的R语言预测建模实例

今日新闻

推荐新闻