R语言数据分析系列之七

#R语言数据分析系列之七| 来源: 网络整理| 查看: 265

R语言数据分析系列之七 —— by comaple.zhang

回归分析建模是数据分析里面很重要的一个应用之一，即通过使用已有的自变量的值建立某种关系，来预测未知变量（因变量）的值。如果因变量是连续的那就是回归分析，如果因变量为离散的，可以理解为是分类。在机器学习算法中，不管是连续变量预测还是离散的变量预测，我们都称之为有监督学习。

回归分析可以用来做广告点击率预测也可以用来做销量预测，app各种指标预测，或者库存量，分仓铺货预测等。既然如此神奇，那么我们就来看一下回归是如何做到的。

数据集

我们本节利用women数据集，做一些简单的预测。

一元线性回归分析

输入：一元自变量x，一元因变量y，寻找y与x的关系，

线性模型假设：

模型误差：

目标：找到参数w和b使得误差平方和最小即

方法：最小二乘法，为了求得w,b使得上式成立，我们可以对参数求偏导数，令偏导数等于零，来求解。

在R语言里面线性回归可以用lm函数来拟合数据集，假如我们要预测女性身高对体重的影响，那么可以建模为简单地线性模型即：weight = w * height + b用R语言来实现很简单如下：

fit |t|)

(Intercept) -87.51667 5.93694 -14.74 1.71e-09 ***

height 3.45000 0.09114 37.85 1.09e-14 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’1

Residual standard error: 1.525 on 13degrees of freedom

Multiple R-squared: 0.991, AdjustedR-squared: 0.9903

F-statistic: 1433 on 1 and 13 DF, p-value: 1.091e-14

在summary的结果中我们可以看到，Intercept截距为b的值，height即为w的值

结果验证：

有了这个模型是否适合呢，或者适合的程度有多大，我们从summary的结果可以分析得到，首先是Residual standard error，值得是预测结果和实际值得残差的均方值即RMSE该值越小证明模型越好，AdjustedR-squared:该值为r方值，也就是自变量与因变量的相关程度，可理解为模型对数据集的解释程度，p-value: 该值为T检验，一般认为|t|）该值是对应参数的T检验，明显小于0.005各参数均通过检验。最后上图如下：

【本文地址】

R语言数据分析系列之七

R语言数据分析系列之七

今日新闻

推荐新闻