R语言数据分析系列之七

您所在的位置:网站首页 r语言的lm是什么意思 R语言数据分析系列之七

R语言数据分析系列之七

#R语言数据分析系列之七| 来源: 网络整理| 查看: 265

R语言数据分析系列之七 —— by comaple.zhang

回归分析建模是数据分析里面很重要的一个应用之一,即通过使用已有的自变量的值建立某种关系,来预测未知变量(因变量)的值。如果因变量是连续的那就是回归分析,如果因变量为离散的,可以理解为是分类。在机器学习算法中,不管是连续变量预测还是离散的变量预测,我们都称之为有监督学习。

回归分析可以用来做广告点击率预测也可以用来做销量预测,app各种指标预测,或者库存量,分仓铺货预测等。既然如此神奇,那么我们就来看一下回归是如何做到的。

数据集

我们本节利用women数据集,做一些简单的预测。

 

 

一元线性回归分析

输入:一元自变量x,一元因变量y,寻找y与x的关系,

线性模型假设:

模型误差:

目标:找到参数w和b使得误差平方和最小即

方法:最小二乘法,为了求得w,b使得上式成立,我们可以对参数求偏导数,令偏导数等于零,来求解。

 

在R语言里面线性回归可以用lm函数来拟合数据集,假如我们要预测女性身高对体重的影响,那么可以建模为简单地线性模型即:weight = w * height + b用R语言来实现很简单如下:

fit |t|)   

(Intercept) -87.51667    5.93694 -14.74 1.71e-09 ***

height        3.45000    0.09114  37.85 1.09e-14 ***

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’1

 

Residual standard error: 1.525 on 13degrees of freedom

Multiple R-squared:  0.991,       AdjustedR-squared:  0.9903

F-statistic:  1433 on 1 and 13 DF,  p-value: 1.091e-14

在summary的结果中我们可以看到,Intercept截距为b的值,height即为w的值

结果验证:

有了这个模型是否适合呢,或者适合的程度有多大,我们从summary的结果可以分析得到,首先是Residual standard error,值得是预测结果和实际值得残差的均方值即RMSE该值越小证明模型越好,AdjustedR-squared:该值为r方值,也就是自变量与因变量的相关程度,可理解为模型对数据集的解释程度,p-value: 该值为T检验,一般认为|t|)该值是对应参数的T检验,明显小于0.005各参数均通过检验。最后上图如下:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3