回归分析

您所在的位置:网站首页 r语言中的回归分析 回归分析

回归分析

2024-05-26 13:24| 来源: 网络整理| 查看: 265

R中的简单线性回归

简单线性回归被用于预测一个量化结果y基于一个单一预测变量的x。目标是建立将y定义为x变量的函数的数学模型(或公式)。

建立了具有统计意义的模型,就可以根据新的x值将其用于预测未来结果。

考虑到这一点,我们想评估三种媒体(youtube,facebook和newspaper)的广告预算对未来销售的影响。这个问题的例子可以用线性回归建模。

公式和基础

线性回归的数学公式可以写成y = b0 + b1*x + e,其中:

b0并b1称为回归beta系数或参数: b0是回归线的截距;是时的预测值x = 0。 b1是回归线的斜率。 e是误差项(也称为残差),y的一部分可以由回归模型解释

下图说明了线性回归模型,其中:

最佳拟合回归线为蓝色 截距(b0)和斜率(b1)以绿色显示 误差项(e)用垂直红线表示 线性回归

从上面的散点图可以看出,并不是所有的数据点都精确地落在拟合的回归线上。有些点在蓝色曲线的上方,而有些点在蓝色曲线的下方。总体而言,残余误差(e)的平均值约为零。

残留误差的平方和称为残差平方和或Residual Sum of Squares RSS。

拟合回归线周围的点的平均变化称为残差标准误差(Residual Standard Error, RSE)。这是用于评估拟合回归模型整体质量的指标之一。RSE越低越好。

由于平均误差项为零,因此可以近似估算出结果变量y,如下所示:

y ~ b0 + b1*x

在数学上,确定beta系数(b0和b1),以使RSS尽可能小。确定β系数的这种方法在技术上称为最小二乘回归或普通最小二乘(OLS)回归。

一旦计算出β系数,就进行t检验以检查这些系数是否显着不同于零。Beta系数非零表示在预测变量(x)与结果变量(y)之间存在显着关系。

加载所需的R包

加载所需的软件包:

tidyverse 用于数据处理和可视化 ggpubr:轻松创建发表级图片 library(tidyverse) library(ggpubr) theme_set(theme_pubr()) 示例数据和问题

我们将使用marketing数据集[datarium包]。它包含三种广告媒体(youtube,facebook和报纸)对销售的影响。数据是连同销售一起的数千美元的广告预算。广告实验已用不同的预算重复了200次,并记录了观察到的销售额。

首先datarium使用来安装软件包devtools::install_github("kassmbara/datarium"),然后marketing按照以下步骤加载和检查数据:

这里可以直接运行 install.packages("datarium") 安装

检查数据:

# Load the package data("marketing", package = "datarium") head(marketing, 4) ## youtube facebook newspaper sales ## 1 276.1 45.4 83.0 26.5 ## 2 53.4 47.2 54.1 12.5 ## 3 20.6 55.1 83.2 11.2 ## 4 181.8 49.6 70.2 22.2

我们希望根据在YouTube上花费的广告预算来预测未来的销售量。

可视化 创建散点图,分别显示在三种媒体的广告投资与销售量的关系 添加平滑线 library("gridExtra") p1 cor(marketing$sales, marketing$newspaper) [1] 0.228299

相关系数测量两个变量x和y之间的关联水平。它的值介于-1(完全负相关:x增加时,y减小)和+1(完全正相关:x增加时,y增大)之间。

接近0的值表示变量之间的关系较弱。较低的相关性(-0.2



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3