R语言基于逐步多元回归模型的天猫商品流行度预测 |
您所在的位置:网站首页 › 线性回归模型r方值的标准 › R语言基于逐步多元回归模型的天猫商品流行度预测 |
4.分析得出结论 得出各个自变量之间的关系,以及它们对因变量的影响及其意义。 流行度查看每个类别的出现频率作为流行度,通过直方图查看每个类别出现的频率: hist(datanew$category) 对每个类别出现的频数的多少进行排序: order(table(dataneg = T) datanew$pop= order( 然后将出现最多的流行度排序为1,然后根据类比的出现频数递增。流行度越大,则出现越少。 建立多元线性:imdb尝试通过最直观的解释建立模型: 进行多元线性模型并进行分析设置dummy 变量 : 从全变量模型可以看出大部分变量无法估计出其参数,说明部分变量不适合用来预测流行度,因此对其中的部分变量进行删减后。得到筛选后的回归模型。 筛选变量显示回归结果: 模型比较js **取对数后的结果** summary(lmmod2)显示回归结果 回归结果plot(datanew$category 回归结果分析从输出结果可以看出, 流行度和类别和品牌图片地址 有显著相关关系 ,可以看到他们的回归系p数在显著性水平0.05下均显著不为零。进一步地剩余方差的估计值,f统计量的估计值对应的p值< 2.2e-16说明,回归方程是显著的。可决系数R,修正的可决系数R为 0.1左右说明方程的拟合效果一般,还有部分的流行度被其他变量所解释。 回归结果 置信区间与预测区间:置信区间是给定自变量值后,由回归方程得到的的预测值(实际上是的平均值)的置信区间;预测区间是实际值的置信区间,在这里称为预测区间。预测区间要比置信区间稍大,命令与显示结果如下: head(predict(lm)) head(predict(lmmod 残差分析:残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。命令语句为plot(lm.1),显示结果如下 par(mfrow=c(2,2)) plot(lmmod2) 左上图是拟合值与残差的散点图,从图上可以发现,除去第2个离群点外,所有点基本上是随机地分散在纵坐标值为-1和+1的两条平行线之间,这说明随机误差项具有同方差性;左下图是拟合值与残差的标准差的散点图,其意义与上面类似;右上图表明随机误差项是服从正态分布的,其原因是正态Q-Q图近似地可以看成一条直线;右下图的CooK距离图进一步证实第2个观测值是一个离群点,它对回归方程的影响是比较大的,要根据具体问题,讨论出现这一观测值的实际背景。 逐步回归优化 使用逐步回归法建立“最优”的回归方程stepmod=step summary(stepmod)查看模型参数与结果 上面用“逐步向前向后回归法”,通过软件分析建立“最优”回归方程。向后回归法就是建立包含全部因子的回归方程,通过回归系数的检验,从回归方程中逐个剔除不显著的因子,直到留在方程中的因子都是显著的。 总结从分析结果可以看出, 流行度和类别和品牌图片地址有显著相关关系 ,因此可以认为在天猫购物时,用户会比较关注商品的品牌因素,因为天猫都是正品商铺,购买的用户会比较关注商品的品牌是否为正品等。同时,由于天猫的商品质量有一定的保证,因此用户也会关注该商品的图片,同一个商品可能会因为图片不同而造成不同的流行度。图片好看的商品会有更好的流行度。 最受欢迎的见解 1.R语言多元Logistic逻辑回归 应用案例 2.面板平滑转移回归(PSTR)分析案例实现 3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR) 4.R语言泊松Poisson回归模型分析案例 5.R语言混合效应逻辑回归Logistic模型分析肺癌 6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现 7.R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病 8.python用线性回归预测股票价格 9.R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测返回搜狐,查看更多 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |