热门数据挖掘模型应用入门（一）: LASSO回归

您所在的位置：网站首页 › lasso怎么读英语 › 热门数据挖掘模型应用入门（一）: LASSO回归

热门数据挖掘模型应用入门（一）: LASSO回归

2023-10-23 05:33| 来源: 网络整理| 查看: 265

热门数据挖掘模型应用入门（一）: LASSO回归 2016-10-10 20:46

作者简介：

侯澄钧，毕业于俄亥俄州立大学运筹学博士项目，目前在美国从事个人保险产品(Personal Line)相关的数据分析，统计建模，产品算法优化方面的工作。

模型简介

线性回归

Logistic回归

Elstic Net模型家族简介

学习资料

1.模型简介

Kaggle网站（https://www.kaggle.com/ ）成立于2010年，是当下最流行的进行数据发掘和预测模型竞赛的在线平台。与Kaggle合作的公司可以在网站上提出一个问题或者目标，同时提供相关数据，来自世界各地的计算机科学家、统计学家和建模爱好者，将受领任务，通过比较模型的某些性能参数，角逐出优胜者。通过大量的比赛，一系列优秀的数据挖掘模型脱颖而出，受到广大建模者的认同，被普遍应用在各个领域。在保险行业中用于拟合广义线性模型的LASSO回归就是其中之一。

LASSO回归的特点是在拟合广义线性模型的同时进行变量筛选(Variable Selection)和复杂度调整(Regularization)。因此，不论目标因变量(dependent/response varaible)是连续的(continuous)，还是二元或者多元离散的(discrete)，都可以用LASSO回归建模然后预测。这里的变量筛选是指不把所有的变量都放入模型中进行拟合，而是有选择的把变量放入模型从而得到更好的性能参数。复杂度调整是指通过一系列参数控制模型的复杂度，从而避免过度拟合(Overfitting)。对于线性模型来说，复杂度与模型的变量数有直接关系，变量数越多，模型复杂度就越高。更多的变量在拟合时往往可以给出一个看似更好的模型，但是同时也面临过度拟合的危险。此时如果用全新的数据去验证模型(Validation)，通常效果很差。一般来说，变量数大于数据点数量很多，或者某一个离散变量有太多独特值时，都有可能过度拟合。

LASSO回归复杂度调整的程度由参数λ来控制，λ越大对变量较多的线性模型的惩罚力度就越大，从而最终获得一个变量较少的模型。 LASSO回归与Ridge回归同属于一个被称为Elastic Net的广义线性模型家族。这一家族的模型除了相同作用的参数λ之外，还有另一个参数α来控制应对高相关性(highly correlated)数据时模型的性状。 LASSO回归α=1，Ridge回归α=0，一般Elastic Net模型0

【本文地址】

热门数据挖掘模型应用入门（一）: LASSO回归

热门数据挖掘模型应用入门（一）: LASSO回归

今日新闻

推荐新闻