[学习笔记]多元线性回归分析 |
您所在的位置:网站首页 › excel多元回归分析步骤2022 › [学习笔记]多元线性回归分析 |
回归分析是数据分析中最基础最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。回归分析的任务就是,通过研究自变量x和因变量y的相关关系,尝试去解释y的形成机制,进而达到通过x去预测y的目的。 常见的回归分析有:线性回归、0-1回归、定序回归、计数回归和生存回归,其划分的依据是因变量y的类型。 本文没有大量的公式推导,更多的是感性的理解(主要是打公式太难了,哭) 1.2回归分析与相关性分析 回归性分析与相关性分析研究的目的不同,相关性是研究两个或者两个以上处于同等地位的随机变量间的相关关系的统计分析方法。例如:人的身高和体重之间。而回归分析侧重于研究随机变量间的依赖关系,以便去用一个变量去预测另一个变量。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。 1.3 回归分析研究的问题 (i)建立因变量y与自变量x1,x2…xm之间的回归模型(经验公式); (ii)对回归模型的可信度进行检验; (iii)判断每个自变量xi对y的影响是否显著; (iv)诊断回归模型是否适合这组数据; (v)利用回归模型对y进行预报或控制; 可以将回归分析的作用归纳为:识别重要变量、判断相关性的方向、估计权重(回归系数) 2. 基础知识 2.1 数据表的基础知识 2.2数据的标准化处理 2.2.1数据的中心化处理 数据中心化处理就是使得样本的均值变成0,这样不会改变样本点的相互位置,也不改变相关性,却给技术上提供了便利。 2.2.2 数据无量纲化处理 为了使得每一个变量都有同等的表现力,消除量纲效应,在数据分析中对量纲进行压缩处理,使得每个变量的方差变成1,即: 2.2.3 标准化处理 就是对数据同时进行中心化和压缩处理,即; 3. 线性回归模型 3.1 一元线性回归 3.1.1一元线性回归模型与最小二乘法估计 模型: 3.1.2拟合效果的分析 3.1.2.1残差的样本方差 残差是原始数据与对应回归方程的值之间的差值(下图红圈处就是一个残差),残差的样本均值为0,残差的样本方差用MSE来表示(方差之和除以n-2,因为是n-2个自由度)。 3.1.2.2判定系数(拟合优先度) 变异程度(variation)是观测值与一个中心值散布或分散的量。也就是各个值与平均值的差值。在这里用样本方差来描述这种变异。因此我们可以通过观测值的变异程度与回归方程得到的拟合值的变异程度做比较来得到一个数据,用来说明该回归方程拟合的好坏。 3.1.2.3显著性检验 回归模型的线性关系检验: 在拟合回归方程之前,我们曾假设数据总体是符合线性正态误差模型,也就是说y和x之间是线性关系,符合: 回归系数的显著性检验: 对于回归方程的检验包括两个方面:一个是对模型的检验,也就是上面的检验。另一个是对模型的回归参数进行检验,即是检验每一个自变量对因变量的影响程度是否显著。采用的方法是t分布检验。检验过程略。 3.2多元线性回归 3.2.1多元线性回归模型为: 3.2.2 参数估计 同样是用最小二乘法估计,求误差平方和的最小值。求最小值过程略(反正是用计算机算的,笑)。 3.2.3 回归分析的假设检验 就是检验模型是否合理,如同一元线性回归方程的假设检验,针对每个beta进行假设。令H0:beta j=0(j=1,…,m)同样利用F检验。但是注意,接受H0只能说明y与x1…xm的线性关系不明显,可能存在非线性关系。 还有一些衡量y与x1,…,xm 相关程度的指标,如用回归平方在总平方和中的比值定义复判定系数。 4. 利用回归模型进行预测 当回归模型和系数通过检验过后,可由给定的x0(一套x确定值,从回归方程的第一个x1到最后一个xm)预测y0,y0是随机的。 如果是点预测,显然其预测值为: |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |