SPSS线性回归
一、线性回归的基本原理
如果自变量和因变量之间呈线性关系时,这时进行的回归分析就是线性回归,线性回归分析是分析因变量和自变量之间依存变化的数量关系的统计方法,估计包含一个或多个自变量的线性方程的系数,这些系数能最佳地预测因变量的值,它是回归分析中最基本、最简单的分析。
根据自变量个数的多少,分为一元线性回归和多元线性回归。在线性回归分析中,若只包括一个自变量和一个因变量,且两者的关系可用 一条直线近似表示,这种回归分析称为一元线性回归分析;若包括两个 或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
1 .一元线性回归的基本原理
在线性回归分析中,若只包括一个自变量和一个因变量,且两者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
任务就是根据一组样本中若干个观测值(x 1 ,y 1 )、(x 2 , y 2 ),…, (x n, y n )来找出一元线性回归的数学模型yi =β0+β1x i +ε i , i =1,2,n ,其中εi需要满足4个假设条件。
(1)正态性假设,即ε i服从均值为0 ,方差为σ2的正态分布。
(2)独立性假设,即ε i之间相互独立,满足COV( ε i ,ε j )=0(i ≠j )。
(3)无偏性假设,ε i的条件期望值为0。
(4)同共方差性假设,即ε i所有的方差都相同。
由一元线性回归的数学模型yi =β0+β1x i +ε i可知,由于解释变量x变化而引起的y的线性变化部分,即y i =β 0 +β 1x i; 由于随机误差或其他因素的变化而引起的y的线性变化部分,即εi 。
由于无偏性假设,εi的条件期望值为0 ,即E ( ε i)=0 ,所以对一元 线性回归的数学模型两边求期望,得到E(y i)=β0+β1x i ,这就是一元线性回归方程的形式。
一元线性回归方程就是用现有的观测量,来求得参数β0和β1的估计值和 ,就能得到一元线性经验方程 。
2 .多元线性回归的基本原理
在线性回归分析中,若包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
多元线性回归的数学模型y =β0 +β1x i1 +β2x i 2+…+β p x ip +εi , i =1 …, n ,由于解释变量x 的变化而引起的y 的线性变化部分,即y =β0+β1 1+β 2x i 2+ …+βp x ip ;由于随机误差或其他因素的变化而引起的y 的线性变化部分,即ε 。
由于无偏性假设,ε的条件期望值为0 ,即E ( ε i) =0 ,所以对多元线性回归的数学模型两边求期望,得到E(y )=β0+β1x 1+β2x 2+ …+βp ,这就是多元线性回归方程的形式。
多元线性回归方程就是用现有的观测量,来求得参数β 0 、β 1 、… 、β p 的估计值 、 、…、 ,就能得到多元线性经验方程。
二、方程系数的最小二乘估计
1 .一元线性方程
一元线性方程的最小二乘估计原则就是要求yi和 。根据取极值的必要条件,有的误差ej平方和达到最小,即 ,解上述的方程组,得到参数β0和β1的
求得参数拟合值后得到一元线性回归方程 。
2 .多元线性方程
与一元线性方程类似,多元线性回归方程的最小二乘估计原则就是要求yi和的误差ej平方和达到最小。
根据多元微积分的求极值原理,对Q求偏导数使其等于0 ,可以求得各个回归参数的估计值 、 、 、… ,具体求法不做讨论。
三、回归方程的检验
根据原始数据求得的线性回归方程后,需要对方程进行检验,对于一元线性回归方程检验的原假设是H0:β1=0, H1:β1 ≠0;对于所元线性回归方程检验的原假设H0:β1=β2= …=βP=0, H1:β1、β2 …βP不全为0 。主要有三种检验方法:相关系数的检验、F检验和t检验。
首先上式中,SST是因变量观测值和均值之间的差异的偏差平方和,SSR是回归平方和,是由变量x引起的偏差,SSE是剩余平方和,是由试验误差以及其他因素引起的偏差。
1 .相关系数的检验
对于一元线性回归方程相关系数定义为
是判定线性回归模型拟合优度的重要指标,相关系数表示的是回归平方和占总体平方和的比值,这比值表示的是因变量y的变异中有多少是由变量x引起的,即变量x可以解释的变异占总变异的百分比。
R2与SSR成正比,R2值越大,说明y和x之间的线性相关程度越高,即线性模型的拟合优度越好。R2如果为0,说明y与x没有线性关 系。对于多元线性回归方程相关系数定义为调整的
式中p和n-p -1分别是SSR和SST的自由度,调整的R2的数值大小的意义与 一元线性回归方程相关系数一样。
使用调整的R2的原因是在多元回归线性方程中随着解释变量x的引入,SSE必然会随之减少,相应的R2的数值会随之变大,为了消除因解释变量的个数对相关系数的影响,故用调整的R2来检验线性模型的拟合优度。
2 .F检验
SST=SSR+SSE ,回归平方和SSR和剩余平方和SSE除以各自的自由度后的比值,就得到F统计量。
(1)一元线性回归方程
确定显著性水平α后,可以确定临界值Fa(1,n−2),若F>Fa (1, n−2),拒绝原假设H0 ,表示回归效果在显著性水平α下显著;若 F<Fa(1, n−2),不能拒绝原假设H0 ,表示回归效果在显著性水平α下不显著。
(2)多元线性回归方程
确定显著性水平α后,可以确定临界值Fa(p , n−p−1),若F>F(p , n−p− 1),拒绝原假设H0 ,表示线性回归效果在显著性水平α下显著;若F<Fa (p , n-p -1),不能拒绝原假设H0 ,表示线性回归效果在显著性水平α下不显著。
3 .T 检验
(1)一元线性回归方程
在一元线性回归方程中
计算中2代替
在原假设成立的条件下,t 统计量为,确定显著性水平α后,可以确定临界值,若
拒绝原假设H0 ,表示线性回归效果在显著性水平α下显著;若
不能拒绝原假设H0 ,表示线性回归效果在显著性水平α下不显著。
(2)多元线性回归方程
在多元线性回归方程中,
SPSS线性回归计算中代替
σ2 ,。在原假设成立的条件下,t统计量为 ,确定显著性水平α后,可以确定临界值 ,若
拒绝原假设 H0 ,表示线性回归效果在显著性水平α下显著;若
不能拒绝原假设H0 ,表示线性回归效果在显著性水平α下不显著。
四、 模型假设的残差检验
残差是指回归方程计算得到的预测值与实际观测值之间的差距,这里主要是对前面残差的4个假设条件,正态性、独立性、无偏性和同共方差性进行检验。
1 .正态性假设
正态假设性检验εi服从均值为0 ,方差为σ2的正态分布,可以通过绘制残差图对残差的正态性假设进行检验,理论上在残差图中,近50%的残差为正,50%的残差为负;68%的残差要落在-1到1之间,96%残差要落在-2到2之间。
2 .独立性假设
独立性假设ε i之间相互独立,满足COV( ε i ,ε j)=0(i≠j),残差的 独立性检验首先可以通过残差散点图来验证,以估计值为横坐标,残差为纵坐标,观察点的分布情况,如果残差散点图中的点呈现某种趋势性 或规律性变化,说明残差不符合独立性假设。残差的独立性检验还可以通过Durbin-Watson(DW)检验,
DW的取值范围为0~4 ,当残差符合独立性假设时,DW ≈2;当残差存在正相关时,DW<2;当残差存在负相关时,DW>2。
3 .无偏性假设
无偏性假设εi的条件期望值为0 ,即E ( ε i)=0,当建立多元线性回归方程时,如果有两个或两个以上的解释变量之间存在线性相关关系,就会导致产生多重共线性现象。在这种情况下,用最小二乘法估计的参数很不稳定,通过容许度To1i=−或方差膨胀因子来验证是否存在共线性,式中的R2是用其他解释变量预测第i个解释变量的复相关系数。容许度和方差膨胀因子值互为倒数。容许度的值越小,
VIF的值就越大,解释变量xi和其他解释变量之间存在共线性的可能越大。当存在严重的共线性时,可以从存在共线性的解释变量中删除不重 要的变量,或者重新抽取样本增加样本量,最后就是采用其他方法拟合模型。
4 .同共方差性假设
同共方差性假设,即所有ε i的方差都相同。残差的方差齐性检验首 先可以通过残差散点图来检验,作图方式同独立性检验,如果点随机地分布在横轴的周围,说明残差基本符合同共方差性假设,如果呈现随着解释变量值的增加而增加(或减少)的趋势,说明残差不符合同共方差性假设。如果残差出现异方差的情况,就要先对解释变量进行适当的方差稳定变换后,再进行回归方程参数的估计。
五、参数设置
(1)打开数据文件,选择“分析” →“ 回归” →“线性” ,弹出“线性回归”对话框,如下图所示,各项含义如下。
● 因变量列表:将左侧的变量列表中的一个变量选入其中。
● 自变量列表:将左侧的变量列表中的一个或多个变量选入其中,同时,可以通过上一页必 按钮和下一页。心按钮切换,可以对自变量进行分组构建不同的模型,具体操作:先选择自变量进 入自变量列表,然后在方法栏中选择一种方法,单击下-页。N按钮,自变量列表会被清空,这时再选入其他的自变量,再在 方法栏中选择一种方法,这样就有两个自变量组,以此类推,可以建立多个自变量组,通过上一页必按钮就能查看前一个自变量组的设定。
● 方法栏的五种方法。
➢ 输入:将自变量列表中的自变量全部选入回归模型,系统默认。
➢ 逐步:先选择对因变量贡献最大,并满足判断条件的自
变量进入回归方程,然后将模型中符合剔除数据的变量 移出模型,重复进行直到没有变量被引入或剔除,得到回归方程。
➢ 删除:先建立全模型,然后根据设定的条件一步就剔除部分自变量。
➢ 后退:先建立全模型,根据选项对话框中设定的判定条件,每次将一个不符合条件的变量从模型剔除,重复进行直到没有变量被剔除,得到回归方程。
➢ 前进:模型从无自变量开始,根据选项对话框中设定的判定条件,每次将一个最符合条件的变量引入模型,直到所有符合判定条件的变量都进入模型,第一个引入模型的变量应该是与因变量最为相关的。
● 选择变量框:选入一个变量,单击按钮,出现“线性回归:设置规则”对话框,在下拉列表中有等于、不等于、晚于、小于或等于、大于、大于或等于,选择一种运算法则,在“值”框中输入一个值,只有被选入的变量满足指定条件的观测记录才会进入回归分析的过程。例如,选择变量,选择等于,并为该值输入10 ,那么只有那些选定变量值等于10的个案
才会包含在分析中。
● 个案标签:选入一个变量作为观测量标签,用于标识图上的点。
● WLS权重:选入一个变量作为权重变量,通过加权最小二乘法给观测值不同的权重值。
(2)单击 按钮,弹出“线性回归:统计”对话框,如下图所示,选择要输出的统计量,各项含义如下。
● 回归系数。
➢ 估计:输出回归系数、回归系数的标准误差、标准化回归系数、对回归系数的T检验及双侧检验的显著性概率等内容。
➢ 误差条形图的表征:输出每个回归系数指定置信度的置信区间。
➢ 协方差矩阵:输出回归系数的协方差矩阵和相关系数阵。
● 残差。
➢ Durbin-Watson:输出Durbin-Watson统计量,同时输出可能是异常值的诊断表。
➢ 个案诊断
✧ 离群值:设置异常值的判定依据,当残差超过n倍标准差时会判定是异常值,系统默认是3倍。
✧ 所有个案:输出所有观测量的残差值。
● 模型拟合度:对拟合过程中引入或剔除出模型的变量信息进行统计输出,包括复相关系数R ,其平方R2及其修正值、估计值 的标准误及ANOVA方差分析表,系统默认。
● R方变化:输出模型中引入或剔除一个自变量时R2的改变量,如果值大,说明进入或剔除的自变量是因变量的一个良好的预测变量。
● 描述性:输出描述统计量,包括有效个案数、均数、标准差、 相关系数矩阵及其单侧检验显著性水平矩阵。
● 部分相关和偏相关性:部分相关是对于因变量与某个自变量, 当已移去模型中的其他自变量对该自变量的线性效应之后,因变量与该自变量之间的相关性。偏相关是对于两个变量,在移去由于它们与其他变量之间的相互关联引起的相关性之后,这两个变量之间剩余的相关性。勾选此项,输出部分相关系数、 偏相关系数和零阶相关系数。
● 共线性诊断:由于一个自变量是其他自变量的线性函数时所引起的共线性是不被期望的。勾选此项,输出共线性诊断的结果,包括特征根、条件指数、方差-分解比例,以及个别变量
的方差膨胀因子(VIF)和容差。
(3)单击statictis按钮,弹出“线性回归:图”对话框,如下图所示,选择要输出的图形,各项含义如下。
图可以用来辅助验证正态性、线性相关度和方差相等的假设,也可以帮助检测离群值、异常观察值和有影响的个案。
● 左侧的变量列表:显示的是可以做散点图的作图元素:
DEPENDENT因变量、ZPRED标准化预测值、ZRESID标准化残差、DRESID剔除残差、ADJPRED修正后预测值、SRESID学生化残差、SDRESID学生化剔除残差。将左边变量列表中任意两个变量通过按钮选入X 、Y轴变量框中,选入一组变量后,可以通过下-页。心按钮,进行选择下一组变量,单击按钮,可以回到上一组变量。
● 标准化残差图。
➢ 直方图:输出带有正态曲线的标准化残差的直方图。
➢ 正态概率图:输出P-P图,用来检查残差的正态性。
➢ 产生所有部分图:输出每个自变量的残差相对于因变量 残差的分布图,要生成部分图,方程中必须至少有两个自变量。
(4)单击S按钮,弹出“线性回归:保存”对话框,如下图所示,选择保存选项,各项含义如下。
● 预测值:回归模型对每个个案预测的值。
➢ 未标准化:输出未标准化的预测值。
➢ 标准化:输出标准化的预测值,预测值减去平均值预测值,得到的差除以预测值的标准差。平均值为0 ,标准差为1。
➢ 调节:调整预测值,当一个观测值排除在回归方程之外时,得到的回归方程对这个观测值的预测值。
➢ 平均值预测值的S.E.(P):预测值的均值标准误,对于自变量具有相同值的个案所对应的因变量平均值的标准差的估计。
● 距离:标识以下个案的测量: 自变量的值具有异常组合的个案,以及可能对回归模型产生很大影响的个案。
➢ Mahalanobis距离: 自变量个案值与所有个案平均值的距离,当值过大时,表示该个案自变量的取值有异常。
➢ Cook距离:把一个个案从计算回归系数的样本中去除时,所有个案的残差变化的大小,距离越大,表示从回归统计的计算中排除的个案对回归系数的影响也越大。
➢ 杠杆值:用于测量单个观测对拟合效果的影响程度,取值范围0~(n-1)/n ,取0表示此观测对拟合无影响。
● 预测区间:设置显示的预测区间。
➢ 平均值:平均预测响应的预测区间的下限和上限。
➢ 单值:单个个案的因变量预测区间的下限和上限。
➢ 置信区间:可输出1~99.99之间的数值,默认为95 ,输出上述两个预测区间的置信度。
● 残差:因变量的实际值减去按回归方程预测的值。
➢ 未标准化:输出未标准化残差,观测值与模型预测值之差。
➢ 标准化:输出标准化残差,残差除以其标准差的估计。均值为0 ,标准差为1。
➢ 学生化:输出学生化残差,残差除以残差标准差的估计值。
➢ 删除:个案从回归系数的计算中排除时,该个案的残差,即观测值与调整预测值之差。
➢ 学生化已删除:输出学生化已删除残差,删除残差除以单个个案的标准误。
● 影响统计:由于排除了特定个案而导致的回归系数(DfBeta) 和预测值(DfFit )的变化。
➢ DfBeta:删除一个个案引起的回归系数的变化值。
➢ 标准化DfBeta:标准化DfBeta值,当其值大于2N时, 表示被删除的个案可能是对回归系数有较大影响的点,N为观测后的个案数目。
➢ DfFit :删除一个个案后而产生的预测值的变化值。
➢ 标准化DfFit :拟合值的标准化差分,由于排除了某个特定个案而导致的预测值的改变。当其值大于2、F时,表示被删除的个案可能是对回归系数有较大影响的点,N为观测后的个案数目,P 为模型中的参数个数。
➢ 协方差比率:删除一个个案后协方差矩阵与全部观测量的协方差矩阵的比值,取值接近1 ,说明该个案对协方差矩阵没有显著影响。
● 系数统计:将回归系数保存到数据集或数据文件。
➢ 创建系数统计。
✧ 创建新数据集:创建一个新数据集,在“数据集名称”框中输入名称。
✧ 写入新数据集文件:将回归系数保存到新数据集文件中,单击按钮,选择保存路径。
● 将模型信息输出到XML文件:将模型的信息输出到指定的XML格式的文件中,单击按钮指定保存路径。
● 包含协方差矩阵:选择此项,表示在XML文件中保存协方差阵。
(5)单击O按钮,弹出“线性回归:选项”对话框,如下图所示,各项含义如下。
● 步进法标准:适用于已指定向前、向后或逐步式变量选择法的情况。变量可以进入到模型中,或者从模型中剔除,这取决于F值的概率或者F值本身。
➢ 使用F的概率:使用F的概率作为依据,一个自变量F检验显著性水平小于等于进入值时,该变量进入回归方程;当值大于删除值时,该变量被删除。删除值必定大于进入值,且必须为正数,系统默认,进入值为0.05,删除值为0.10 。如果要将更多的变量选入模型,请增加进入值;若要将更多的变量从模型中移去,就降低删除值。
使用F值:使用F值作为依据,F值大于等于进入值,该变量进入回归方程;当F值小于删除值时,该变量被删除。删除值必定小于进入值,且必须为正数系统默认进入值为3.84 ,删除值为2.71。
● 在等式中包含常量:在回归方程中包括常数项,系统默认。
● 缺失值。
➢ 按列表排除个案:只要某个变量含有缺失值,则在所有分析过程中将该记录删除。
➢ 按对排除个案:按对删除观测记录,只有在分析过程中使用到的某个变量含有缺失值时,才将相应的记录删除。
➢ 使用平均值替换:利用变量的平均值代替缺失值。
六、线性回归的SPSS实现
实例一:“data09-01.sav”数据文件是一个公司员工的基本情况,如下图所示。现要求利用公司员工的一些基本情况来拟合多元线性回归方程。
数据文件:数据文件\Chapter09\data09-01.sav
视频文件:视频文件\Chapter09\线性回归.avi
(1)打开“data09-01.sav”数据文件,选择“分析” →“ 回归” →“线 性” ,弹出的“线性回归”对话框。
(2)在左侧的变量列表中选中“教育水平” 、“起始薪金” 、“雇佣时间” 、“经验”变量,单击按钮,将其选入“ 自变量列表” ,将“ 当前薪金”变量选择进入右边的因变量列表。在“方法“栏中选择“逐步”。
(3)单击按钮,弹出的“线性回归:统计”对话框。
(4)在“ 回归系数”栏中勾选“估计”和“协方差矩阵” 复选框,在“残差”栏中勾选“个案诊断” ,在“离群值”参数框输入3 ,其余勾选“模型拟合度”和“共线性诊断” 复选框。单击按钮返回主对话框。
(5)单击按钮,弹出的“线性回归:图”对话框。
(6)将变量“ SDRESID”和“ZPRED”分别选入Y轴和X轴,单击按钮,将变量“ZRESID”和“ZPRED”分别选入Y轴和X轴,单击按钮返回主对话框。单击按钮返回主对话框。
(7)单击按钮,弹出的“线性回归:保存”对话框,在“距离”栏中勾选“Mahalanobis距离” 、“Cook距离”和“杠杆值” 复选框,在“预测区间”栏中勾选“平均值”和“单值” 复选框,置信区间默认为95 ,在“影响统计”栏中勾选“标准化DfBeta” 、“标准化DfFit”和“协方差比率” 复选框,并勾选包含协方差矩阵。单击按钮返回主对话框。
(8)单击按钮,弹出的“线性回归:选项”对 话框,设置选择都为系统默认。单击按钮返回主对话框。
(9)完成所有设置后,单击腿按钮执行命令。
七、线性回归的结果分析
下表给出了逐步回归过程中变量的引入和剔除过程及其准则,可以看出,最先引入起始薪金变量,建立模型1;接着引入经验变量,建立模型2 ,依次类推,模型4包括所有变量,没有变量剔除。
下表给出了模型的拟合情况,给出了模型编号、复相关系数R、R2 、调整后的R2 、估计的标准误,可见从模型1到模型4, R2随之增长, 说明模型可解释的变异占总变异的比例越来越大,引入回归方程的变量是显著的,从R2 、调整后的R2可以看出模型4建立的回归方程较好。
下表给出了回归拟合过程中每一步的方差分析结果。Sig为F值大于F临界值的概率,可见从模型1到模型4 ,显著性概率均小于0.05 ,拒绝回归系数都为0的原假设。从模型4可知,回归平方和为1.118E+11,残差平方和为2.614E+10 ,总计为1.379 E+11 ,可见回归平方和占了总计平方和的绝大部分,说明线性模型解释了总平方和的绝大部分,模型拟合效果较好。
下表给出所有模型的回归系数估计值,包括非标准化系数、标准系数、t值、显著性、容许值和方差膨胀因子。
贝塔是标准化回归系数,是所有的变量按统一方法标准化后拟合的 回归方程中各标准化变量的系数,具有可比性。
显著性(Sig值),表中4个模型中所有变量和常数项的显著性概率均小于0.05 ,均通过显著性检验。
方差膨胀因子(VIF),表中个解释变量的VIF值都较小,说明解释变量基本不存在多重共线性问题。
模型3:当前薪金=-10266.629+1.928×起始薪金-22.509×经验+173.203雇佣时间。
下表给出了各个模型中排除变量的统计信息,模型1中已经引入起 始薪金变量,排除在外的有3个变量,从偏相关这一列可以看出除起始薪金外,与当前薪金相关性最高的是经验,因为其偏相关绝对值最大,将其引入回归模型,t检验的显著性值小于0.05 ,拒绝回归系数为0的假设。共线性统计中可以看出经验变量的容许度值接近1 ,说明与第一个进入模型的起始薪金变量不具有共线性,所以将经验变量作为第二个变量引入模型,依次类推。
下表给出了各变量之间的系数相关矩阵,表中除了起始薪金和教 育水平的相关性大于0.5以外,其余各解释变量之间的相关性都较小,可以采用第八章的相关性分析,如果结果两个解释变量之间存在相关性,可以考虑将教育水平变量从模型中剔除。
下表给出了共线性诊断的结果。
下表给出了观测值诊断的结果,其中个案编号为18 、103 、…、454被怀疑是异常值,因为其标准化残差绝对值大于3倍残差标准值。
下表给出了残差统计数据,包括预测值、标准预测值、残差、标准残差、学生化残差、马氏距离、Cook's距离、居中杠杆值等,主要用 于查找影响点,结合新保存的变量MAH_1 、COO_1 、LEV_1等,来判断是否有影响点,如马氏距离(MAH_1)值越大,越可能含有影响
点。
下图是当前薪金与其回归学生化的已删除残差的散点图,和当前薪金与其回归标准化残差的散点图,可以看出绝大多数的观测量在-2至+2之间,但是也存在个别奇异点。