数据分析网

6.1、SPSS二元Logistic回归—零基础入门教程

微信扫码观看完整版SPSS视频课程、分析师在线答疑解惑哦~

SPSS教程 (1).png

【课程摘要】

SPSS(Statistical Package for the Social Sciences)是一种常用的统计分析软件,其中二元Logistic回归是其重要的功能之一。二元Logistic回归是一种用于建立和分析二分类变量之间关系的统计方法。SPSS提供了简单易用的界面和工具,使得二元Logistic回归的计算和解释更加方便和高效。通过SPSS的二元Logistic回归功能,我们可以建立一个或多个自变量与一个二分类因变量之间的关系模型,并进行参数估计和显著性检验。二元Logistic回归可以帮助我们预测二分类因变量的概率,并了解自变量对因变量的影响程度和方向。通过SPSS的二元Logistic回归功能,我们可以进行准确的统计推断,为科学研究和决策提供可靠的依据。
【详细教程】

SPSS二元Logistic回归


一、二元Logistic 回归原理


在社会科学的研究中,经常会遇到二元变量的情况,例如死亡或未死亡、购买或未购买等,对于二元变量,无法直接采用一般的多元线性模型无法进行回归分析,因为残差不满足正态性、无偏性、共方差性等假设,同时解释变量的取值范围不再是-∞ ~+∞ 。如果希望根据一系列预测变量的值来预测某种特征或结果是否存在,且因变量为二元变量, 通常采用二元Logistic 回归。


1 .Logistic回归模型


设因变量为y ,取值为1时表示事件发生,取值为0时表示事件不发生,影响y的n个自变量为x 1   ,x 2 , …, x n, p表示事件发生的概率,1-p表示事件不发生的概率,Logistic回归模型如下:


1.png


为求Logistic回归模型的线性模式,首先求得事件的发生比,即事件发生与不发生的概率之比p /(1-p ),记为Odds, Odds的取值范围为0 ~+∞之间,然后对Odds进行对数转换,就能得到Logistic回归模型的线性模式Logp=(p(-p)=(A+∑8x)    ,可以看出Logistic方程的回归系数可以理解为一个单位的自变量的变化而引起的   发生比的对数的改变值。

由于理解发生比理解发生比的对数容易,所以将Logistic方程写成


2.png


当其他解释变量保持不变,第i个自变量变化一个单位时,发生比的变化值为exp(βi),自变量的系数为正值,表示事件发生的概率增加,exp(βi)值大于1; 自变量的系数为负值,表示事件发生的概率降低,exp(βi)值小于1; 自变量的系数为0,   exp(βi )值等于1 。对Logistic回归模型的参数估计可以采用最大似然比法和迭代法。


2 .二元Logistic 回归方程的检验


(1)回归系数的显著性检验


回归系数的显著性检验主要是为了检验模型中各解释变量与LogitP是否存在显著的线性关系。零假设是βi=0 ,即第i个解释变量与Logit P之间不存在显著的线性关系。回归系数的显著性检验主要采用的是Wald统计量,定义为


4.png


式中,βi是回归系数,是回归系数的标准误差。Wald统计量服从自由度为1的卡方分布。由二元Logistic回归分析计算得到Wald   i数值和响应的概率pi值。当概率pi值小于显著性水平α时,拒绝零假设,认为第i个解释变量与LogitP 之间存在显著的线性关系;当概率pi值大于显著性水平α时,接受零假设,认为第i个解释变量与Logit   P之间不存在显著的线性关系。值得注意的是,当解释变量的系数绝对值较大时,其标准误差将会扩大,导致Wald统计量减小,导致拒绝零假设失败,所以当解释变量的系数绝对值较大时,不应该依据Wald统计量来进行回归系数的显著性检验。


(2)模型的拟合度检验:模型的拟合度是用来判断模型是否很好地拟合了样本数据。


① 模型的拟合度通常采用(-2 ×对数似然比值)来度量模型对样本数据的拟合度,如果模型拟合度较好,则(-2 ×对数似然比值)的值相对较小,最佳模型值为0 ,反之,值相对较大。似然比值的变化体现的是当一个解释变量进入或被剔除出模型时对拟合度的变化。常用的3种似然比卡方统计量分别为步长、块和模型。


➢   模型卡方统计量是用来检验除了常数项以外,模型中所有解释变量的系数是否全为0 。零假设是模型中所有解释变量的系数全为0。


➢   块卡方统计量是当选择了多组解释变量,检验最后一组解释变量的系数是否为0 。零假设是最后一组解释变量的系数为0。


➢   步长卡方统计量是用来检验最后一个加入模型的解释变量系数是否为0 。零假设是最后一个加入模型的解释变量系数为0。


在二元Logistic回归分析过程中,SPSS会计算得到各个似然比卡方统计量的数值和响应的概率p值。如果p小于给定的显著性水平α时, 拒绝零假设,反之当概率p值大于显著性水平α时,接受零假设。


② Cox&Snell R2 和Nagelkerke R2


Cox&Snell R2   统计量与线性模型中的R2   很相似,说明的是回归方程对解释变量变异量化的一种反映。定义为


5.png


, 式中,L0   是方程中只包含常数项时的似然比值,L B   是当前方程的似然比值,n为样本量。


由于Cox&Snell R2   统计量的取值范围不易确定,所以Nagelkerke修改Cox&Snell   R 2统计量,变成Nagelkerke R 2统计量,定义为Nagelkerke R2统计量的取值范围为0~1 ,越接近1 ,说明回归方程的拟合度越高。


③ Hosmer-Lemeshow统计量


当解释变量较多,大多数是定距型变量,且不能使用标准拟合度卡方检验时,模型的拟合度检验通常采用Hosmer-Lemeshow统计量。通常 根据预测概率值的大小将所有样本分为n组( 一般情况下近似10组),然后计算得出Hosmer-Lemeshow卡方统计量和概率p值,Hosmer-Lemeshow统计量服从自由度为n -2的卡方分布。当p值小于显著性水平时,拒绝零假设,认为模型拟合优度较低;当p值大于显著性水平时, 接受零假设,认为模型拟合优度较高,能很好地拟合数据。值得注意的是Hosmer-Lemeshow卡方统计量的检验结果很大程度上与组的划分有关,所以使用前需要有较大的样本量,较多的分组,以及大多数组别中期望频数不小于5 ,否则得到的结果可能与实际情况不符。


二、参数设置


(1)打开数据文件,选择“分析” →“ 回归” →“二元Logistic” ,弹出“Logistic 回归”对话框,如下图所示,各项含义如下。


6.png



●    因变量列表:将左侧的变量列表中的一个二分属性的变量选入 其中。


●    协变量列表:将左侧的变量列表中的一个或多个变量,单击按钮选入其中。也可以同时选择两个或多个变量,单击按钮作为交互相,将其选入其中。同时,可以通过按钮和下-页。心   按钮切换,可以构建多个协变量组,具体操作: 先选择变量进入协变量列表,然后在方法栏中选择一种方法,单击下-页。心按钮,协变量列表会被清空,这时再选入其他的自变量,再在方法栏中选择一种方法,这样就有两个协变量组,以此类推,可以建立多个协变量组,通过   按钮就 能查看前一个协变量组的设定。


●    方法:在下拉列表,选择一种方法,共有以下7种。


➢   输入:协变量全部进入模型。


➢   向前:有条件的,向前逐步法,变量引入的根据是得分统计量的显著性水平,将变量剔除出模型的依据是条件参数估计的似然比统计量的概率值。


➢   向前:LR ,向前逐步法,变量引入的根据是得分统计量的显著性水平,将变量剔除出模型的依据是最大偏似然估计的似然比统计量的概率值。


➢   向前:Wald ,向前逐步法,变量引入的根据是得分统计量的显著性水平,将变量剔除出模型的依据是Wald统计量的概率值。


➢   向后:有条件的,向后逐步法,将变量剔除出模型的依据是条件参数估计的似然比统计量的概率值。


➢   向后:LR ,向后逐步法,将变量剔除出模型的依据是最大偏似然估计的似然比统计量的概率值。


➢   向后:Wald ,向后逐步法,将变量剔除出模型的依据是Wald统计量的概率值。


●    选择变量框,用于选入一个筛选变量,指定筛选变量的取值范围,确定参与分析的观测记录,选入变量后,单击按钮,弹出“Logistic 回归:设置规则”对话框,定义选择规则,选 择一种运算符(等于,不等于,晚于,小于或等于,大于,大于或等于),值框中输入一个值,设置好筛选条件。


(2)单击按钮,弹出“Logistic 回归:定义分类变量”对话框,如下图所示,各项含义如下。


7.png


●    协变量列表:框中包含了主对话框中选择好的全部协变量及交 互相。


●    分类协变量列表:框中显示的是当前选择的分类协变量,字符串变量会自动进入分类协变量框中。


●    更改对比:用于选择分类变量各类水平的对比方式,选择分类协变量框中的一个协变量,在对比下拉列表中选择一个方式, 单击按钮,确认修改。


➢   对比方法。


✧   指示灯:指示是否同属于参考分类,参考分类在对比矩阵中整行为0。


✧   简单:每一种分类都与参考分类进行比较。


✧   差值:除第一类外,每类的预测变量效应都与其前所有各分类的平均效应进行比较。


✧   Helmert:除最后一类外,每类的预测变量效应都与其后所有各分类的平均效应进行比较。


✧   重复:除第一类外,每类的预测变量效应都与其前一种分类的效应进行比较。


✧   多项式:多项式比较,要求每类水平相同,仅适用于数字型变量。


✧   偏差:每类的预测变量效应与总体效应进行比较。


➢   参考类别:如果选择了偏差、简单或指示灯对比方式, 需要指定一个参考类别,可以选择最后一个或第一个,系统默认为最后一个。


(3)单击按钮,弹出“Logistic 回归:保存”对话框,如下图所示,各项含义如下。


8.png


●    预测值。


➢   概率:事件发生的预测概率。


➢   组成员:根据预测概率得到的每个观测量的预测分组。


●    影响:设置对每一个观测量的影响力指标,包括Cook距离、杠杆值、DfBeta。


●    残差:残差选项包括未标准化、学生化、标准化、偏差和Logit ,剩下的“Logit”表示逻辑残差,残差除以“预测概率×(1-预测概率)”。


●    将模型信息输出到XML文件:单击按钮,确定保存位置 和文件名。勾选“包含协方差矩阵” 复选框,表示保存协方差矩阵在上述的XML文件中。


(4)单击 按钮,弹出“Logistic 回归:选项”对话框,如下图所示,各项含义如下。


9.png


●    统计和图:设计输出的统计量和图。


➢   分类图:因变量的预测值和观测值的分类直方图。


➢   Hosmer-Lemeshow拟合度:拟合良好度统计量。


➢   个案的残差列表:包括非标准化残差、预测概率、观测量的实际与预测分组水平。


✧   外离群值:在框中输入一个正数n ,表示只输出标准化残差值大于n倍标准偏差的观测量的统计量。


✧   所有个案:输出所有观测量的各种统计量。


➢   估计值的相关性:输出各变量估计参数的相关系数矩阵。


➢   迭代历史记录:输出每一步迭代的相关系数和对数似然比。


➢   exp(B)的CI     :设置置信区间,在框中输入1-99的数 值,系统默认为95。


●    输出:设置输出的统计图表。


➢   在每个步骤中:在每一步迭代过程中输出表、统计量和图。


➢   在最后一个步骤中:只输出最终方程的表、统计量和图。


●    步进概率:设置变量进入模型和从模型中剔除的判据,如果变量的概率值小于等于进入值时,该变量进入模型;当值大于删 除值时,该变量被删除。删除值必定大于进入值,且必须为正数,系统默认,进入值为0.05 ,删除值为0.10。


●    分类分界值:设置对观测量进行分类的临界值,大于临界值的归为一类,其余的归为一类,取值范围为0.01-0.99 ,系统默认为0.5。



●    最大迭代次数:设置模型的最大迭代次数,系统默认为20。


●    为复杂分析或大型数据集保留内存:勾选此项,保留内存空间 给复杂分析或大型数据集。


●    在模型中包括常数:选择此项,表示在模型中包括非零的常数项。


三、二元Logistic回归的SPSS实现


实例四:“data09-04.sav”数据文件是一些肿瘤患者的基本资料,如下图所示。现要求利用通过年龄、肿瘤大小和扩散等级来拟合癌变部 位的淋巴结是否含义癌细胞的二元Logistic 回归方程。


10.png


数据文件:数据文件\Chapter09\data09-04.sav

视频文件:视频文件\Chapter09\二元Logistic回归.avi


(1)打开“data09-04.sav”数据文件,选择“分析” →“ 回归” →“二元   Logistic” ,弹出“Logistic回归”对话框,在左侧的变量列表中选中“癌变部位的淋巴结是否含义癌细胞” ,将其选入“ 因变量列表” ,将“年龄” 、“肿瘤大小(厘米)” 、“扩散等级”变量选入右边的“协变量列表” ,“方法”选择系统默认的“输入”。


(2)单击按钮,弹出“Logistic回归:定义分类变量”对话框,将“扩散等级”变量选入分类协变量列表,对比方法选择系统默认的指示灯。单击按钮返回主对话框。


(3)单击   按钮,弹出的“Logistic回归:保存”对话框。


(4)在“预测值”栏中勾选“概率”和“组成员” 复选框,在“影响”栏中勾选“杠杆值” 复选框,在“残差”栏中勾选“标准化” 复选框,并勾选“包含协方差矩阵” 复选框。单击按钮返回主对话框。


(5)单击   按钮,弹出“Logistic 回归:选项”对话框。


(6)在“ 统计和图”栏中勾选“分类图” 、“Hosmer-Lemeshow拟合度” 、“exp(B)的CI” ,其他为系统默认。单击   按钮返回主对话框。


(7)完成所有设置后,单击腿按钮执行命令。


四、二元Logistic回归的结果分析


从下表可以看出参与分析的个案为978 ,无缺失值。


11.png


下表为因变量变量的编码。


12.png


下表为自变量中的分类变量根据指示变量编码方案所生成的新变量。新生成的变量名称为扩散等级(1)和扩散等级(2)。


13.png


下表是拟合开始前模型外变量的卡方检验,所有变量的显著性均小于0.05 ,整体的显著性也小于0.05 ,所以,所有变量进入模型都是有意义的。


14.png


下表是3种常用的卡方统计量,因拟合方法选择的是输入,所以一步就完成了模型的拟合,所以,步长、块和模型的卡方值都相同,显著性小于0.05 ,说明解释变量的全体与Logit   P之间的线性关系显著,采用此模型是合理的。


15.png


下表是模型拟合优度统计量,表中的-2对数似然值为838.913 ,值较大,说明模型拟合效果不是很好,Cox &Snell R平方和Nagelkerke R平 方值分别为0.087和0.142 ,值较小,说明模型方程能解释的回归变异很小,模型拟合不理想。


16.png


下表给出了Hosmer和Lemeshow检验的统计量,显著性小于0.05, 所以拒绝零假设,表示方程拟合效果不理想。


17.png


下表是Hosmer和Lemeshow检验的列联表,根据预测概率,将数据分为10组,第2行和第3行是“癌变部位的淋巴结是否含有癌细胞=无” 的观测值和期望值,第4行和第5行是“癌变部位的淋巴结是否含有癌细胞=有” 的观测值和期望值,可见各行的观测值和期望值存在一定的差

异,说明模型拟合效果不理想。


18.png


下表是观测值和预测值的分类表,从表中可以看出798名癌变部位的淋巴结没有癌细胞的患者被准确预测,正确率为97.9% ,但是只有16名癌变部位的淋巴结含有癌细胞的患者被准确预测,正确率只有 9.0% ,总的正确率为81.7% ,说明预测效果不理想。


19.png


下表给出了各变量的系数(B),可以写出方程:


20.png


Z=-0.010×年龄+1.116×肿瘤大小+2.953×肿瘤扩散等级(1)+2.026× 肿瘤扩散等级(2)-5.714


得出估计淋巴结中是否含有癌细胞的概率为:


21.png



热门软件

热门软件

免费下载

【软件下载】点击下载:https://pan.baidu-download.com/extract/spss.html提取码:点击获取【软件介绍】SPSS是全球领先的统计分析软件,为研究人员和数据分析师提供强大的数据处理和分析功能。无论是进行数据探索、模型建立还是结果解释,SPSS都能提供全面的解决方案。其直观的用户界面和丰富的统计工具使得数据分析变得简单而高效。【安装步骤】1. 首先,右击...
【软件下载】点击下载:https://pan.baidu-download.com/extract/stata.html‍提取码:点击获取【软件介绍】STATA软件是一款功能强大的统计分析工具,被广泛应用于社会科学、经济学、生物医学等领域。它提供了丰富的统计方法和数据处理功能,可以进行数据清洗、数据可视化、回归分析、时间序列分析等操作。【安装步骤】1. 鼠标右击【Stata17.0(64bi...
【软件下载】点击下载:https://pan.baidu-download.com/extract/eviews.html‍提取码:点击获取‍【软件介绍】EViews是一款功能强大的经济统计分析软件,广泛应用于经济学、金融学等领域。它提供了丰富的数据处理、分析和建模工具,能够帮助用户进行数据的可视化、回归分析、时间序列分析等操作。【安装步骤】1.鼠标右击【EViews13(64bit)】压缩...
【软件下载】点击下载:https://pan.baidu-download.com/extract/matlab.html‍‍‍提取码:点击获取‍【软件介绍】MATLAB是一种高级技术计算和编程环境,广泛用于科学、工程和数学领域的数据分析、模拟和可视化。它是由MathWorks公司开发的,提供了丰富的函数库和工具箱,用于处理矩阵运算、信号处理、图像处理、优化、统计分析等各种任务。【安装步骤】...
【软件下载】百度云下载:https://pan.baidu-download.com/extract/python.html‍‍‍‍提取码:点击获取‍【软件介绍】Python是一种高级编程语言,具有简单易学、可读性强的特点。它被广泛应用于数据分析、人工智能、Web开发等领域。Python拥有丰富的库和框架,如NumPy、Pandas、TensorFlow等,可以方便地进行数据处理、机器学习和...
【软件下载】立即下载:https://pan.baidu-download.com/extract/rstudio.html‍‍‍‍‍提取码:点击获取‍‍【软件介绍】RStudio是一款专业的集成开发环境(IDE),用于R语言的开发和数据分析。它提供了丰富的功能和工具,包括代码编辑、调试、数据可视化和报告生成等。通过RStudio,用户可以高效地编写和运行R代码,进行数据处理、统计分析和机器...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Amos.html提取码:点击获取‍【软件介绍】AMOS是一款广泛应用于社会科学、教育研究、市场调研等领域的统计分析软件,它提供了强大的功能和直观的界面,帮助用户进行复杂的结构方程建模和模型验证,从而深入分析数据之间的关系和影响。【安装步骤】1.鼠标右击【Amos28】压缩包(win11...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Mplus.html提取码:点击获取‍【软件介绍】Mplus是一款专业的统计分析软件,主要用于结构方程模型(SEM)和混合效应模型(HLM)的建模和分析。Mplus提供了丰富的功能和工具,包括路径分析、因子分析、多水平建模等。Mplus的用户界面友好易用,支持图形化操作,使得模型构建和分...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Origin.html提取码:点击获取‍【软件介绍】Origin是一款功能强大的科学数据分析和可视化软件,广泛应用于各个领域的数据处理和研究工作。Origin提供了丰富的数据分析工具和图形绘制功能,帮助用户快速处理和分析数据,并将结果以直观的图表形式展示。【安装步骤】1.鼠标右击【Ori...
【软件下载】百度云下载:https://pan.baidu.com/s/1CVXkLwjhLDw_7H6FV9O47Q‍‍‍‍‍提取码:点击获取【软件介绍】Excel是一款功能强大的电子表格软件,广泛应用于数据分析、数据处理和数据可视化。Excel提供了丰富的功能和工具,包括数据排序、筛选、公式计算、图表绘制等。它的用户界面简洁直观,操作便捷,适用于各种行业和领域。【安装步骤】1.选中下载的...
热门课程

热门课程

排行榜

【软件下载】点击下载:https://pan.baidu-download.com/extract/spss.html提取码:点击获取【软件介绍】SPSS是全球领先的统计分析软件,为研究人员和数据分析师提供强大的数据处理和分析功能。无论是进行数据探索、模型建立还是结果解释,SPSS都能提供全面的解决方案。其直观的用户界面和丰富的统计工具使得数据分析变得简单而高效。【安装步骤】1. 首先,右击...
【软件下载】点击下载:https://pan.baidu-download.com/extract/stata.html‍提取码:点击获取【软件介绍】STATA软件是一款功能强大的统计分析工具,被广泛应用于社会科学、经济学、生物医学等领域。它提供了丰富的统计方法和数据处理功能,可以进行数据清洗、数据可视化、回归分析、时间序列分析等操作。【安装步骤】1. 鼠标右击【Stata17.0(64bi...
【软件下载】点击下载:https://pan.baidu-download.com/extract/eviews.html‍提取码:点击获取‍【软件介绍】EViews是一款功能强大的经济统计分析软件,广泛应用于经济学、金融学等领域。它提供了丰富的数据处理、分析和建模工具,能够帮助用户进行数据的可视化、回归分析、时间序列分析等操作。【安装步骤】1.鼠标右击【EViews13(64bit)】压缩...
【软件下载】点击下载:https://pan.baidu-download.com/extract/matlab.html‍‍‍提取码:点击获取‍【软件介绍】MATLAB是一种高级技术计算和编程环境,广泛用于科学、工程和数学领域的数据分析、模拟和可视化。它是由MathWorks公司开发的,提供了丰富的函数库和工具箱,用于处理矩阵运算、信号处理、图像处理、优化、统计分析等各种任务。【安装步骤】...
【软件下载】百度云下载:https://pan.baidu-download.com/extract/python.html‍‍‍‍提取码:点击获取‍【软件介绍】Python是一种高级编程语言,具有简单易学、可读性强的特点。它被广泛应用于数据分析、人工智能、Web开发等领域。Python拥有丰富的库和框架,如NumPy、Pandas、TensorFlow等,可以方便地进行数据处理、机器学习和...
【软件下载】立即下载:https://pan.baidu-download.com/extract/rstudio.html‍‍‍‍‍提取码:点击获取‍‍【软件介绍】RStudio是一款专业的集成开发环境(IDE),用于R语言的开发和数据分析。它提供了丰富的功能和工具,包括代码编辑、调试、数据可视化和报告生成等。通过RStudio,用户可以高效地编写和运行R代码,进行数据处理、统计分析和机器...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Amos.html提取码:点击获取‍【软件介绍】AMOS是一款广泛应用于社会科学、教育研究、市场调研等领域的统计分析软件,它提供了强大的功能和直观的界面,帮助用户进行复杂的结构方程建模和模型验证,从而深入分析数据之间的关系和影响。【安装步骤】1.鼠标右击【Amos28】压缩包(win11...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Mplus.html提取码:点击获取‍【软件介绍】Mplus是一款专业的统计分析软件,主要用于结构方程模型(SEM)和混合效应模型(HLM)的建模和分析。Mplus提供了丰富的功能和工具,包括路径分析、因子分析、多水平建模等。Mplus的用户界面友好易用,支持图形化操作,使得模型构建和分...
数据分析网 专业数据分析服务
专业学术和研究领域的综合性数据分析服务平台
——————————————————————————————————————————————————————
微信客服            
本站教程已获得国家版权登记证书,受版权保护。未经授权,任何个人或机构不得以任何形式复制、传播、修改或用于商业目的。违反者将承担法律责任。
如需使用本站教程内容,请联系我们获取授权。谢谢合作!
以下为部分版权登记号:鲁作登字-2023-L-00466766   鲁作登字-2023-L-00466759   鲁作登字-2023-L-00466761   鲁作登字-2023-L-00466763   鲁作登字-2023-L-00466757