数据分析网

7.1、SPSS一般判别分析—零基础入门教程

微信扫码观看完整版SPSS视频课程、分析师在线答疑解惑哦~

SPSS教程 (1).png

【课程摘要】

SPSS(Statistical Package for the Social Sciences)是一种常用的统计分析软件,其中一般判别分析是其重要的功能之一。一般判别分析是一种有监督学习方法,用于将数据集中的样本点划分为不同的类别或群组。SPSS的一般判别分析功能可以根据已知的类别信息和样本特征,建立判别函数来对新样本进行分类。这种分析方法可以帮助研究人员在多个变量之间找到最佳的判别函数,从而实现对未知样本的分类预测。通过SPSS的一般判别分析功能,我们可以进行判别分析、评估分类准确性,并对分类结果进行解释和应用。一般判别分析功能为研究人员提供了一种有效的分类方法,有助于在实际应用中进行样本分类和预测。
【详细教程】

SPSS一般判别分析


一、参数设置


(1)打开数据文件,数据中必须包括一个表明已知的观测量所属类别的变量和若干个表明分类特征的变量。单击“分析” →“分类” →“判别分析” ,弹出“判别分析”对话框,如下图所示。


1.png


●    分组变量:用于选入分类变量,它标识了观测量所属的类别。选入分类变量后,激活按钮,单击它弹出“判别分析:定义范围”对话框,如下图所示,在最小文本框中输入指定分类变量的最小值,在最大文本框中输入指定分类变量的最大值。


2.png


●    自变量:用于从左侧变量列表选入进行判别分析的自变量。


●    选择变量:用于选入对观测样本进行筛选的变量。选入筛选变量后,激活值心。按钮,单击它弹出“判别分析:设置值”对话框,如下图所示,在选定变量的值文本框中输入一个值,则只有选择变量取这个值的观测记录才被用来进行判别函数的推导。


3.png


●    选择变量的方法:在自变量框下面,SPSS提供了两种变量选择的方法。一起输入自变量表示把指定的变量全部放入判别函数中,不管变量对判别函数是否起作用及作用大小如何,当认为所有自变量都能为判别函数的建立提供丰富信息时,且彼此独立时选中该项;使用步进法是逐步判别法,需要根据各变量对 判别贡献的大小进行选择,选中该项后,激活右上方的按钮。


(2)单击按钮,弹出“判别分析:统计”对话框,如下图所示。各项含义如下。


4.png


●    描述性:此栏用于选择输出哪些描述统计量,有如下3个选项。


➢   平均值:输出每个类别和总体样本中的各个自变量的平均值、标准差。


➢   单变量ANOVA:指单变量方差分析,用于输出单变量的方差分析结果,检验的零假设时单个自变量在各类中的均值都相等。


➢   Box's    M:指协方差分析,用于检验各类别的协方差矩阵是否相等。


●    函数系数:此栏用于选择判别函数系数的输出形式,有如下两个选择。


➢   Fisher's :是直接用于对新样本进行判别分析的Fisher系数,对每个类别给出一类系数,把观测量都归入判别得分最大的那一类中。


➢   未标准化:是未经标准化处理的判别系数。


●    矩阵:此栏用于输出矩阵,有如下4个选项。


➢   组内相关:根据类内协方差矩阵计算的相关矩阵。


➢   组内协方差:是将每个类别的协方差矩阵求平均后得到的,不同于总体的协方差阵。


➢   分组协方差:输出每个类别各自的协方差矩阵。


➢   总体协方差:输出总样本的协方差矩阵。


(3)单击按钮,弹出“判别分析:分类”对话框,如下图所示。各项含义如下。


5.png


●    先验概率:此栏用于指定先验概率。


➢   所有组相等:各类别的先验概率相等,如果样本有n类,它们的先验概率都为1/n。


➢   根据组大小计算:表示各类别的先验概率与其样本量成正比。


●    输出:此栏用于设置分类结果的输出选项。


➢   个案结果:输出对单个观测量的详细分类信息。将个案限制在前复选框设置输出的范围,若输入n,表示只对前n个观测量有输出,当观测数目很大时建议勾选此项。


➢   摘要表:输出分类总结表,包括正确分类的观测数目(指原始类和根据判别函数给出的预测类相同)和错分观测数目,以及正确率和错误率。


➢   留一分类:输出交互校验信息,由除去单个观测以外的其他观测导出的判别函数预测这个观测的类别,输出如此得到的统计信息。


●    使用协方差矩阵:此栏用于设置分类所使用的协方差矩阵。


➢   在组内:指定使用合并的类内协方差矩阵进行分类。


➢   分组:指定使用每个类别的协方差矩阵进行分类。由于分类是根据判别函数,而不是根据原始变量,因此该选项并不等价于二次判别。


●    图:此栏用于选择输出的统计图形。


➢   合并组:根据前两个判别函数的得分所作的、包括所有类别的散点图;如果只有一个判别函数,就输出直方图。


➢   分组:根据前两个判别函数的得分所作的散点图,总体分为几类就生成几张散点图;如果只有一个判别函数,则输出直方图。


➢   面积图:根据判别函数的得分所作的、对观测量进行分 类的面积图;此图把平面划分成与分类个数相同的几个区域,每类占据一个区域,各类的均值在其区域中用“*”号标出;如果只有一个判别函数,则不作此图。


●    使用平均值替换缺失值:指用变量的均值代替其缺失值。


(4)单击按钮,弹出“判别分析:保存”对话框,如下图所示,各项含义如下。


6.png


●    预测组成员:保存观测量的预测分类,即根据判别分数把观测量按后验概率最大原则所指派归属的类,新变量的默认变量名为DIS_n ,其中n为一个正整数。


●    判别分数:保存观测量的判别得分,该分数由未标准化的判别系数乘以自变量的取值再求和后得来;当前模型有几个判别函数,就新建几个得分变量。


●    组成员概率:保存观测记录属于某一类的概率,有几个类别就 建立几个新变量。


●    将模型信息输出到XML文件:单击 按钮选择文件路径和名称。


(5)单击按钮,弹出“判别分析:步进法”对话框,如下图所示,各项含义如下。


7.png


●    方法:此栏用于指定逐步判别分析的方法

➢   Wilks'lambda :指每步都选择使总体的Wilks'λ统计量最小的变量进入判别函数。


➢   未解释方差:指每步都选择使各类别间不可解释的方差和最小的变量进入判别函数,


➢   马氏距离:指每步都选择使靠得最近的两个类别的马氏距离达到最大的变量进入判别函数。


➢   最小F值:指每步都选择使基于任何两类间的马氏距离计算的一个F值最大的变量进入判别函数。


➢   Rao's   V:指每步都选择使Rao's   V统计量产生最大增量的变量进入判别函数。选中此方法后,激活下面的“V至 输入”文本框,此时可以对一个要加入到模型中的变量的V值指定一个最小增量。当某变量导致的V 值增量大于指定值时,此变量就进入判别函数。


●    标准:此栏用于设置逐步判别过程中保留或删除变量的准则。


➢   使用F值:是SPSS默认的判据。当加入或剔除一个当变量后,对在判别函数中的变量进行方差分析。当变量的F值大于指定的进入值时,该变量就进入模型,默认的 进入值为3.84;当变量的F值小于指定的删除值时,该 变量就从模型中被剔除,默认的删除值为2.71;进入值必须大于删除值,否则会出现函数中没有变量的错误。 要使模型包含更多的变量,可以减小进入值;要使模型包含更少的变量,可以增大删除值。


➢   使用F的概率:用F检验的概率决定变量是否加入函数 或被剔除。加入变量的F值概率的默认值为0.05,删除变量的F值概率是0.10 。进入值必须大于删除值。


●    输出:此栏用于选择要显示的统计量。


➢   步进摘要:指输出逐步判别过程里的每一步之后的每个变量的统计量。


➢   两两组间距离的F值:指输出两两类别之间的F值矩阵。


二、一般判别分析的SPSS实现


实例一:“data11-01.sav”数据文件是某医院研究舒张压与血浆胆固醇对冠心病的影响情况,随机抽取并测定了15例冠心病人、15例正常人 和1例未知个体,如下图所示。现要求利用判别分析判断未知个体属于冠心病患者还是正常人,数据文件“有无冠心病的调查.sav” 。(数据来源于《SAS统计分析教程》,胡良平主编)


8.png


数据文件:数据文件\Chapter11\data11-01.sav

视频文件:视频文件\Chapter11\一般判别分析.avi


(1)打开“data11-01.sav”数据文件,单击“分析” →“分类” →“判别分 析” ,弹出的“判别分析”对话框。


(2)在源变量列表中选择“组别”变量,单击按钮,将其作为分类变量送入分类变量框中;单击按钮,在弹出的“ 定义范围”对话框中分别输入1和2。


(3)选中“舒张压” 、“血浆胆固醇”变量,单击按钮,将其送入自变量框中。


(4)单击 按钮,弹出“ 统计”对话框。勾选平均值、Box's M 、Fisher's 、未标准化、组内协方差、分组协方差。


(5)单击 按钮,弹出“分类”对话框。勾选摘要表。


(6)完成所有设置,单击按钮执行命令。


三、一般判别分析的结果分析


下表是关于样本使用的信息,包括有效数据和缺失数据的统计信息,本例中有一个缺失数据,该缺失数据就是未分类的个案。


9.png


下表给出了各个类别的平均值、标准偏差及加权与未加权的有效个案数,通过这些数据,可以了解两种类别的人在这2个生理指标上的差异。


10.png


下表给出了2个类别的协方差矩阵和总样本的协方差矩阵。


11.png


12.png


下表的测试结果给出了Box's    M检验的结果,即对各总体协方差矩阵是否相等的统计检验,可以看出在0.05的显著性水平下没有足够的 理由拒绝原假设,即认为总体协方差矩阵相等。


13.png


下表是解释方差的比例和典型相关系数,由此可知本例仅一个函数就能解释所有的方差变异。


14.png


下表是用来检验判别函数在统计学上是否有显著意义。从显著性值0.000可知,该函数在0.01水平上极显著。所以,可以接受该函数建立的判别规则。


15.png


下表是判别函数中两个变量的标准化系数,所以,判别函数可以表示为y=0.882×舒张压* +0.843×血浆胆固醇*   ,这里的舒张压*和血浆胆固醇* 是标准化后的变量,标准化变量的系数就是判别权重。


16.png


下表即判别载荷,由判别权重和判别载荷可以看出两个解释变量对判别函数的贡献较大。


17.png


下表是判别函数中两个变量的未标准化系数。若未对原始数据标准化,则可以利用该表格中的系数。所以,判别函数可以表示为y=0.636 ×舒张压*+0.797 ×血浆胆固醇* -10.775 ,我们可以根据这个判别函数计算每个个案的判别得分。


18.png


下表给出两个类别的重心在平面上的位置。根据结果,判别函数在冠心病人这一组的重心为1.045 ,在正常人这一组的重心为-1.045 。 只要根据典型判别函数计算出每个个案的平面位置后,再计算他们和各类重心的距离,就可以判断各个个案属于哪个类别。


19.png


上表说明31个个案都参与分类。


20.png


下表是各组的先验概率,在此选择的是所有组的先验概率相等。


21.png


下表是每组的分类函数。对个案进行判别时,Fisher判别函数较典型判别函数简单许多,它是直接计算每个个案属于各类的得分,个案在哪个类别中的得分高就属于哪个类别。


22.png


由表中结果可说明,冠心病人这一组的分类函数是f 1=8.441×舒张压+8.045×血浆胆固醇-   73.002 ,正常人这一组的分类函数是f2=7.113×舒张压+6.380×血浆胆固醇-50.491 。可以计算出每个观测在各组的分类函数值,然后将观测分类到较大的分类函数值中。


下表是用典型判别函数进行预测的统计信息。从表中可看出,通过判别函数预测,有24个观测是分类正确的,其中冠心病人这一组15个观测中有12个观测被判对,正常人这一组有15个观测中12个观测被判对。从而有24/30=80.0%的原始观测被判对。表格最后一行的未分组个 案被判为正常人。


23.png



热门软件

热门软件

免费下载

【软件下载】点击下载:https://pan.baidu-download.com/extract/spss.html提取码:点击获取【软件介绍】SPSS是全球领先的统计分析软件,为研究人员和数据分析师提供强大的数据处理和分析功能。无论是进行数据探索、模型建立还是结果解释,SPSS都能提供全面的解决方案。其直观的用户界面和丰富的统计工具使得数据分析变得简单而高效。【安装步骤】1. 首先,右击...
【软件下载】点击下载:https://pan.baidu-download.com/extract/stata.html‍提取码:点击获取【软件介绍】STATA软件是一款功能强大的统计分析工具,被广泛应用于社会科学、经济学、生物医学等领域。它提供了丰富的统计方法和数据处理功能,可以进行数据清洗、数据可视化、回归分析、时间序列分析等操作。【安装步骤】1. 鼠标右击【Stata17.0(64bi...
【软件下载】点击下载:https://pan.baidu-download.com/extract/eviews.html‍提取码:点击获取‍【软件介绍】EViews是一款功能强大的经济统计分析软件,广泛应用于经济学、金融学等领域。它提供了丰富的数据处理、分析和建模工具,能够帮助用户进行数据的可视化、回归分析、时间序列分析等操作。【安装步骤】1.鼠标右击【EViews13(64bit)】压缩...
【软件下载】点击下载:https://pan.baidu-download.com/extract/matlab.html‍‍‍提取码:点击获取‍【软件介绍】MATLAB是一种高级技术计算和编程环境,广泛用于科学、工程和数学领域的数据分析、模拟和可视化。它是由MathWorks公司开发的,提供了丰富的函数库和工具箱,用于处理矩阵运算、信号处理、图像处理、优化、统计分析等各种任务。【安装步骤】...
【软件下载】百度云下载:https://pan.baidu-download.com/extract/python.html‍‍‍‍提取码:点击获取‍【软件介绍】Python是一种高级编程语言,具有简单易学、可读性强的特点。它被广泛应用于数据分析、人工智能、Web开发等领域。Python拥有丰富的库和框架,如NumPy、Pandas、TensorFlow等,可以方便地进行数据处理、机器学习和...
【软件下载】立即下载:https://pan.baidu-download.com/extract/rstudio.html‍‍‍‍‍提取码:点击获取‍‍【软件介绍】RStudio是一款专业的集成开发环境(IDE),用于R语言的开发和数据分析。它提供了丰富的功能和工具,包括代码编辑、调试、数据可视化和报告生成等。通过RStudio,用户可以高效地编写和运行R代码,进行数据处理、统计分析和机器...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Amos.html提取码:点击获取‍【软件介绍】AMOS是一款广泛应用于社会科学、教育研究、市场调研等领域的统计分析软件,它提供了强大的功能和直观的界面,帮助用户进行复杂的结构方程建模和模型验证,从而深入分析数据之间的关系和影响。【安装步骤】1.鼠标右击【Amos28】压缩包(win11...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Mplus.html提取码:点击获取‍【软件介绍】Mplus是一款专业的统计分析软件,主要用于结构方程模型(SEM)和混合效应模型(HLM)的建模和分析。Mplus提供了丰富的功能和工具,包括路径分析、因子分析、多水平建模等。Mplus的用户界面友好易用,支持图形化操作,使得模型构建和分...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Origin.html提取码:点击获取‍【软件介绍】Origin是一款功能强大的科学数据分析和可视化软件,广泛应用于各个领域的数据处理和研究工作。Origin提供了丰富的数据分析工具和图形绘制功能,帮助用户快速处理和分析数据,并将结果以直观的图表形式展示。【安装步骤】1.鼠标右击【Ori...
【软件下载】百度云下载:https://pan.baidu.com/s/1CVXkLwjhLDw_7H6FV9O47Q‍‍‍‍‍提取码:点击获取【软件介绍】Excel是一款功能强大的电子表格软件,广泛应用于数据分析、数据处理和数据可视化。Excel提供了丰富的功能和工具,包括数据排序、筛选、公式计算、图表绘制等。它的用户界面简洁直观,操作便捷,适用于各种行业和领域。【安装步骤】1.选中下载的...
热门课程

热门课程

排行榜

【软件下载】点击下载:https://pan.baidu-download.com/extract/spss.html提取码:点击获取【软件介绍】SPSS是全球领先的统计分析软件,为研究人员和数据分析师提供强大的数据处理和分析功能。无论是进行数据探索、模型建立还是结果解释,SPSS都能提供全面的解决方案。其直观的用户界面和丰富的统计工具使得数据分析变得简单而高效。【安装步骤】1. 首先,右击...
【软件下载】点击下载:https://pan.baidu-download.com/extract/stata.html‍提取码:点击获取【软件介绍】STATA软件是一款功能强大的统计分析工具,被广泛应用于社会科学、经济学、生物医学等领域。它提供了丰富的统计方法和数据处理功能,可以进行数据清洗、数据可视化、回归分析、时间序列分析等操作。【安装步骤】1. 鼠标右击【Stata17.0(64bi...
【软件下载】点击下载:https://pan.baidu-download.com/extract/eviews.html‍提取码:点击获取‍【软件介绍】EViews是一款功能强大的经济统计分析软件,广泛应用于经济学、金融学等领域。它提供了丰富的数据处理、分析和建模工具,能够帮助用户进行数据的可视化、回归分析、时间序列分析等操作。【安装步骤】1.鼠标右击【EViews13(64bit)】压缩...
【软件下载】点击下载:https://pan.baidu-download.com/extract/matlab.html‍‍‍提取码:点击获取‍【软件介绍】MATLAB是一种高级技术计算和编程环境,广泛用于科学、工程和数学领域的数据分析、模拟和可视化。它是由MathWorks公司开发的,提供了丰富的函数库和工具箱,用于处理矩阵运算、信号处理、图像处理、优化、统计分析等各种任务。【安装步骤】...
【软件下载】百度云下载:https://pan.baidu-download.com/extract/python.html‍‍‍‍提取码:点击获取‍【软件介绍】Python是一种高级编程语言,具有简单易学、可读性强的特点。它被广泛应用于数据分析、人工智能、Web开发等领域。Python拥有丰富的库和框架,如NumPy、Pandas、TensorFlow等,可以方便地进行数据处理、机器学习和...
【软件下载】立即下载:https://pan.baidu-download.com/extract/rstudio.html‍‍‍‍‍提取码:点击获取‍‍【软件介绍】RStudio是一款专业的集成开发环境(IDE),用于R语言的开发和数据分析。它提供了丰富的功能和工具,包括代码编辑、调试、数据可视化和报告生成等。通过RStudio,用户可以高效地编写和运行R代码,进行数据处理、统计分析和机器...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Amos.html提取码:点击获取‍【软件介绍】AMOS是一款广泛应用于社会科学、教育研究、市场调研等领域的统计分析软件,它提供了强大的功能和直观的界面,帮助用户进行复杂的结构方程建模和模型验证,从而深入分析数据之间的关系和影响。【安装步骤】1.鼠标右击【Amos28】压缩包(win11...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Mplus.html提取码:点击获取‍【软件介绍】Mplus是一款专业的统计分析软件,主要用于结构方程模型(SEM)和混合效应模型(HLM)的建模和分析。Mplus提供了丰富的功能和工具,包括路径分析、因子分析、多水平建模等。Mplus的用户界面友好易用,支持图形化操作,使得模型构建和分...
数据分析网 专业数据分析服务
专业学术和研究领域的综合性数据分析服务平台
——————————————————————————————————————————————————————
微信客服            
本站教程已获得国家版权登记证书,受版权保护。未经授权,任何个人或机构不得以任何形式复制、传播、修改或用于商业目的。违反者将承担法律责任。
如需使用本站教程内容,请联系我们获取授权。谢谢合作!
以下为部分版权登记号:鲁作登字-2023-L-00466766   鲁作登字-2023-L-00466759   鲁作登字-2023-L-00466761   鲁作登字-2023-L-00466763   鲁作登字-2023-L-00466757