数据分析网

6.8、SPSS两步聚类—零基础入门教程

微信扫码观看完整版SPSS视频课程、分析师在线答疑解惑哦~

SPSS教程 (1).png

【课程摘要】

SPSS(Statistical Package for the Social Sciences)是一种常用的统计分析软件,其中两步聚类是其重要的功能之一。两步聚类是一种无监督学习方法,用于将数据集中的样本点划分为不同的群组或簇。SPSS的两步聚类功能结合了系统聚类和k均值聚类两种方法,通过两个步骤来完成聚类分析。首先,系统聚类用于初始的聚类分组,然后使用k均值聚类对初始分组进行进一步的细化。这种聚类分析可以帮助研究人员发现数据中的隐藏模式和结构,从而更好地理解数据集的特征和关系。通过SPSS的两步聚类功能,我们可以进行聚类分析、可视化聚类结果,并对不同簇进行进一步的分析和解释。两步聚类功能为研究人员提供了一种有效的数据探索和分类方法,有助于深入挖掘数据的潜在信息。
【详细教程】

SPSS两步聚类


一、参数设置


(1)打开数据文件,选择“分析” →“分类” →“两步聚类” ,弹出“二阶聚类分析”对话框,如下图所示,各项含义如下。


1.png


●    分类变量:将左侧变量列表中的选择一个一个或多个变量进入。


●    连续变量:将左侧变量列表中的选择一个一个或多个变量进入。


●    距离测量:确定如何计算两个聚类之间的相似性。


➢   对数相似值:假设连续变量是正态分布,分类变量是多项式分布,且所有变量相互独立。


➢   Euclidean:欧式距离法,测量是两个聚类之间的“直线”距离,适用于所有变量都是连续变量。


●    连续变量计数:显示在“选项” 中设定的需要和不需要标准化处理的连续变量个数。


●    聚类数量


➢   自动确定:系统自动选择最好的分类数,默认最大的分类数为15。


➢   指定固定值:用户在框中输入一个正整数指定分类数。


●    聚类准则:在施瓦兹贝叶斯准则和Akaike信息标准中选择一种确定最优聚类个数的准则。


(2)单击按钮,弹出“二阶聚类:选项”对话框,如下图所示,各项含义如下。


2.png


●    离群值处理:设置在聚类特征(CF)树填满的情况下,在聚类过程中特别地处理离群值。如果CF树的叶节点中不能接受更多的个案,且所有叶节点均不能拆分,那么说明CF树已满。


➢   使用噪声处理:勾选此项,在百分比后框中输入一个数值,系统默认为25 。当某节点包含的个案数与最大叶子 数之比小于指定的百分比,则认为叶子稀疏,当CF长满后,把稀疏节点合并为一个“ 噪声”节点,然后重新执行CF树的生长,当CF树再次长满后,需要判断“ 噪声”节点是否留在CF树上,如果不能就删除。如果不勾选此项且CF树填满,那么它将使用较大的距离更改阈值来重新生长。当聚类结束后,那些不能归入任何一类的观测就被标记成离群值,离群值聚类被赋予标识号-1 ,并且不会包括在聚类数的计数中。


●    内存分配:指定聚类过程中使用的最大内存空间。在最大大小后框中输入一个大于等于4的数值,系统默认为64 。如果聚类   过程使用的内存大于这个值,系统将使用硬盘来存储放不下的信息。


●    连续变量的标准化:系统默认的是将所有的连续变量都自动选入“要标准化的计数”列表中,对于已经标准化的连续变量通过将其选入“假定已标准化的计数”列表中,可以节省聚类过程 的运行时间。


(3)单击按钮,打开高级选项对话框。


●    CF树调节准则:设置CF树调节准则,有4个待定参数


➢   初始距离更改阈值:在框中输入一个数值,系统默认为0 。这是用来使CF树生长的初始阈值。如果将给定的个案插入到CF树的叶子中将生成小于阈值的紧度,那么不会拆分叶子。如果紧度超过阈值,那么会拆分叶子。


➢   最大分支:在框中输入一个数值,系统默认为8 ,指定单个节点的最大分支数。


➢   最大树深度:在框中输入一个数值,系统默认为3 ,指定CF树最大最大级别数。


➢   可能的最大结点数:该数值是通过公式(bd+1    − 1)/(b − 1)计算而得,b代表最大分支数,d代表最大树深度。 每个节点最少需要16个字节的空间,CF树太大会消耗系统资源,影响聚类过程的效率。


●    聚类模型更新:勾选“ 导入CF树XML文件” ,单击按钮, 指定一个XML格式的CF树文件,用当前的数据文件更新以前生产的原聚类模型。在主设置面板中指定分析变量的顺序必须与以前分析时指定的变量顺序相同,更新的模型仅用于当前数 据的分析,不会更改原始的XML文件,除非把新模型的信息输出至与其同名的文件里。


(4)单击按钮,弹出“二阶聚类:输出”对话框,如下图所示,各项含义如下。


3.png


●    输出:选择输出的统计量。


➢   透视表:输出4个表格,第一个AIC或BIC的统计表,第二个连续变量的均值和标准差,第三个最终分类的观测个数统计表,最后一个最终分类里分类变量的频数统计表。


➢   图表和表格:指定为评估字段的变量可以显示在模型查看器作为聚类描述符。


●    工作数据文件:设置将变量保存到活动数据集。


➢   创建聚类成员变量:勾选此项,保存最后的聚类结果,变量名为TSC_n,   n为表示在给定会话中由此过程完成的活动数据集保存操作的序数。


●    XML文件栏:以XML格式输出最终模型和CF树。


➢   导出最终模型:勾选此项,单击按钮,指定文件保存路径和位置,保存最终模型信息,可以使用该模型文件以应用模型信息到其他数据文件用于评分目的。


➢   导出CF树:勾选此项,单击按钮,指定文件保存路径和位置,保存CF树,并在以后使用较新的数据对其进行更新。


二、两步聚类的SPSS实现


实例三:“data10-03.sav”数据文件是一些汽车的基本情况,如下图所示。要求利用汽车的一些基本资料对汽车进行两步聚类。


4.png


数据文件:数据文件\Chapter10\data10-03.sav

视频文件:视频文件\Chapter10\两步聚类.avi


(1)打开“data10-03.sav”数据文件,选择“分析” →“分类” →“两步聚 类” ,弹出“二阶聚类分析”对话框。


(2)在左侧的变量列表中选中“价格×1000” 、“发动机型号” 、“ 马力” 、“轴距” 、“ 宽度” 、“长度” 、“底盘重量” 、“燃料容量”和“燃料效率”9个变量单击按钮,选入右边的连续变量列表,将“车辆类型”变量选入右边的分类变量列表,将,主设置面板上其他选项都为系统默认。


(3)单击按钮,弹出“二阶聚类:选项”对话框,设置都为系统默认。单击按钮返回主对话框。


(4)单击按钮,弹出“二阶聚类“输出”对话框。


(5)在“输出”栏中勾选“透视表”和“ 图表和表格” 复选框,在“工作数据文件”栏中勾选创“建聚类成员变量” 。单击    按钮返回主对话框。


(6)完成所有设置后,单击腿按钮执行命令。


三、两步聚类的结果分析


从下表可以看出整个聚类的过程,第1列是表示聚类的步骤数,第2列是通过BIC准则对每个类数计算聚类判据,数值越小表示模型越好,同时还要考虑第4列BIC更改比率和第5列距离度量比率来最终确定最佳的聚类结果。第3列是BIC的变化值,即当前的BIC值减去前一个BIC值的差。第4列BIC更改比率是当前的BIC变化值与前一个变化值的比率。第5列距离度量比率。一个好的模型应当有较小的BIC值、较大的BIC更改比率和较大的距离度量比率。本例选择最终聚类数为3。


5.png


从下表可以看出最终聚成3类的观测频数,以及排除的异常观测的频数。本例观测总数为157 ,异常观测为5。


6.png


从下表可以看出每一类中连续变量的均值和标准差,可以看出第1类的车辆价格比较便宜,发动机型号、马力、轴距都较小,车型也偏小,燃料效率最高,属于低端车型;第2类车价格居中,发动机型号、马力、轴距、车型、燃料容量相对于第1类车都有相对的提高,燃 料效率降低,属于中端车型;第3类车价格最高,发动机型号、马力相对于前2类车都有较大的提高,燃料效率居中,属于高端车型。


7.png


从下表可以看出3类按车辆类型分的频数表,可见第1类和第3类基本上都是小汽车,第2类全部是卡车。


8.png


从下图可以看出聚类方法为两步聚类,总共有10个变量,最佳聚类数为3类,聚类效果较好。


9.png



热门软件

热门软件

免费下载

【软件下载】点击下载:https://pan.baidu-download.com/extract/spss.html提取码:点击获取【软件介绍】SPSS是全球领先的统计分析软件,为研究人员和数据分析师提供强大的数据处理和分析功能。无论是进行数据探索、模型建立还是结果解释,SPSS都能提供全面的解决方案。其直观的用户界面和丰富的统计工具使得数据分析变得简单而高效。【安装步骤】1. 首先,右击...
【软件下载】点击下载:https://pan.baidu-download.com/extract/stata.html‍提取码:点击获取【软件介绍】STATA软件是一款功能强大的统计分析工具,被广泛应用于社会科学、经济学、生物医学等领域。它提供了丰富的统计方法和数据处理功能,可以进行数据清洗、数据可视化、回归分析、时间序列分析等操作。【安装步骤】1. 鼠标右击【Stata17.0(64bi...
【软件下载】点击下载:https://pan.baidu-download.com/extract/eviews.html‍提取码:点击获取‍【软件介绍】EViews是一款功能强大的经济统计分析软件,广泛应用于经济学、金融学等领域。它提供了丰富的数据处理、分析和建模工具,能够帮助用户进行数据的可视化、回归分析、时间序列分析等操作。【安装步骤】1.鼠标右击【EViews13(64bit)】压缩...
【软件下载】点击下载:https://pan.baidu-download.com/extract/matlab.html‍‍‍提取码:点击获取‍【软件介绍】MATLAB是一种高级技术计算和编程环境,广泛用于科学、工程和数学领域的数据分析、模拟和可视化。它是由MathWorks公司开发的,提供了丰富的函数库和工具箱,用于处理矩阵运算、信号处理、图像处理、优化、统计分析等各种任务。【安装步骤】...
【软件下载】百度云下载:https://pan.baidu-download.com/extract/python.html‍‍‍‍提取码:点击获取‍【软件介绍】Python是一种高级编程语言,具有简单易学、可读性强的特点。它被广泛应用于数据分析、人工智能、Web开发等领域。Python拥有丰富的库和框架,如NumPy、Pandas、TensorFlow等,可以方便地进行数据处理、机器学习和...
【软件下载】立即下载:https://pan.baidu-download.com/extract/rstudio.html‍‍‍‍‍提取码:点击获取‍‍【软件介绍】RStudio是一款专业的集成开发环境(IDE),用于R语言的开发和数据分析。它提供了丰富的功能和工具,包括代码编辑、调试、数据可视化和报告生成等。通过RStudio,用户可以高效地编写和运行R代码,进行数据处理、统计分析和机器...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Amos.html提取码:点击获取‍【软件介绍】AMOS是一款广泛应用于社会科学、教育研究、市场调研等领域的统计分析软件,它提供了强大的功能和直观的界面,帮助用户进行复杂的结构方程建模和模型验证,从而深入分析数据之间的关系和影响。【安装步骤】1.鼠标右击【Amos28】压缩包(win11...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Mplus.html提取码:点击获取‍【软件介绍】Mplus是一款专业的统计分析软件,主要用于结构方程模型(SEM)和混合效应模型(HLM)的建模和分析。Mplus提供了丰富的功能和工具,包括路径分析、因子分析、多水平建模等。Mplus的用户界面友好易用,支持图形化操作,使得模型构建和分...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Origin.html提取码:点击获取‍【软件介绍】Origin是一款功能强大的科学数据分析和可视化软件,广泛应用于各个领域的数据处理和研究工作。Origin提供了丰富的数据分析工具和图形绘制功能,帮助用户快速处理和分析数据,并将结果以直观的图表形式展示。【安装步骤】1.鼠标右击【Ori...
【软件下载】百度云下载:https://pan.baidu.com/s/1CVXkLwjhLDw_7H6FV9O47Q‍‍‍‍‍提取码:点击获取【软件介绍】Excel是一款功能强大的电子表格软件,广泛应用于数据分析、数据处理和数据可视化。Excel提供了丰富的功能和工具,包括数据排序、筛选、公式计算、图表绘制等。它的用户界面简洁直观,操作便捷,适用于各种行业和领域。【安装步骤】1.选中下载的...
热门课程

热门课程

排行榜

【软件下载】点击下载:https://pan.baidu-download.com/extract/spss.html提取码:点击获取【软件介绍】SPSS是全球领先的统计分析软件,为研究人员和数据分析师提供强大的数据处理和分析功能。无论是进行数据探索、模型建立还是结果解释,SPSS都能提供全面的解决方案。其直观的用户界面和丰富的统计工具使得数据分析变得简单而高效。【安装步骤】1. 首先,右击...
【软件下载】点击下载:https://pan.baidu-download.com/extract/stata.html‍提取码:点击获取【软件介绍】STATA软件是一款功能强大的统计分析工具,被广泛应用于社会科学、经济学、生物医学等领域。它提供了丰富的统计方法和数据处理功能,可以进行数据清洗、数据可视化、回归分析、时间序列分析等操作。【安装步骤】1. 鼠标右击【Stata17.0(64bi...
【软件下载】点击下载:https://pan.baidu-download.com/extract/eviews.html‍提取码:点击获取‍【软件介绍】EViews是一款功能强大的经济统计分析软件,广泛应用于经济学、金融学等领域。它提供了丰富的数据处理、分析和建模工具,能够帮助用户进行数据的可视化、回归分析、时间序列分析等操作。【安装步骤】1.鼠标右击【EViews13(64bit)】压缩...
【软件下载】点击下载:https://pan.baidu-download.com/extract/matlab.html‍‍‍提取码:点击获取‍【软件介绍】MATLAB是一种高级技术计算和编程环境,广泛用于科学、工程和数学领域的数据分析、模拟和可视化。它是由MathWorks公司开发的,提供了丰富的函数库和工具箱,用于处理矩阵运算、信号处理、图像处理、优化、统计分析等各种任务。【安装步骤】...
【软件下载】百度云下载:https://pan.baidu-download.com/extract/python.html‍‍‍‍提取码:点击获取‍【软件介绍】Python是一种高级编程语言,具有简单易学、可读性强的特点。它被广泛应用于数据分析、人工智能、Web开发等领域。Python拥有丰富的库和框架,如NumPy、Pandas、TensorFlow等,可以方便地进行数据处理、机器学习和...
【软件下载】立即下载:https://pan.baidu-download.com/extract/rstudio.html‍‍‍‍‍提取码:点击获取‍‍【软件介绍】RStudio是一款专业的集成开发环境(IDE),用于R语言的开发和数据分析。它提供了丰富的功能和工具,包括代码编辑、调试、数据可视化和报告生成等。通过RStudio,用户可以高效地编写和运行R代码,进行数据处理、统计分析和机器...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Amos.html提取码:点击获取‍【软件介绍】AMOS是一款广泛应用于社会科学、教育研究、市场调研等领域的统计分析软件,它提供了强大的功能和直观的界面,帮助用户进行复杂的结构方程建模和模型验证,从而深入分析数据之间的关系和影响。【安装步骤】1.鼠标右击【Amos28】压缩包(win11...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Mplus.html提取码:点击获取‍【软件介绍】Mplus是一款专业的统计分析软件,主要用于结构方程模型(SEM)和混合效应模型(HLM)的建模和分析。Mplus提供了丰富的功能和工具,包括路径分析、因子分析、多水平建模等。Mplus的用户界面友好易用,支持图形化操作,使得模型构建和分...
数据分析网 专业数据分析服务
专业学术和研究领域的综合性数据分析服务平台
——————————————————————————————————————————————————————
微信客服            
本站教程已获得国家版权登记证书,受版权保护。未经授权,任何个人或机构不得以任何形式复制、传播、修改或用于商业目的。违反者将承担法律责任。
如需使用本站教程内容,请联系我们获取授权。谢谢合作!
以下为部分版权登记号:鲁作登字-2023-L-00466766   鲁作登字-2023-L-00466759   鲁作登字-2023-L-00466761   鲁作登字-2023-L-00466763   鲁作登字-2023-L-00466757