数据分析网

6.6、SPSS快速聚类—零基础入门教程

微信扫码观看完整版SPSS视频课程、分析师在线答疑解惑哦~

SPSS教程 (1).png

【课程摘要】

SPSS(Statistical Package for the Social Sciences)是一种常用的统计分析软件,其中快速聚类是其重要的功能之一。快速聚类是一种无监督学习方法,用于将数据集中的样本点划分为不同的群组或簇。SPSS的快速聚类功能可以根据样本点之间的相似性,将它们聚集到相似的簇中。这种聚类分析可以帮助研究人员发现数据中的隐藏模式和结构,从而更好地理解数据集的特征和关系。通过SPSS的快速聚类功能,我们可以进行聚类分析、可视化聚类结果,并对不同簇进行进一步的分析和解释。快速聚类功能为研究人员提供了一种有效的数据探索和分类方法,有助于深入挖掘数据的潜在信息。
【详细教程】

SPSS快速聚类


当要聚成的类数确定时,使用快速聚类过程可以快速地将观测记录分到各类中去,特点是处理速度快、 占用内存少,适用于大样本的聚类分析,能够保存每个对象与聚类中心之间的距离,能够从外部文件中读取初始聚类中心,并将最终的聚类中心保存到该文件中。


SPSS快速聚类使用的是k平均值分类法对观测记录进行聚类,可以完全使用系统默认值进行聚类,也可以对聚类过程设置各种参数进行人为的干预,如事先制定聚类个数,指定使聚类过程中止的收敛判据,比如迭代次数等。进行快速聚类首先要选择聚类分析的变量和类数,参与聚类分析的变量必须是数值型变量,且至少要有1个。为了清楚地表明各观测量最后聚到哪一类,还应该指定一个表明观测量特征的变量作为标示变量,例如姓名、编号等。聚类个数需大于等于2 ,但不能大于数据集中的观测记录个数。


如果选择了n 个数值型变量进行快速聚类,则这n个变量组成n维空间,每个观测量在n维空间中是一个点,设最后要求的聚类个数为k , 则k个事先选定的观测量就是k个聚类中心点,也称为初始类中心。 然后把每个观测量都分派到与这k个中心距离最小的那个类中,构成第 一个迭代形成的k类,根据组成每一类的观测量,计算各变量的均值, 每一类的n个均值在n维空间中又形成k个点,构成第二次迭代的类中心。按照这种方法依次迭代下去,直到达到指定的迭代次数或达到中止迭代的依据要求时,聚类过程结束。


一、参数设置


(1)打开数据文件,选择“分析” →“分类” →“k-平均值聚类” ,弹出“k-平均值聚类分析”对话框,如下图所示,各项含义如下。


1.png


●    变量列表:将左侧变量列表中的一个或多个数值型变量选入其中。


●    标注个案列表:将左侧变量列表中的一个变量选入其中作为标 示变量。


●    聚类数:在框中输入分类数,系统默认分为2类。 ●    方法


➢   迭代与分类:聚类的迭代过程中使用K-Means算法不断计算类中心,并根据结果更换类中心,把观测记录分派到最近的以类中心为标志的类中去。


➢   仅分类:选定初始类别中心点后,在聚类过程中不改变类中心。


●    聚类中心


➢   读取初始聚类中心:要求使用指定数据文件中的观测量作为初始类中心,选择此项,激活下列选项:


✧   打开数据集:选中后在下拉列表中指定一个当前打开的数据集。


✧   外部数据文件:选中后单击 按钮,指定文件的路径和文件名,该文件的观测量作为初始类中心的数据。


➢   写入最终聚类中心:在此选择如何保存聚类结果的类中心,选择此项,激活下列选项:


✧   新数据集:建立一个新数据集,在输入框中输入文 件名,运行结果会把最后结果的类中心保存到该数据文件中。


✧   数据文件:单击按钮,指定文件的保存路径和文件名。


(2)单击 按钮,弹出“K-平均值聚类分析:写入文件”对话框,如下图所示,各项含义如下。


2.png


●    最大迭代次数:指定K-Means算法的最大迭代次数,当达到最大迭代次数时,即使没有满足收敛依据,达到迭代次数之后迭 代也会终止。系统默认为10 ,选择范围为1~999。


●    收敛性标准:指定K-Means算法的收敛依据,它表示初始聚类中心之间的最小距离的比例,值必须大于等于0 ,且小于1 ,系统默认为0 。例如在框中输入0.01 ,表示如果一次的迭代使任何一个类中心距离的移动与原始类中心距离的比小于1% ,则迭代停止。


●    使用运行平均值:勾选此项,表示每个观测量被分到一类后即可计算新的类中心;不勾选此项,表示在分配了所有个案之后 计算新的聚类中心,节省迭代时间。


(3)单击按钮,弹出“K-Means聚类:保存新变量”对话框,如下图所示,各项含义如下。


3.png


●    聚类成员:勾选此项,表示用一个新变量“QCL_1”保存各观测 量最终被分配到哪一类中。


●    与聚类中心的距离:勾选此项,表示用一个新变量“QCL_2”保存各观测量到最终所属的类中心的欧式距离。


(4)单击按钮,弹出“K平均值聚类分析:选项”对话框,如下图所示,各项含义如下。


4.png


●    Statistics


➢   初始聚类中心:输出初始的类中心,初始聚类中心用于第一轮分类,然后再更新。


➢   ANOVA表:输出方差分析表,该表包含每个聚类变量的一元F检验。F检验只是描述性的,不应解释生成的概率。如果所有个案均分配到单独一个聚类,那么ANOVA表不显示。


➢   每个个案的聚类信息:输出每个个案的聚类信息,包括所属类别、到所属类中心的距离等。


●    缺失值


➢   按排列排除个案:只要某个变量含有缺失值,就在所有的分析过程中将该记录剔除。


➢   按对排除个案:只有当一个观测量的全部聚类变量值都缺失时才将其剔除,否则将根据所有非缺失量的取值把它分配到距离最近的一类中去。


二、快速聚类的SPSS实现


实例一:“data10-01.sav”数据文件是一个公司员工的基本情况,如下图所示。现要求利用通过起始薪金和当前薪金对员工进行快速聚类。


5.png


数据文件:数据文件\Chapter10\data10-01.sav

视频文件:视频文件\Chapter10\快速聚类.avi


(1)打开“data10-01.sav”数据文件,选择“分析” →“分类” →“k-平均值聚类” ,弹出“k-平均值聚类”对话框。


(2)在左侧的变量列表中选中“ 当前薪金”和“初始薪金”变量,单击按钮,将其选入“变量列表” ,将“受教育年数”变量选入右边的标注个案列表作为标示变量。在“ 聚类数”后的框中输入分类数为3 ,在“选择方法”栏中勾选“迭代与分类”。


(3)单击按钮,弹出的“K-平均值聚类分析: 写入文件”对话框,设置选择系统默认。单击按钮返回主对话框。


(4)单击按钮,弹出“K-Means聚类:保存新变量”对话框,勾选“ 聚类成员”和“与聚类中心的距离” 复选框。


(5)单击按钮,弹出“K平均值聚类分析:选项”对话框。


(6)在“ Statistics”栏中选择“初始聚类中心” 、“ANOVA表”和“每个 个案的聚类信息” 复选框,在“缺失值”栏中勾选“按排列排除个案”选项。


(7)完成所有设置后,单击腿按钮执行命令。


三、快速聚类的结果分析


从下表可知,由于没有指定聚类的初始聚类中心,此表中所示的作为类中心的观测量是系统确定的。


6.png


从下表可以看出,经过9次迭代后,蕾中心的变化为0 ,迭代停止,表中所示为每次迭代后类中心的变化量。


7.png


从下表可以看出,个案的最终所属类别和与所属类中心的欧式距离,本例只截取了前35个个案,如个案1 ,被分到第2类,与类中心的欧式距离为3462.323。


8.png

9.png

10.png

11.png


从下表可以看出,最终3类的类中心的2个变量的值。


12.png


从下表可以看出,3个聚类中心之间的距离,如聚类中心1和2之间的距离为41757.688。


13.png


从下表可以看,出2个变量的聚类均方值都远远大于误差均方值,并且显著性水平值均小于0.05 ,说明拒绝2个变量使各类之间无差异的假设,表明参与聚类分析的2个变量能很好地区分各类,类间的差异足够大。


14.png


从下表可以看出,每类的观测量数目,有效的观测数为474 ,无缺失值。


15.png



热门软件

热门软件

免费下载

【软件下载】点击下载:https://pan.baidu-download.com/extract/spss.html提取码:点击获取【软件介绍】SPSS是全球领先的统计分析软件,为研究人员和数据分析师提供强大的数据处理和分析功能。无论是进行数据探索、模型建立还是结果解释,SPSS都能提供全面的解决方案。其直观的用户界面和丰富的统计工具使得数据分析变得简单而高效。【安装步骤】1. 首先,右击...
【软件下载】点击下载:https://pan.baidu-download.com/extract/stata.html‍提取码:点击获取【软件介绍】STATA软件是一款功能强大的统计分析工具,被广泛应用于社会科学、经济学、生物医学等领域。它提供了丰富的统计方法和数据处理功能,可以进行数据清洗、数据可视化、回归分析、时间序列分析等操作。【安装步骤】1. 鼠标右击【Stata17.0(64bi...
【软件下载】点击下载:https://pan.baidu-download.com/extract/eviews.html‍提取码:点击获取‍【软件介绍】EViews是一款功能强大的经济统计分析软件,广泛应用于经济学、金融学等领域。它提供了丰富的数据处理、分析和建模工具,能够帮助用户进行数据的可视化、回归分析、时间序列分析等操作。【安装步骤】1.鼠标右击【EViews13(64bit)】压缩...
【软件下载】点击下载:https://pan.baidu-download.com/extract/matlab.html‍‍‍提取码:点击获取‍【软件介绍】MATLAB是一种高级技术计算和编程环境,广泛用于科学、工程和数学领域的数据分析、模拟和可视化。它是由MathWorks公司开发的,提供了丰富的函数库和工具箱,用于处理矩阵运算、信号处理、图像处理、优化、统计分析等各种任务。【安装步骤】...
【软件下载】百度云下载:https://pan.baidu-download.com/extract/python.html‍‍‍‍提取码:点击获取‍【软件介绍】Python是一种高级编程语言,具有简单易学、可读性强的特点。它被广泛应用于数据分析、人工智能、Web开发等领域。Python拥有丰富的库和框架,如NumPy、Pandas、TensorFlow等,可以方便地进行数据处理、机器学习和...
【软件下载】立即下载:https://pan.baidu-download.com/extract/rstudio.html‍‍‍‍‍提取码:点击获取‍‍【软件介绍】RStudio是一款专业的集成开发环境(IDE),用于R语言的开发和数据分析。它提供了丰富的功能和工具,包括代码编辑、调试、数据可视化和报告生成等。通过RStudio,用户可以高效地编写和运行R代码,进行数据处理、统计分析和机器...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Amos.html提取码:点击获取‍【软件介绍】AMOS是一款广泛应用于社会科学、教育研究、市场调研等领域的统计分析软件,它提供了强大的功能和直观的界面,帮助用户进行复杂的结构方程建模和模型验证,从而深入分析数据之间的关系和影响。【安装步骤】1.鼠标右击【Amos28】压缩包(win11...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Mplus.html提取码:点击获取‍【软件介绍】Mplus是一款专业的统计分析软件,主要用于结构方程模型(SEM)和混合效应模型(HLM)的建模和分析。Mplus提供了丰富的功能和工具,包括路径分析、因子分析、多水平建模等。Mplus的用户界面友好易用,支持图形化操作,使得模型构建和分...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Origin.html提取码:点击获取‍【软件介绍】Origin是一款功能强大的科学数据分析和可视化软件,广泛应用于各个领域的数据处理和研究工作。Origin提供了丰富的数据分析工具和图形绘制功能,帮助用户快速处理和分析数据,并将结果以直观的图表形式展示。【安装步骤】1.鼠标右击【Ori...
【软件下载】百度云下载:https://pan.baidu.com/s/1CVXkLwjhLDw_7H6FV9O47Q‍‍‍‍‍提取码:点击获取【软件介绍】Excel是一款功能强大的电子表格软件,广泛应用于数据分析、数据处理和数据可视化。Excel提供了丰富的功能和工具,包括数据排序、筛选、公式计算、图表绘制等。它的用户界面简洁直观,操作便捷,适用于各种行业和领域。【安装步骤】1.选中下载的...
热门课程

热门课程

排行榜

【软件下载】点击下载:https://pan.baidu-download.com/extract/spss.html提取码:点击获取【软件介绍】SPSS是全球领先的统计分析软件,为研究人员和数据分析师提供强大的数据处理和分析功能。无论是进行数据探索、模型建立还是结果解释,SPSS都能提供全面的解决方案。其直观的用户界面和丰富的统计工具使得数据分析变得简单而高效。【安装步骤】1. 首先,右击...
【软件下载】点击下载:https://pan.baidu-download.com/extract/stata.html‍提取码:点击获取【软件介绍】STATA软件是一款功能强大的统计分析工具,被广泛应用于社会科学、经济学、生物医学等领域。它提供了丰富的统计方法和数据处理功能,可以进行数据清洗、数据可视化、回归分析、时间序列分析等操作。【安装步骤】1. 鼠标右击【Stata17.0(64bi...
【软件下载】点击下载:https://pan.baidu-download.com/extract/eviews.html‍提取码:点击获取‍【软件介绍】EViews是一款功能强大的经济统计分析软件,广泛应用于经济学、金融学等领域。它提供了丰富的数据处理、分析和建模工具,能够帮助用户进行数据的可视化、回归分析、时间序列分析等操作。【安装步骤】1.鼠标右击【EViews13(64bit)】压缩...
【软件下载】点击下载:https://pan.baidu-download.com/extract/matlab.html‍‍‍提取码:点击获取‍【软件介绍】MATLAB是一种高级技术计算和编程环境,广泛用于科学、工程和数学领域的数据分析、模拟和可视化。它是由MathWorks公司开发的,提供了丰富的函数库和工具箱,用于处理矩阵运算、信号处理、图像处理、优化、统计分析等各种任务。【安装步骤】...
【软件下载】百度云下载:https://pan.baidu-download.com/extract/python.html‍‍‍‍提取码:点击获取‍【软件介绍】Python是一种高级编程语言,具有简单易学、可读性强的特点。它被广泛应用于数据分析、人工智能、Web开发等领域。Python拥有丰富的库和框架,如NumPy、Pandas、TensorFlow等,可以方便地进行数据处理、机器学习和...
【软件下载】立即下载:https://pan.baidu-download.com/extract/rstudio.html‍‍‍‍‍提取码:点击获取‍‍【软件介绍】RStudio是一款专业的集成开发环境(IDE),用于R语言的开发和数据分析。它提供了丰富的功能和工具,包括代码编辑、调试、数据可视化和报告生成等。通过RStudio,用户可以高效地编写和运行R代码,进行数据处理、统计分析和机器...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Amos.html提取码:点击获取‍【软件介绍】AMOS是一款广泛应用于社会科学、教育研究、市场调研等领域的统计分析软件,它提供了强大的功能和直观的界面,帮助用户进行复杂的结构方程建模和模型验证,从而深入分析数据之间的关系和影响。【安装步骤】1.鼠标右击【Amos28】压缩包(win11...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Mplus.html提取码:点击获取‍【软件介绍】Mplus是一款专业的统计分析软件,主要用于结构方程模型(SEM)和混合效应模型(HLM)的建模和分析。Mplus提供了丰富的功能和工具,包括路径分析、因子分析、多水平建模等。Mplus的用户界面友好易用,支持图形化操作,使得模型构建和分...
数据分析网 专业数据分析服务
专业学术和研究领域的综合性数据分析服务平台
——————————————————————————————————————————————————————
微信客服            
本站教程已获得国家版权登记证书,受版权保护。未经授权,任何个人或机构不得以任何形式复制、传播、修改或用于商业目的。违反者将承担法律责任。
如需使用本站教程内容,请联系我们获取授权。谢谢合作!
以下为部分版权登记号:鲁作登字-2023-L-00466766   鲁作登字-2023-L-00466759   鲁作登字-2023-L-00466761   鲁作登字-2023-L-00466763   鲁作登字-2023-L-00466757