数据分析网

11.1、Stata主成分分析—零基础入门教程

微信扫码观看完整版Stata视频课程、分析师在线答疑解惑哦~

微信扫码-通用.jpg

课程摘要

Stata是一种统计分析软件,用于数据分析和建模。在多元数据分析中,主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术,用于将高维数据转化为低维数据,并提取出数据中的主要信息。Stata提供了命令和函数来进行主成分分析。通过使用这些命令和函数,可以计算主成分、解释数据的方差和协方差结构,并进行主成分的解释和可视化。在Stata中,可以使用命令如pca进行主成分分析。这个命令允许用户根据数据的特点,选择适当的主成分数量和解释方法,并进行主成分的提取和分析。使用Stata进行主成分分析可以帮助研究人员更好地理解数据的结构和特征,并进行数据降维和可视化。

【详细教程】

Stata主成成分分析


一、 主成分分析的功能与意义


主成分分析是一种降维分析的统计过程,该过程通过正交变换将原始的n维数据集变换到一个新的被称为主成分的数据集中,也就是将众多的初始变量整合成少数几个相互无关的主成分变量,而这些新的变量尽可能地包含初始变量的全部信息,然后用这些新的变量来代替以前的变量进行分析。



主成分分析法从原始变量到新变量是一个正交变换(坐标变换), 通过正交变换将其原随机向量(分量间有相关性)转化成新随机向量(分量间不具有相关性),也就是将原随机向量的协方差阵变换成对角阵。变换后的结果中,第一个主成分具有最大的方差值,每个后续的主成分在与前述主成分正交条件限制下也具有最大方差。降维时仅保存前m(m<n)   个主成分即可保持最大的数据信息量。


Stata进行主成分分析主要的步骤包括:


1)变量数据标准化。


2)变量之间的相关性判定。


3)确定主成分个数m。


4)写出主成分F的表达式。


5)对各个主成分F命名。


主成分分析的数学模型为:

设原始变量X=(X…,X,)   '是一个P 维随机变量,首先将其标准化ZX=(ZX,…ZX,)',   然后考虑它的线性变换,提取主成分,即为:


1.png


可以发现如果要用F,尽可能多地保留原始的X的信息,经典的办法是使F,的方差尽可能大。其他的各F 也希望尽可能多地保留X 的信息,但前面的F 已保留的信息就不再保留,即要求Cov(F,F)=0j=1,...i-1,在这样的条件下使Var(F;) 最大,为了减少变量的个数,希望前几

个F,就可以代表X的大部分信息。计算特征值和单位特征向量,记为F₁ ≥F₂ ≥. ≥F,和aa₂…,a,   用 Y=a₁/X   作为X 的第i主成分。


在主成分个数的确定方面,最终选取的主成分的个数可以通过累积 方差贡献率来确定。 一般情况下,以累积方差贡献率大于等于85%为标准。


二、主成分分析的Stata操作


主成分分析的命令为pca。

Stata中主成分分析包括数据的主成分分析、相关或协方差矩阵的主成分分析两种。


数据的主成分分析的命令及其语法格式为:


pca   varlist   [if][in][weight][,options]


相关或协方差矩阵的主成分分析的命令及其语法格式为:


pcamat     matname,n(#)[options     pcamat   options]


pca、pcamat为命令, varlist为参与主成分分析的变量列表,matname 为参与主成分分析的相关或协方差矩阵, [if]为条件表达式,[in]用于设置样本范围, [weight]用于设置权重,[,options]为可选项,主要包括下表所示的几项。


2.png

2续.png


pcamat options是“相关或协方差矩阵的主成分分析”命令中专用的可选项。


三、主成分分析示例


我们用于分析的数据来自"数据11"数据文件,其中记录的是   《中国2021年1-3月份地区主要能源产品产量统计》,数据摘编自《中 国经济景气月报202104》。该数据文件中共有21个变量,分别是V1~V21, 分别代表地区、汽油万吨、煤油万吨、柴油万吨、燃料油 万吨、石脑油万吨、液化石油气万吨、石油焦万吨、石油沥青万吨、焦 炭万吨、煤气亿立方米、火力发电量亿千瓦小时、水力发电量亿千瓦小时、核能发电量亿千瓦小时、风力发电量亿千瓦小时、太阳能发电量亿千瓦小时、原煤万吨、原油万吨、天然气亿立方米、煤层气亿立方米、 液化天然气万吨,如下图所示。


3.png


下面我们针对汽油万吨、煤油万吨、柴油万吨、燃料油万吨、石脑油万吨、液化石油气万吨、石油焦万吨、石油沥青万吨、焦炭万吨、煤气亿立方米10个变量开展主成分分析。


1.   相关分析


打开“数据11”数据文件之后,在主界面的命令窗口中依次输入:


pwcorr   V2-V11,sidak   sig   star(0.05)

本命令的含义是对汽油万吨、煤油万吨、柴油万吨、燃料油万吨、 石脑油万吨、液化石油气万吨、石油焦万吨、石油沥青万吨、焦炭万吨、煤气亿立方米共计10个变量进行相关性分析,计算两两之间的皮尔 逊相关性系数,并检验变量相关是否在95%的置信水平上显著,分析结果如下图所示。


4.png


上图展示的是参与主成分分析的10个变量之间的相关系数矩阵。可以发现,本例中有很多变量之间的相关关系是非常强的,有些相关性系数甚至超过了0.9,而且很多相关性系数都在95%的置信水平下非常显著。这说明变量之间存在着相当数量的信息重叠。我们进行主成分分析把众多的初始变量整合成少数几个互相之间无关的主成分变量是非常有必要的。


2. 默认状态下的主成分分析


打开"数据11"数据文件之后,在主界面的命令窗口中输入:

pca V2-V11


本命令的含义是对汽油万吨、煤油万吨、柴油万吨、燃料油万吨、 石脑油万吨、液化石油气万吨、石油焦万吨、石油沥青万吨、焦炭万吨、煤气亿立方米共计10个变量进行主成分分析,分析结果如下图所示。


5.png


上图中最左列(Component )表示的是系统提取的主成分名称,所有主成分是按照特征值大小降序排列的。可以发现,我们的Stata总共 提取了10个主成分。


Eigenvalue列表示的是系统提取的主成分的特征值,特征值的大小意味着该主成分的解释能力,特征值越大解释能力越强,通常情况下只有特征值大于1的主成分是有效的,所以本例中Stata提取的10个主成分   中只有前两个是有效的,因为Comp3~Comp10 的特征值(Eigenvalue)均小于1。


Proportion列表示的是系统提取的主成分的方差贡献率,方差贡献率同样表示主成分的解释能力,可以发现第1个主成分的方差贡献率为 0.6619 ,表示该主成分解释了所有变量66.19%的信息。第2个主成分的方差贡献率为0.1477 ,表示该主成分解释了所有变量14.77% 的信息,以此类推。


Cumulative列表示的是主成分的累积方差贡献率,其中前两个主成分的累积方差贡献率为0.8096,前3个主成分的累积方差贡献率为0.8991,以此类推。


下图展示的是系统提取的10个主成分的特征向量矩阵,以表明各个主成分在各个变量上的载荷。


6.png


需要说明的是,每个主成分荷载的列式平方和为1,如针对主成分1(Comp1),     即有:0.3669²+0.2243²+...+0.0489²+0.1341²=1


最后一列 (Unexplained) 表示的是该变量未被系统提取的主成分解释的信息比例。因为我们保留了全部主成分,所以所有变量都在主成分上得到了载荷,没有丢失任何信息,所有变量Unexplained的值均为0。


因为主成分分析只不过是一种矩阵变换,所以各个主成分并不一定具有实际意义,本例中各个主成分的内在含义就不是很明确。


3. 只保留特征值大于1的主成分


在前面我们已经提到过,通常情况下只有特征值大于1的主成分是有效的,所以我们开展“只保留特征值大于1”的主成分分析,在主界面的命令窗口中输入:


pca       V2-V11,mineigen(1)

本命令的含义是对汽油万吨、煤油万吨、柴油万吨、燃料油万吨、 石脑油万吨、液化石油气万吨、石油焦万吨、石油沥青万吨、焦炭万吨、煤气亿立方米共计10个变量进行主成分分析,只保留特征值大于1的主成分,分析结果如图1和图2所示。


7.png




                                                          图1

图1展示的内容与前面没有设置“只保留特征值大于1”时一致,区别仅在于Number of co

mp.=2, 即保留提取的主成分个数为2,不再是前面没有设置“只保留特征值大于1”时的10;以及Rho=   0.8096, 即累积方差贡献率为0.8096,不再是前面没有设置“只保留特征值大于1”时的1。


8.png

                                                         图2


图2展示的是仅保留特征值大于1的主成分的结果,本例中只有前两个主成分的特征值大于1,所以只保留了前两个主成分。


图2最后一列 (Unexplained) 表示的是该变量未被系统提取的两个主成分解释的信息比例。我们在前面没有设置"只保留特征值大于1”选项,从而保留全部主成分时,所有变量的Unexplained值均为0。但是我们仅保留两个主成分时,就会产生信息丢失,即变量的部分信息未能在提取的两个主成分上载荷。比如变量V2未被解释的信息比例就是   10.77%。这种信息丢失的情况是我们舍弃其他主成分必然付出的代价。


因为前两个主成分的累积方差贡献率为0.8096,所以V2~V11 共10个 变量平均未被解释的信息比例就是1-0.8096=0.1904。也可以通过下面的公式予以验证,对V2~V11共10个变量的Unexplained值求算术平均值,即为:


9.png


4.    限定提取的主成分个数


在有些情况下,可能受某些条件的制约,我们仅能挑选出在规定数目以下的主成分进行分析。所以就需要限定提取的主成分的个数,比如本例中我们想提取3个主成分进行分析,那么命令应该相应地修改为:pca   V2-V11,components(3)

在命令窗口中输入命令并按回车键进行确认,结果如下图所示。

10.png


上图展示的内容与前面没有设置“只保留特征值大于1”时一 致,区别仅在于Number of comp.=3, 即保留提取的主成分个数为3,不再是前面没有设置“只保留特征值大于1”时的10;以及Rho=   0.8096, 即累积方差贡献率为0.8991,不再是前面没有设置“只保留特征值大于1”时的1。


pca   V2-V11,components(3)

在命令窗口中输入命令并按回车键进行确认,结果如下图所示。


11.png


上图展示的是我们提取的3个主成分的结果,该图最后一列(Unexplained) 同样说明的是该变量未被系统提取的一个主成分解释的信息比例,例如变量V2未被解释的信息比例就是8.754%。这种信息丢失的情况同样也是我们舍弃其他主成分必然付出的代价。



热门软件

热门软件

免费下载

【软件下载】点击下载:https://pan.baidu-download.com/extract/spss.html提取码:点击获取【软件介绍】SPSS是全球领先的统计分析软件,为研究人员和数据分析师提供强大的数据处理和分析功能。无论是进行数据探索、模型建立还是结果解释,SPSS都能提供全面的解决方案。其直观的用户界面和丰富的统计工具使得数据分析变得简单而高效。【安装步骤】1. 首先,右击...
【软件下载】点击下载:https://pan.baidu-download.com/extract/stata.html‍提取码:点击获取【软件介绍】STATA软件是一款功能强大的统计分析工具,被广泛应用于社会科学、经济学、生物医学等领域。它提供了丰富的统计方法和数据处理功能,可以进行数据清洗、数据可视化、回归分析、时间序列分析等操作。【安装步骤】1. 鼠标右击【Stata17.0(64bi...
【软件下载】点击下载:https://pan.baidu-download.com/extract/eviews.html‍提取码:点击获取‍【软件介绍】EViews是一款功能强大的经济统计分析软件,广泛应用于经济学、金融学等领域。它提供了丰富的数据处理、分析和建模工具,能够帮助用户进行数据的可视化、回归分析、时间序列分析等操作。【安装步骤】1.鼠标右击【EViews13(64bit)】压缩...
【软件下载】点击下载:https://pan.baidu-download.com/extract/matlab.html‍‍‍提取码:点击获取‍【软件介绍】MATLAB是一种高级技术计算和编程环境,广泛用于科学、工程和数学领域的数据分析、模拟和可视化。它是由MathWorks公司开发的,提供了丰富的函数库和工具箱,用于处理矩阵运算、信号处理、图像处理、优化、统计分析等各种任务。【安装步骤】...
【软件下载】百度云下载:https://pan.baidu-download.com/extract/python.html‍‍‍‍提取码:点击获取‍【软件介绍】Python是一种高级编程语言,具有简单易学、可读性强的特点。它被广泛应用于数据分析、人工智能、Web开发等领域。Python拥有丰富的库和框架,如NumPy、Pandas、TensorFlow等,可以方便地进行数据处理、机器学习和...
【软件下载】立即下载:https://pan.baidu-download.com/extract/rstudio.html‍‍‍‍‍提取码:点击获取‍‍【软件介绍】RStudio是一款专业的集成开发环境(IDE),用于R语言的开发和数据分析。它提供了丰富的功能和工具,包括代码编辑、调试、数据可视化和报告生成等。通过RStudio,用户可以高效地编写和运行R代码,进行数据处理、统计分析和机器...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Amos.html提取码:点击获取‍【软件介绍】AMOS是一款广泛应用于社会科学、教育研究、市场调研等领域的统计分析软件,它提供了强大的功能和直观的界面,帮助用户进行复杂的结构方程建模和模型验证,从而深入分析数据之间的关系和影响。【安装步骤】1.鼠标右击【Amos28】压缩包(win11...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Mplus.html提取码:点击获取‍【软件介绍】Mplus是一款专业的统计分析软件,主要用于结构方程模型(SEM)和混合效应模型(HLM)的建模和分析。Mplus提供了丰富的功能和工具,包括路径分析、因子分析、多水平建模等。Mplus的用户界面友好易用,支持图形化操作,使得模型构建和分...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Origin.html提取码:点击获取‍【软件介绍】Origin是一款功能强大的科学数据分析和可视化软件,广泛应用于各个领域的数据处理和研究工作。Origin提供了丰富的数据分析工具和图形绘制功能,帮助用户快速处理和分析数据,并将结果以直观的图表形式展示。【安装步骤】1.鼠标右击【Ori...
【软件下载】百度云下载:https://pan.baidu.com/s/1CVXkLwjhLDw_7H6FV9O47Q‍‍‍‍‍提取码:点击获取【软件介绍】Excel是一款功能强大的电子表格软件,广泛应用于数据分析、数据处理和数据可视化。Excel提供了丰富的功能和工具,包括数据排序、筛选、公式计算、图表绘制等。它的用户界面简洁直观,操作便捷,适用于各种行业和领域。【安装步骤】1.选中下载的...
热门课程

热门课程

排行榜

【软件下载】点击下载:https://pan.baidu-download.com/extract/spss.html提取码:点击获取【软件介绍】SPSS是全球领先的统计分析软件,为研究人员和数据分析师提供强大的数据处理和分析功能。无论是进行数据探索、模型建立还是结果解释,SPSS都能提供全面的解决方案。其直观的用户界面和丰富的统计工具使得数据分析变得简单而高效。【安装步骤】1. 首先,右击...
【软件下载】点击下载:https://pan.baidu-download.com/extract/stata.html‍提取码:点击获取【软件介绍】STATA软件是一款功能强大的统计分析工具,被广泛应用于社会科学、经济学、生物医学等领域。它提供了丰富的统计方法和数据处理功能,可以进行数据清洗、数据可视化、回归分析、时间序列分析等操作。【安装步骤】1. 鼠标右击【Stata17.0(64bi...
【软件下载】点击下载:https://pan.baidu-download.com/extract/eviews.html‍提取码:点击获取‍【软件介绍】EViews是一款功能强大的经济统计分析软件,广泛应用于经济学、金融学等领域。它提供了丰富的数据处理、分析和建模工具,能够帮助用户进行数据的可视化、回归分析、时间序列分析等操作。【安装步骤】1.鼠标右击【EViews13(64bit)】压缩...
【软件下载】点击下载:https://pan.baidu-download.com/extract/matlab.html‍‍‍提取码:点击获取‍【软件介绍】MATLAB是一种高级技术计算和编程环境,广泛用于科学、工程和数学领域的数据分析、模拟和可视化。它是由MathWorks公司开发的,提供了丰富的函数库和工具箱,用于处理矩阵运算、信号处理、图像处理、优化、统计分析等各种任务。【安装步骤】...
【软件下载】百度云下载:https://pan.baidu-download.com/extract/python.html‍‍‍‍提取码:点击获取‍【软件介绍】Python是一种高级编程语言,具有简单易学、可读性强的特点。它被广泛应用于数据分析、人工智能、Web开发等领域。Python拥有丰富的库和框架,如NumPy、Pandas、TensorFlow等,可以方便地进行数据处理、机器学习和...
【软件下载】立即下载:https://pan.baidu-download.com/extract/rstudio.html‍‍‍‍‍提取码:点击获取‍‍【软件介绍】RStudio是一款专业的集成开发环境(IDE),用于R语言的开发和数据分析。它提供了丰富的功能和工具,包括代码编辑、调试、数据可视化和报告生成等。通过RStudio,用户可以高效地编写和运行R代码,进行数据处理、统计分析和机器...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Amos.html提取码:点击获取‍【软件介绍】AMOS是一款广泛应用于社会科学、教育研究、市场调研等领域的统计分析软件,它提供了强大的功能和直观的界面,帮助用户进行复杂的结构方程建模和模型验证,从而深入分析数据之间的关系和影响。【安装步骤】1.鼠标右击【Amos28】压缩包(win11...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Mplus.html提取码:点击获取‍【软件介绍】Mplus是一款专业的统计分析软件,主要用于结构方程模型(SEM)和混合效应模型(HLM)的建模和分析。Mplus提供了丰富的功能和工具,包括路径分析、因子分析、多水平建模等。Mplus的用户界面友好易用,支持图形化操作,使得模型构建和分...
数据分析网 专业数据分析服务
专业学术和研究领域的综合性数据分析服务平台
——————————————————————————————————————————————————————
微信客服            
本站教程已获得国家版权登记证书,受版权保护。未经授权,任何个人或机构不得以任何形式复制、传播、修改或用于商业目的。违反者将承担法律责任。
如需使用本站教程内容,请联系我们获取授权。谢谢合作!
以下为部分版权登记号:鲁作登字-2023-L-00466766   鲁作登字-2023-L-00466759   鲁作登字-2023-L-00466761   鲁作登字-2023-L-00466763   鲁作登字-2023-L-00466757