数据分析网

6.1、Mplus当OLS遇到嵌套数据—零基础入门教程

微信扫码观看完整版Mplus视频课程、分析师在线答疑解惑哦~

微信扫码-通用.jpg

视频教程·
课程摘要

当使用Mplus进行OLS(普通最小二乘法)回归分析时,如果数据存在嵌套结构,即个体数据存在于群组或层次结构中,Mplus可以提供有效的分析方法。嵌套数据分析可以帮助研究人员探索个体和群组之间的关系,并考虑到群组之间的相关性。Mplus提供了多种嵌套数据分析模型,如多层线性回归模型和多层结构方程模型等。这些模型可以帮助研究人员估计个体和群组水平的回归系数,并提供有关群组之间差异的信息。通过Mplus的嵌套数据分析,研究人员可以更准确地理解个体和群组之间的关系,从而得出更可靠的研究结论。

【详细教程】

Mplus当OLS遇到嵌套数据


回归是最基础也是应用最广泛的统计分析技术。通过回归模型,可以分析自变量解释因变量的影响是否具有统计学上的显著性,以及作用幅度的大小。以简单一元回归为例:


1.png


其中,Y,为因变量或被解释变量,X,为自变量或解释变量,β。为截距,β₁为斜率,8;为误差项。


推广到有h个自变量的情况,即为一般的多元回归。可用如下公式表示:


2.png



其中,Y,为因变量或被解释变量,Xa,…,X 为自变量或解释变量,β,为截距,β,…,β为 斜率或偏回归系数,ε;为误差项。


然而要注意的是,线性回归模型只有在满足一系列的假定的条件下,才能得到无偏有效的估计。 一般来讲,需要满足如下假定条件:


● 线性假定,某些非线性函数通过转换变为线性函数同样适用。


● 正交假定:①零条件均值,即E(μIXa,X₂,…,Xa)=0;② 误差项ε₁与X, 不相关, 即Cov(X,E;)=0。 另可推导,Cov(Y,s,)=0。


●独立同分布假定(i.i.d.)①任意两个误差项之间协方差为0,即 Cov(Bj,B;)=0,i≠j;②同方差性,对于所有的X 值,ε的方差σ²相同,即Var(e;)=Var(e;)=σ²。


● 正态分布假定,误差项ε是一个服从正态分布的随机变量,且相互独立,即ε~ N(0,c²)。


若满足正交假定和独立同分布假定,最小二乘法得到的回归参数估计是所有估计中最佳线性无偏估计(best linear unbiased estimator)。此即所谓“高斯-马尔科夫定理”。


现实当中,我们需要面对不同的研究层次,研究对象嵌套在不同层次的单位之中。 比如我们研究学生成绩,学生来自不同的班级,这些班级又嵌套在不同的学校之中。研究企业来自不同的产业区,产业区又位于不同的城市。在进行重复测量的设计时,不同试点的测量嵌套于同一个个体之内(历时数据、增长模型),参数的估计嵌套于不同的研究(meta-analysis)。嵌套(nested)、聚类(cluster-correlated)、分层(hierarchical)、多水平(multilevel)等概念都是用来刻画这样一种数据结构特点。下图即属于这种情况,不同的学生嵌套于不同的学校,不同学生又分别测量了h 次,历次测量可以看作嵌套于学生个体。


3.png


实际上,在抽样调查时,由于可以大幅度节省成本,多阶段聚类抽样(multi-stage cluster sampling)十分常用,或者进行历时研究,在不同时点对不同的个体进行多次测量,都自然会形成嵌套数据结构。也就是说,嵌套数据结构在现实当中是非常普遍的。


使用一般的回归模型处理嵌套数据存在诸多局限。不同的研究对象由于嵌套于不同的时空单位,彼此之间更具相关性。比如来自同一家庭的兄弟姊妹,其相似性肯定比来自不同家庭的个体之间要高。这破坏了使用OLS 回归残差相互独立的假定。在不存在内生问题的情况下,虽然回归系数估计仍然无偏,但标准误的估计偏小,尤其对于组群层面变量,导致统计效力损失,因而所犯第一类错误的概率往往偏大。许多显著结果可能是值得怀疑的。而且,如果忽略嵌套结构,显然也未充分利用数据中包含的信息。


因果推论时,如果分析单位和推论单位属于不同的层次,用某一层数据分析,而在另外的层上得出结论,在方法论上,就会造成“生态谬误”(ecological fallacy)或“还原谬误”

(atomistic fallacy)的问题(Hox,2010)。


统计上,对于嵌套于不同组群内部的个体之间的相似性,可以使用所谓“组内相关系数”(intra-class correlation coefficient)来精确衡量。 ICC( 也以p表示)定义为组间方差占总方差的比例:


4.png



其中,σ:为组间方差(between-group     variance),σ² 为组内方差(within-group   variance),

σ+o²   为总方差(total   variance)。


组内同质即组间异质。因此,ICC既然反映组间变异,其实另一面就是组内个体相关。其取值理论上为0到1。如果出现负值,可能是由于模型上设定错误或组间方差接近于零所致。 ICC 趋近于0,表示没有组群效应,组内个体趋于相互独立。


如果ICC 很小,此时模型可使用一般回归模型进行估计,无需进行多水平模型分析。 否则,传统回归模型观测值独立假设被破坏,需进行多水平分析。不同研究领域ICC标   准差异很大。 Cohen(1977)   指出,ICC 小于0.059时,属于小的组内相关;介于0.059和0.138之间时,属于中等相关;高于0.138,属于高度组内相关。中等程度组内相关就不能忽略组内相似性的存在,因此ICC大于0.059时,就需要使用多水平模型进行分析。决定是否使用多水平分析,也要考虑设计效应(design effect)。deff=1+ (组群平均规模-1)×p,当设计效应大于2时,考虑进行多水平分析(Satorra   &   Muthen,1995)。


目前常见的多水平分析软件主要包括:


HLM、Mplus、MLwin 、SAS(PROC MIXED)、 Stata(xtmixd, gllamm)、SPSS(MIXED)、R(multilevel,nlme)等。对于嵌套数据的处理,在这些软件中,Mplus的优势在于可以允许因变量是连续变量、二分变量、有序或无序类别变量、截取变量、计数变量等多种类型,而且还可以与路径分析、结构方程模型、因子分析、潜类分析等相结合,将这些模型置于多水平的框架之下。


需要注意的是,不同的软件所使用的多水平数据结构组织上有区别。 HLM要求分别输入个体水平和组群水平的数据集,而Mplus、SAS、SPSS、R、MLwin 等软件则要求输入混合数据集。


我们看一个实例。 PISA(Programme for International Student Assessment)是经合组织(OECD)1997年开始的一项国际调查,每三年一次,在世界范围内通过对15岁青少年阅读、 数学和科学的测验评估教育系统状况。目前有70个国家和经济体参与了PISA项目。


多信息可参阅官方网站。后续分析以美国2009年数据[1]为例,涉及的主要变量如下:


●水平-1文件(INT   STQ09   DEC11.sav):


HISEI,父母最高的社会境地地位指数(SEI);

FEMALE(STO4Q01),学生性别(1=男生,0=女生);

PV1MATH,数学成绩似真值(plausible   value);

PV1READ,阅读成绩似真值;

PV1SCIE,科学成绩似真值;


● 水平-2文件 (INT   SCQ09   Dec11.sav):


SECTOR(SCO2G01), 学校类型(1=私立,0=公立);

SCHSIZE, 学生规模; PROPQUAL,   有教师证的教师比例。


该数据属于嵌套数据。其中,下图分别为学生个体层面和学校层面的数据,而下图显示的是学生个体层面和学校层面的混合数据。


5.png


6.png


7.png


一般来讲,原始数据格式不同层面都是分开的,在使用Mplus软件进行多水平分析之前,需要进行合并。在Stata、SPSS等具有数据管理功能的统计软件中,使用合并(merge)过程可以很容易实现。对于上述数据,由于学生数据中有其所属学校的编号(shoolid), 可以此为索引变量,将学校数据合并进来,形成混合数据。



热门软件

热门软件

免费下载

【软件下载】点击下载:https://pan.baidu-download.com/extract/spss.html提取码:点击获取【软件介绍】SPSS是全球领先的统计分析软件,为研究人员和数据分析师提供强大的数据处理和分析功能。无论是进行数据探索、模型建立还是结果解释,SPSS都能提供全面的解决方案。其直观的用户界面和丰富的统计工具使得数据分析变得简单而高效。【安装步骤】1. 首先,右击...
【软件下载】点击下载:https://pan.baidu-download.com/extract/stata.html‍提取码:点击获取【软件介绍】STATA软件是一款功能强大的统计分析工具,被广泛应用于社会科学、经济学、生物医学等领域。它提供了丰富的统计方法和数据处理功能,可以进行数据清洗、数据可视化、回归分析、时间序列分析等操作。【安装步骤】1. 鼠标右击【Stata17.0(64bi...
【软件下载】点击下载:https://pan.baidu-download.com/extract/eviews.html‍提取码:点击获取‍【软件介绍】EViews是一款功能强大的经济统计分析软件,广泛应用于经济学、金融学等领域。它提供了丰富的数据处理、分析和建模工具,能够帮助用户进行数据的可视化、回归分析、时间序列分析等操作。【安装步骤】1.鼠标右击【EViews13(64bit)】压缩...
【软件下载】点击下载:https://pan.baidu-download.com/extract/matlab.html‍‍‍提取码:点击获取‍【软件介绍】MATLAB是一种高级技术计算和编程环境,广泛用于科学、工程和数学领域的数据分析、模拟和可视化。它是由MathWorks公司开发的,提供了丰富的函数库和工具箱,用于处理矩阵运算、信号处理、图像处理、优化、统计分析等各种任务。【安装步骤】...
【软件下载】百度云下载:https://pan.baidu-download.com/extract/python.html‍‍‍‍提取码:点击获取‍【软件介绍】Python是一种高级编程语言,具有简单易学、可读性强的特点。它被广泛应用于数据分析、人工智能、Web开发等领域。Python拥有丰富的库和框架,如NumPy、Pandas、TensorFlow等,可以方便地进行数据处理、机器学习和...
【软件下载】立即下载:https://pan.baidu-download.com/extract/rstudio.html‍‍‍‍‍提取码:点击获取‍‍【软件介绍】RStudio是一款专业的集成开发环境(IDE),用于R语言的开发和数据分析。它提供了丰富的功能和工具,包括代码编辑、调试、数据可视化和报告生成等。通过RStudio,用户可以高效地编写和运行R代码,进行数据处理、统计分析和机器...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Amos.html提取码:点击获取‍【软件介绍】AMOS是一款广泛应用于社会科学、教育研究、市场调研等领域的统计分析软件,它提供了强大的功能和直观的界面,帮助用户进行复杂的结构方程建模和模型验证,从而深入分析数据之间的关系和影响。【安装步骤】1.鼠标右击【Amos28】压缩包(win11...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Mplus.html提取码:点击获取‍【软件介绍】Mplus是一款专业的统计分析软件,主要用于结构方程模型(SEM)和混合效应模型(HLM)的建模和分析。Mplus提供了丰富的功能和工具,包括路径分析、因子分析、多水平建模等。Mplus的用户界面友好易用,支持图形化操作,使得模型构建和分...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Origin.html提取码:点击获取‍【软件介绍】Origin是一款功能强大的科学数据分析和可视化软件,广泛应用于各个领域的数据处理和研究工作。Origin提供了丰富的数据分析工具和图形绘制功能,帮助用户快速处理和分析数据,并将结果以直观的图表形式展示。【安装步骤】1.鼠标右击【Ori...
【软件下载】百度云下载:https://pan.baidu.com/s/1CVXkLwjhLDw_7H6FV9O47Q‍‍‍‍‍提取码:点击获取【软件介绍】Excel是一款功能强大的电子表格软件,广泛应用于数据分析、数据处理和数据可视化。Excel提供了丰富的功能和工具,包括数据排序、筛选、公式计算、图表绘制等。它的用户界面简洁直观,操作便捷,适用于各种行业和领域。【安装步骤】1.选中下载的...
热门课程

热门课程

排行榜

【软件下载】点击下载:https://pan.baidu-download.com/extract/spss.html提取码:点击获取【软件介绍】SPSS是全球领先的统计分析软件,为研究人员和数据分析师提供强大的数据处理和分析功能。无论是进行数据探索、模型建立还是结果解释,SPSS都能提供全面的解决方案。其直观的用户界面和丰富的统计工具使得数据分析变得简单而高效。【安装步骤】1. 首先,右击...
【软件下载】点击下载:https://pan.baidu-download.com/extract/stata.html‍提取码:点击获取【软件介绍】STATA软件是一款功能强大的统计分析工具,被广泛应用于社会科学、经济学、生物医学等领域。它提供了丰富的统计方法和数据处理功能,可以进行数据清洗、数据可视化、回归分析、时间序列分析等操作。【安装步骤】1. 鼠标右击【Stata17.0(64bi...
【软件下载】点击下载:https://pan.baidu-download.com/extract/eviews.html‍提取码:点击获取‍【软件介绍】EViews是一款功能强大的经济统计分析软件,广泛应用于经济学、金融学等领域。它提供了丰富的数据处理、分析和建模工具,能够帮助用户进行数据的可视化、回归分析、时间序列分析等操作。【安装步骤】1.鼠标右击【EViews13(64bit)】压缩...
【软件下载】点击下载:https://pan.baidu-download.com/extract/matlab.html‍‍‍提取码:点击获取‍【软件介绍】MATLAB是一种高级技术计算和编程环境,广泛用于科学、工程和数学领域的数据分析、模拟和可视化。它是由MathWorks公司开发的,提供了丰富的函数库和工具箱,用于处理矩阵运算、信号处理、图像处理、优化、统计分析等各种任务。【安装步骤】...
【软件下载】百度云下载:https://pan.baidu-download.com/extract/python.html‍‍‍‍提取码:点击获取‍【软件介绍】Python是一种高级编程语言,具有简单易学、可读性强的特点。它被广泛应用于数据分析、人工智能、Web开发等领域。Python拥有丰富的库和框架,如NumPy、Pandas、TensorFlow等,可以方便地进行数据处理、机器学习和...
【软件下载】立即下载:https://pan.baidu-download.com/extract/rstudio.html‍‍‍‍‍提取码:点击获取‍‍【软件介绍】RStudio是一款专业的集成开发环境(IDE),用于R语言的开发和数据分析。它提供了丰富的功能和工具,包括代码编辑、调试、数据可视化和报告生成等。通过RStudio,用户可以高效地编写和运行R代码,进行数据处理、统计分析和机器...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Amos.html提取码:点击获取‍【软件介绍】AMOS是一款广泛应用于社会科学、教育研究、市场调研等领域的统计分析软件,它提供了强大的功能和直观的界面,帮助用户进行复杂的结构方程建模和模型验证,从而深入分析数据之间的关系和影响。【安装步骤】1.鼠标右击【Amos28】压缩包(win11...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Mplus.html提取码:点击获取‍【软件介绍】Mplus是一款专业的统计分析软件,主要用于结构方程模型(SEM)和混合效应模型(HLM)的建模和分析。Mplus提供了丰富的功能和工具,包括路径分析、因子分析、多水平建模等。Mplus的用户界面友好易用,支持图形化操作,使得模型构建和分...
数据分析网 专业数据分析服务
专业学术和研究领域的综合性数据分析服务平台
——————————————————————————————————————————————————————
微信客服            
本站教程已获得国家版权登记证书,受版权保护。未经授权,任何个人或机构不得以任何形式复制、传播、修改或用于商业目的。违反者将承担法律责任。
如需使用本站教程内容,请联系我们获取授权。谢谢合作!
以下为部分版权登记号:鲁作登字-2023-L-00466766   鲁作登字-2023-L-00466759   鲁作登字-2023-L-00466761   鲁作登字-2023-L-00466763   鲁作登字-2023-L-00466757