数据分析网

10.1、Stata断尾回归分析—零基础入门教程

微信扫码观看完整版Stata视频课程、分析师在线答疑解惑哦~

微信扫码-通用.jpg

课程摘要

Stata是一种统计分析软件,用于数据分析和建模。在经济学和社会科学研究中,断尾回归分析(truncated regression analysis)是一种用于处理因为样本选择而导致的截尾数据的方法。Stata提供了命令和函数来进行断尾回归分析。通过使用这些命令和函数,可以对截尾数据的影响因素进行建模和分析。在Stata中,可以使用命令如tobit进行断尾回归模型的估计。这个命令允许用户根据数据的特点,选择适当的模型和估计方法,并进行参数估计、假设检验和模型诊断等操作。

详细教程

Stata断尾回归分析


1. 断尾回归分析的功能与意义


断尾回归分析是对因变量只有大于一定数值或者小于一定数值时才能被观测到的一种回归分析方法。或者说,观测数据仅来自于总体样本的一部分,只有在某个特殊值之上或之下的观测值才能被观测到。所以,因变量的取值范围是受到限制的,不可能取到范围之外的数值。举例来说,如果研究某单位的薪酬情况,把年薪作为因变量,那么该因变量的取值范围就大于0 ,小于0是不可能的,没有实际意义。


在因变量符合断尾特征时,通过一般的最小二乘回归分析得到的结论是不完美的,但是通过极大似然估计方法 (Maximum   Likelihood Estimate,MLE) 可以得到一致的估计。极大似然估计方法最早于1821年由德国数学家C.F.Gauss(高斯)提出。


假设因变量为y, 数据在M 点左断尾,且自变量x 服从均值为u和方差为O的正态分布,其条件密度函数为:


1.png


在上述公式中,φ是标准正态分布的概率密度函数, 中是标准正态分布的累积分布函数,基于此可以计算出整个样本的似然函数,然后使用极大似然估计法进行估计。


2. 断尾回归分析的Stata 操作


断尾回归分析的命令为truncreg, 该命令的语法格式为:


truncreg depvar [indepvars][if][in][weight][,options]


truncreg为断尾回归的命令, depvar为被解释变量(因变量),indepvar代表解释变量(自变量), [if]为条件表达式, [in]用于设置样本范围, [weight]用于设置权重。[,options]为可选项,主要包括下表所示的几项。


2.png



当我们在[,options]可选项中选择robust时,则使用稳健标准差进行断尾回归分析。稳健标准差是指其标准差对于模型中可能存在的异方差或自相关问题不敏感,基于稳健标准差计算的稳健t统计量仍然渐进服从t分布。因此,在Stata中利用robust选项可以得到异方差稳健估计量。


在断尾回归模型中同样可以进行预测,相应的命令及其语法格式为:


predict   [type]   newvar   [if][in][,statistic   nooffset]

predict为预测命令, type代表新变量的类型, newvar 代表生成的新变量, [if]为条件表达式, [in]用于设置样本范围, statistic代表要输出的统计量,主要包括下表所示的几项。


3.png



预测命令中的选项nooffset,   只有在之前的断尾回归中设置了offset() 选项时才有意义。预测时加上nooffset,   则会忽略模型拟合时所设置的offset()选项,因此线性预测结果中输出的是而非x,β+    offset;


x,β

此外,还有一个常用的对方程水平得分变量预测的命令,该命令的语法格式为:


predict [type]{stub*| newvarreg newvarinsigma}[if][in], scores

predict为预测命令, type 代表新变量的类型, newvar 代表生成的新变量, [if]为条件表达式, [in]用于设置样本范围, stub代表生成的新变量前缀。



3.断尾回归分析示例


我们使用数据10,记录的是某单位90名在岗职工的年薪、加班天数、工作年限以及职称级别情况。已知该单位的保底工资是50000元/ 年。试构建回归分析模型研究一下该单位职工的年薪受加班天数、工作年限、职称级别(1表示初级职称,2表示中级职称,3表示高级职称)   等变量的影响情况,如下图所示。


4.png


下面我们以年薪为因变量,以加班天数、工作年限、职称级别为自变量,开展回归分析。打开数据文件之后,在主界面的命令窗口中依次输入:


reg年薪加班天数工作年限职称级别

本命令的含义是以年薪为因变量,以加班天数、工作年限、职称级别为自变量,进行普通最小二乘回归分析,研究变量之间的因果影响关系。分析结果如下图所示。


5.png



可以看出共有90个样本参与了分析 (Number of obs =90), 模型的F值 (F(3,   86))   为436.86, P 值 (Prob>F) 为0.0000,说明模型整体上是非常显著的。模型的可决系数 (R-squared) 为0.9384,模型修正的可决系数 (Adj   R-squared)为0.9363,说明模型的解释能力是非常高的。


模型的回归方程是:

年薪=775.4742*加班天数+1832.195*工作年限+8539.669*职称级 别-10756.01

加班天数、工作年限、职称级别3个自变量的P>t 值均小于0.05,说明系数都比较显著,而且系数均为正值,说明3个自变量对于因变量都是正向显著影响的。


truncreg 年薪加班天数工作年限职称级别,Ⅱ(50000)

本命令的含义是以年薪为因变量,以加班天数、工作年限、职称级别为自变量,并设置因变量的取值下限为50000,进行断尾回归分析,研究变量之间的因果影响关系。分析结果如下图所示。


6.png


从分析结果中可以看到,没有样本观测值因为因变量不符合断尾条件被删除掉(note:0 obs

.truncated)。 模型使用极大似然估计,经过两次迭代后得到最终模型。断尾的下限为5000 (Limit:lower=50000), 断尾的上限为正无穷 (upper=+inf)。 最终模型的对数似然函数值Log likelihood   为-934.73538。共有90个样本参与了分析,模型Wald chi2(3) 统计量为1322.32, Prob>chi2 为0.0000,说明模型非常显著。


模型的回归方程是:

年薪=766.4839*加班天数+1931.597*工作年限+8504.626*职称级 别-10679.67

从下图可以看出断尾回归分析模型相对于最小二乘回归模型有了一定程度的改进,主要体现在个别变量系数显著程度的提高。


predict yhat

本命令的含义是估计因变量的拟合值。


predict e,resid

本命令的含义是估计断尾回归分析的残差。


predict p, stdp

本命令的含义是估计拟合的标准误。


predict f, stdf

本命令的含义是估计预测的标准误。


edit

本命令的含义是打开数据编辑器,查看数据文件中的数据,如下图所示。


7.png



truncreg年薪加班天数工作年限职称级别,Ⅱ(50000) robust

本命令的含义是以年薪为因变量,以加班天数、工作年限、职称级别为自变量,并设置因变量的取值下限为50000,使用稳健的标准差进   行断尾回归分析,研究变量之间的因果影响关系,分析结果如下图所示。


8.png




热门软件

热门软件

免费下载

【软件下载】点击下载:https://pan.baidu-download.com/extract/spss.html提取码:点击获取【软件介绍】SPSS是全球领先的统计分析软件,为研究人员和数据分析师提供强大的数据处理和分析功能。无论是进行数据探索、模型建立还是结果解释,SPSS都能提供全面的解决方案。其直观的用户界面和丰富的统计工具使得数据分析变得简单而高效。【安装步骤】1. 首先,右击...
【软件下载】点击下载:https://pan.baidu-download.com/extract/stata.html‍提取码:点击获取【软件介绍】STATA软件是一款功能强大的统计分析工具,被广泛应用于社会科学、经济学、生物医学等领域。它提供了丰富的统计方法和数据处理功能,可以进行数据清洗、数据可视化、回归分析、时间序列分析等操作。【安装步骤】1. 鼠标右击【Stata17.0(64bi...
【软件下载】点击下载:https://pan.baidu-download.com/extract/eviews.html‍提取码:点击获取‍【软件介绍】EViews是一款功能强大的经济统计分析软件,广泛应用于经济学、金融学等领域。它提供了丰富的数据处理、分析和建模工具,能够帮助用户进行数据的可视化、回归分析、时间序列分析等操作。【安装步骤】1.鼠标右击【EViews13(64bit)】压缩...
【软件下载】点击下载:https://pan.baidu-download.com/extract/matlab.html‍‍‍提取码:点击获取‍【软件介绍】MATLAB是一种高级技术计算和编程环境,广泛用于科学、工程和数学领域的数据分析、模拟和可视化。它是由MathWorks公司开发的,提供了丰富的函数库和工具箱,用于处理矩阵运算、信号处理、图像处理、优化、统计分析等各种任务。【安装步骤】...
【软件下载】百度云下载:https://pan.baidu-download.com/extract/python.html‍‍‍‍提取码:点击获取‍【软件介绍】Python是一种高级编程语言,具有简单易学、可读性强的特点。它被广泛应用于数据分析、人工智能、Web开发等领域。Python拥有丰富的库和框架,如NumPy、Pandas、TensorFlow等,可以方便地进行数据处理、机器学习和...
【软件下载】立即下载:https://pan.baidu-download.com/extract/rstudio.html‍‍‍‍‍提取码:点击获取‍‍【软件介绍】RStudio是一款专业的集成开发环境(IDE),用于R语言的开发和数据分析。它提供了丰富的功能和工具,包括代码编辑、调试、数据可视化和报告生成等。通过RStudio,用户可以高效地编写和运行R代码,进行数据处理、统计分析和机器...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Amos.html提取码:点击获取‍【软件介绍】AMOS是一款广泛应用于社会科学、教育研究、市场调研等领域的统计分析软件,它提供了强大的功能和直观的界面,帮助用户进行复杂的结构方程建模和模型验证,从而深入分析数据之间的关系和影响。【安装步骤】1.鼠标右击【Amos28】压缩包(win11...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Mplus.html提取码:点击获取‍【软件介绍】Mplus是一款专业的统计分析软件,主要用于结构方程模型(SEM)和混合效应模型(HLM)的建模和分析。Mplus提供了丰富的功能和工具,包括路径分析、因子分析、多水平建模等。Mplus的用户界面友好易用,支持图形化操作,使得模型构建和分...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Origin.html提取码:点击获取‍【软件介绍】Origin是一款功能强大的科学数据分析和可视化软件,广泛应用于各个领域的数据处理和研究工作。Origin提供了丰富的数据分析工具和图形绘制功能,帮助用户快速处理和分析数据,并将结果以直观的图表形式展示。【安装步骤】1.鼠标右击【Ori...
【软件下载】百度云下载:https://pan.baidu.com/s/1CVXkLwjhLDw_7H6FV9O47Q‍‍‍‍‍提取码:点击获取【软件介绍】Excel是一款功能强大的电子表格软件,广泛应用于数据分析、数据处理和数据可视化。Excel提供了丰富的功能和工具,包括数据排序、筛选、公式计算、图表绘制等。它的用户界面简洁直观,操作便捷,适用于各种行业和领域。【安装步骤】1.选中下载的...
热门课程

热门课程

排行榜

【软件下载】点击下载:https://pan.baidu-download.com/extract/spss.html提取码:点击获取【软件介绍】SPSS是全球领先的统计分析软件,为研究人员和数据分析师提供强大的数据处理和分析功能。无论是进行数据探索、模型建立还是结果解释,SPSS都能提供全面的解决方案。其直观的用户界面和丰富的统计工具使得数据分析变得简单而高效。【安装步骤】1. 首先,右击...
【软件下载】点击下载:https://pan.baidu-download.com/extract/stata.html‍提取码:点击获取【软件介绍】STATA软件是一款功能强大的统计分析工具,被广泛应用于社会科学、经济学、生物医学等领域。它提供了丰富的统计方法和数据处理功能,可以进行数据清洗、数据可视化、回归分析、时间序列分析等操作。【安装步骤】1. 鼠标右击【Stata17.0(64bi...
【软件下载】点击下载:https://pan.baidu-download.com/extract/eviews.html‍提取码:点击获取‍【软件介绍】EViews是一款功能强大的经济统计分析软件,广泛应用于经济学、金融学等领域。它提供了丰富的数据处理、分析和建模工具,能够帮助用户进行数据的可视化、回归分析、时间序列分析等操作。【安装步骤】1.鼠标右击【EViews13(64bit)】压缩...
【软件下载】点击下载:https://pan.baidu-download.com/extract/matlab.html‍‍‍提取码:点击获取‍【软件介绍】MATLAB是一种高级技术计算和编程环境,广泛用于科学、工程和数学领域的数据分析、模拟和可视化。它是由MathWorks公司开发的,提供了丰富的函数库和工具箱,用于处理矩阵运算、信号处理、图像处理、优化、统计分析等各种任务。【安装步骤】...
【软件下载】百度云下载:https://pan.baidu-download.com/extract/python.html‍‍‍‍提取码:点击获取‍【软件介绍】Python是一种高级编程语言,具有简单易学、可读性强的特点。它被广泛应用于数据分析、人工智能、Web开发等领域。Python拥有丰富的库和框架,如NumPy、Pandas、TensorFlow等,可以方便地进行数据处理、机器学习和...
【软件下载】立即下载:https://pan.baidu-download.com/extract/rstudio.html‍‍‍‍‍提取码:点击获取‍‍【软件介绍】RStudio是一款专业的集成开发环境(IDE),用于R语言的开发和数据分析。它提供了丰富的功能和工具,包括代码编辑、调试、数据可视化和报告生成等。通过RStudio,用户可以高效地编写和运行R代码,进行数据处理、统计分析和机器...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Amos.html提取码:点击获取‍【软件介绍】AMOS是一款广泛应用于社会科学、教育研究、市场调研等领域的统计分析软件,它提供了强大的功能和直观的界面,帮助用户进行复杂的结构方程建模和模型验证,从而深入分析数据之间的关系和影响。【安装步骤】1.鼠标右击【Amos28】压缩包(win11...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Mplus.html提取码:点击获取‍【软件介绍】Mplus是一款专业的统计分析软件,主要用于结构方程模型(SEM)和混合效应模型(HLM)的建模和分析。Mplus提供了丰富的功能和工具,包括路径分析、因子分析、多水平建模等。Mplus的用户界面友好易用,支持图形化操作,使得模型构建和分...
数据分析网 专业数据分析服务
专业学术和研究领域的综合性数据分析服务平台
——————————————————————————————————————————————————————
微信客服            
本站教程已获得国家版权登记证书,受版权保护。未经授权,任何个人或机构不得以任何形式复制、传播、修改或用于商业目的。违反者将承担法律责任。
如需使用本站教程内容,请联系我们获取授权。谢谢合作!
以下为部分版权登记号:鲁作登字-2023-L-00466766   鲁作登字-2023-L-00466759   鲁作登字-2023-L-00466761   鲁作登字-2023-L-00466763   鲁作登字-2023-L-00466757