数据分析网

2.1、Stata描述性统计—零基础入门教程

微信扫码观看完整版Stata视频课程、分析师在线答疑解惑哦~

微信扫码-通用.jpg

课程摘要

在Stata中,描述性统计是对数据进行基本统计分析的方法。通过使用Stata的命令,我们可以获取数据的描述性统计信息。首先,可以使用summarize命令获取数据的基本统计量,包括均值、标准差、最小值、最大值等。该命令可以帮助我们了解数据的集中趋势和离散程度。其次,可以使用tabulate命令获取分类变量的频数统计信息。该命令可以显示每个分类变量的不同取值及其频数,帮助我们了解分类变量的分布情况。此外,还可以使用correlate命令计算变量之间的相关系数。该命令可以帮助我们了解变量之间的线性关系。

【详细教程】

Stata 命令的语法格式


一、 常用的描述性统计指标的基本概念

1 .均值、中位数、众数、百分位数


(1)均值


Stata 中的均值指的是简单算术平均数,计算公式为:


1.png


(2 )中位数


中位数是将整个统计变量的各个变量值按大小顺序排列,处在数列 中间位置的那个变量值就是中位数。在数据未分组的情况下,将各变量值按大小顺序排列后,首先确定中位数的位置,可用公式Sn+2n/(n+1)代表总体统计变量的项数;然后根据中点位置确定中位数。有两种情况:当n为奇数项时,中位数就是位于中间位置的那个变量值;当n为偶数项时,中位数就是位于中间位置的两个变量值的简单算术平均数。


(3) 众 数


众数是某一变量出现次数最多的样本观测值。


(4)百分位数


如果将一组数据从小到大排序,并计算相应的累计百分位,则某一 百分位所对应数据的值就称为这一百分位的百分位数。例如处于10%位 置的值称为第10百分位数。最为常用的是四分位数,指的是将数据分为 4等份,分别位于25%、50%和75%处的百分位数。百分位数适用于定序 数据及更高级的数据,不能用于定类数据。百分位数的优点是不受极端值的影响。


2. 方差、标准差、均值标准误差


(1)方差、标准差


方差是总体统计变量中各个单位变量值与其算术平均数的离差平方 的算术平均数,用2°表示,方差的平方根就是标准差σ。与方差不同的   是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要 比方差清楚。因此,在对社会经济现象进行分析时,往往更多地使用标准差。方差和标准差的计算公式为:


2.png

                                                              方差


3.png

                                                             标准差


在正态分布中,68%的个案在均值的一倍标准差范围内,95%的个 案在均值的两倍标准差范围内。例如,如果一组数据服从正态分布,且 均值为100,标准差为10,则68%的个案将处于90~110,95%的个案将处于80~120。


(2)均值标准误差


一个容易与标准差混淆的统计量是均值标准误差,均值标准误差是 样本均值的标准差,是描述样本均值和总体均值平均偏差程度的统计

量,也是表示抽样误差大小的指标。


3. 最大值、最小值、极差、变异系数


(1)最大值、最小值、极差


最大值即样本数据中取值最大的数据,最小值即样本数据中取值最小的数据。最大值与最小值的差即为极差,又称范围、全距,以R 表示:


4.png


(2)变异系数

变异系数是将标准差或平均差与其平均数对比所得的比值,又称离散系数。计算公式为:


5.png


6.png

V.和V。分别表示标准差系数和平均差系数。变异系数可用于比较不 同数列的变异程度。其中常用的变异系数是标准差系数。


4. 偏度、峰度


偏度是对分布偏斜方向及程度的测度,用来度量分布的不对称性。 正态分布是对称的,偏度值为0。具有显著正偏度值的分布有很长的右   尾,具有显著的负偏度的分布有很长的左尾。 一般情况下,如果计算的 偏度值超过其标准误的两倍,则认为该组数据不具有对称性。

偏度的计算公式为:


7.png

峰度是频数分布曲线与正态分布相比较,其顶端的尖峭程度。在Stata中,正态分布的峰度统计量的值为2,大于2的峰度值表示相对于正态分布,观测值更为集中在均值附近,体现为分布峰度更尖,尾部更薄。小于2的峰度值表示相对于正态分布,观察值更为分散,分布峰度低,尾部较厚。

峰度的计算公式为:


8.png

5.Z   标 准 化 得 分


Z标准化得分是某一数据与均值的距离以标准差为单位的测量值。

计算公式为:


9.png



二、定距变量的描述性统计


数据分析中的大部分变量都是定距变量,通过进行定距变量的基本 描述性统计,我们可以得到数据的概要统计指标,包括均值、最大值、 最小值、标准差、百分位数、中位数、偏度系数和峰度系数等。数据分 析者通过获得这些指标,可以从整体上对拟分析的数据进行宏观把握, 从而为后续进行更深入的数据分析做好必要的准备。关于定距变量的描述性统计,常用到summarize 、tabstat 、ci等操作 命令。


1.summarize 命令的语法格式为:summarize [varlist] [if] [in] [weight] [,options]


summarize 的功能是计算并显示各种单变量摘要统计信息。 [varlist]   为变量列表,如果没有指定varlist ,则计算数据集中所有变量的汇总统   计信息。 [if]为条件表达式, [in]用于设置样本范围, [weight]用于设置权 重, [,options]用于设置可选项。 summarize命令的[,options]可选项及其含义如下表所示。


10.png

2.tabstat命令的语法格式为:tabstat   varlist   [if][in][weight][,options]


tabstat的功能是在一个表中显示一系列数字变量的汇总统计信息,允许用户指定要显示的统计信息列表,而且统计数据可以根据另一个变量来计算,所以在统计数据和表格格式方面都具有很大的灵活性。[varlist]为变量列表,如果没有指定varlist, 则计算数据集中所有变量的 汇总统计信息。 [if]   为条件表达式, [in]用于设置样本范围, [weight]用于设置权重,[,options]用于设置可选项。 tabstat命令的[,options]选项及其含义如下表所示。


11.png

3.ci 的功能是计算总体均值、比例、方差和标准差的置信区间。


命令包括5种,分别为:


(1)均值的置信区间,正态分布:


ci   means   [varlist][if][in][weight][,options]


(2)均值的置信区间,泊松分布:


ci    means     [varlist][if][in][weight],    poisson     [exposure(varname)options]


(3)比例的置信区间:


ci   proportions   [varlist][if][in][weight][,prop   options   options]

(4)方差的置信区间:


ci   variances   [varlist][if][in][weight][,bonett   options]


(5)标准差的置信区间:


ci variances   [varlist][if][in][weight], sd   [bonett options]


下面以“数据2A ”数据文件为例进行说明,在“数据2A”中设置了两个变量,分别是province和amount, 数据如图所示。


12.png

打开上述数据文件之后,在主界面的命令窗口中依次输入以下命令:

summarize amount

本命令的含义是获取amount变量的主要描述性统计量。在Stata 16.0主界面的结果窗口中可以看到如图所示的分析结果。通过观察分析结果, amount变量的整体情况有一个初步的了解。从分析结果可以看出,有效观测样本共有31个,样本的均值为1180.489,样本的标准差是903.5561,样本的最小值是17.6987,样本的最大值是3609.642。


summarize amount,detail

本命令的含义是获取amount变量的详细统计量,分析结果如图所示。


13.png

(1)百分位数 (Percentiles)


可以看出数据的第1个四分位数(25%)是550.1556,数据的第2个四分位数( 50% )是891.1902 ,数据的第3个四分位数( 75% )是1324.61 。数据的百分位数的含义是低于该数据值的样本在全体样本中的百分比。例如,本例中25%分位数的含义是全体样本中有25% 的数据 值低于550.1556。


(2 )4个最小值( Smallest)


本例中,最小的4个数据值分别是17.6987 、133.7675 、337.2368、462.9585。

(3 )4个最大值(Largest)


本例中,最大的4个数据值分别是3609.642 、3313.986 、2941.067、2471.438。


(4 )均值(Mean )和标准差( Std. Dev)

与前面的分析结果一样,样本数据的均值为1180.489 ,样本数据的标准差是903.5561。


(5 )偏度( Skewness )和峰度(Kurtosis)


偏度的概念是表示不对称的方向和程度。如果偏度值大于0 ,那么数据就具有正偏度(右边有尾巴);如果偏度值小于0 ,那么数据就具 有负偏度(左边有尾巴);如果偏度值等于0 ,那么数据将呈对称分布。本例中,数据偏度为1.309032 ,为正偏度但不大。峰度的概念用来表示尾重,是与正态分布结合在一起进行考虑的。 正态分布是一种对称分布,它的峰度值正好等于3 ,如果某数据的峰度值大于3 ,那么该分布将会有一个比正态分布更长的尾巴;如果某数据 的峰度值小于3 ,那么该分布将会有一个比正态分布更短的尾巴。本例中,数据峰度为3.889152 ,有一个比正态分布更长的尾巴。





热门软件

热门软件

免费下载

【软件下载】点击下载:https://pan.baidu-download.com/extract/spss.html提取码:点击获取【软件介绍】SPSS是全球领先的统计分析软件,为研究人员和数据分析师提供强大的数据处理和分析功能。无论是进行数据探索、模型建立还是结果解释,SPSS都能提供全面的解决方案。其直观的用户界面和丰富的统计工具使得数据分析变得简单而高效。【安装步骤】1. 首先,右击...
【软件下载】点击下载:https://pan.baidu-download.com/extract/stata.html‍提取码:点击获取【软件介绍】STATA软件是一款功能强大的统计分析工具,被广泛应用于社会科学、经济学、生物医学等领域。它提供了丰富的统计方法和数据处理功能,可以进行数据清洗、数据可视化、回归分析、时间序列分析等操作。【安装步骤】1. 鼠标右击【Stata17.0(64bi...
【软件下载】点击下载:https://pan.baidu-download.com/extract/eviews.html‍提取码:点击获取‍【软件介绍】EViews是一款功能强大的经济统计分析软件,广泛应用于经济学、金融学等领域。它提供了丰富的数据处理、分析和建模工具,能够帮助用户进行数据的可视化、回归分析、时间序列分析等操作。【安装步骤】1.鼠标右击【EViews13(64bit)】压缩...
【软件下载】点击下载:https://pan.baidu-download.com/extract/matlab.html‍‍‍提取码:点击获取‍【软件介绍】MATLAB是一种高级技术计算和编程环境,广泛用于科学、工程和数学领域的数据分析、模拟和可视化。它是由MathWorks公司开发的,提供了丰富的函数库和工具箱,用于处理矩阵运算、信号处理、图像处理、优化、统计分析等各种任务。【安装步骤】...
【软件下载】百度云下载:https://pan.baidu-download.com/extract/python.html‍‍‍‍提取码:点击获取‍【软件介绍】Python是一种高级编程语言,具有简单易学、可读性强的特点。它被广泛应用于数据分析、人工智能、Web开发等领域。Python拥有丰富的库和框架,如NumPy、Pandas、TensorFlow等,可以方便地进行数据处理、机器学习和...
【软件下载】立即下载:https://pan.baidu-download.com/extract/rstudio.html‍‍‍‍‍提取码:点击获取‍‍【软件介绍】RStudio是一款专业的集成开发环境(IDE),用于R语言的开发和数据分析。它提供了丰富的功能和工具,包括代码编辑、调试、数据可视化和报告生成等。通过RStudio,用户可以高效地编写和运行R代码,进行数据处理、统计分析和机器...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Amos.html提取码:点击获取‍【软件介绍】AMOS是一款广泛应用于社会科学、教育研究、市场调研等领域的统计分析软件,它提供了强大的功能和直观的界面,帮助用户进行复杂的结构方程建模和模型验证,从而深入分析数据之间的关系和影响。【安装步骤】1.鼠标右击【Amos28】压缩包(win11...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Mplus.html提取码:点击获取‍【软件介绍】Mplus是一款专业的统计分析软件,主要用于结构方程模型(SEM)和混合效应模型(HLM)的建模和分析。Mplus提供了丰富的功能和工具,包括路径分析、因子分析、多水平建模等。Mplus的用户界面友好易用,支持图形化操作,使得模型构建和分...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Origin.html提取码:点击获取‍【软件介绍】Origin是一款功能强大的科学数据分析和可视化软件,广泛应用于各个领域的数据处理和研究工作。Origin提供了丰富的数据分析工具和图形绘制功能,帮助用户快速处理和分析数据,并将结果以直观的图表形式展示。【安装步骤】1.鼠标右击【Ori...
【软件下载】百度云下载:https://pan.baidu.com/s/1CVXkLwjhLDw_7H6FV9O47Q‍‍‍‍‍提取码:点击获取【软件介绍】Excel是一款功能强大的电子表格软件,广泛应用于数据分析、数据处理和数据可视化。Excel提供了丰富的功能和工具,包括数据排序、筛选、公式计算、图表绘制等。它的用户界面简洁直观,操作便捷,适用于各种行业和领域。【安装步骤】1.选中下载的...
热门课程

热门课程

排行榜

【软件下载】点击下载:https://pan.baidu-download.com/extract/spss.html提取码:点击获取【软件介绍】SPSS是全球领先的统计分析软件,为研究人员和数据分析师提供强大的数据处理和分析功能。无论是进行数据探索、模型建立还是结果解释,SPSS都能提供全面的解决方案。其直观的用户界面和丰富的统计工具使得数据分析变得简单而高效。【安装步骤】1. 首先,右击...
【软件下载】点击下载:https://pan.baidu-download.com/extract/stata.html‍提取码:点击获取【软件介绍】STATA软件是一款功能强大的统计分析工具,被广泛应用于社会科学、经济学、生物医学等领域。它提供了丰富的统计方法和数据处理功能,可以进行数据清洗、数据可视化、回归分析、时间序列分析等操作。【安装步骤】1. 鼠标右击【Stata17.0(64bi...
【软件下载】点击下载:https://pan.baidu-download.com/extract/eviews.html‍提取码:点击获取‍【软件介绍】EViews是一款功能强大的经济统计分析软件,广泛应用于经济学、金融学等领域。它提供了丰富的数据处理、分析和建模工具,能够帮助用户进行数据的可视化、回归分析、时间序列分析等操作。【安装步骤】1.鼠标右击【EViews13(64bit)】压缩...
【软件下载】点击下载:https://pan.baidu-download.com/extract/matlab.html‍‍‍提取码:点击获取‍【软件介绍】MATLAB是一种高级技术计算和编程环境,广泛用于科学、工程和数学领域的数据分析、模拟和可视化。它是由MathWorks公司开发的,提供了丰富的函数库和工具箱,用于处理矩阵运算、信号处理、图像处理、优化、统计分析等各种任务。【安装步骤】...
【软件下载】百度云下载:https://pan.baidu-download.com/extract/python.html‍‍‍‍提取码:点击获取‍【软件介绍】Python是一种高级编程语言,具有简单易学、可读性强的特点。它被广泛应用于数据分析、人工智能、Web开发等领域。Python拥有丰富的库和框架,如NumPy、Pandas、TensorFlow等,可以方便地进行数据处理、机器学习和...
【软件下载】立即下载:https://pan.baidu-download.com/extract/rstudio.html‍‍‍‍‍提取码:点击获取‍‍【软件介绍】RStudio是一款专业的集成开发环境(IDE),用于R语言的开发和数据分析。它提供了丰富的功能和工具,包括代码编辑、调试、数据可视化和报告生成等。通过RStudio,用户可以高效地编写和运行R代码,进行数据处理、统计分析和机器...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Amos.html提取码:点击获取‍【软件介绍】AMOS是一款广泛应用于社会科学、教育研究、市场调研等领域的统计分析软件,它提供了强大的功能和直观的界面,帮助用户进行复杂的结构方程建模和模型验证,从而深入分析数据之间的关系和影响。【安装步骤】1.鼠标右击【Amos28】压缩包(win11...
【软件下载】点击下载:https://pan.baidu-download.com/Extraction/Mplus.html提取码:点击获取‍【软件介绍】Mplus是一款专业的统计分析软件,主要用于结构方程模型(SEM)和混合效应模型(HLM)的建模和分析。Mplus提供了丰富的功能和工具,包括路径分析、因子分析、多水平建模等。Mplus的用户界面友好易用,支持图形化操作,使得模型构建和分...
数据分析网 专业数据分析服务
专业学术和研究领域的综合性数据分析服务平台
——————————————————————————————————————————————————————
微信客服            
本站教程已获得国家版权登记证书,受版权保护。未经授权,任何个人或机构不得以任何形式复制、传播、修改或用于商业目的。违反者将承担法律责任。
如需使用本站教程内容,请联系我们获取授权。谢谢合作!
以下为部分版权登记号:鲁作登字-2023-L-00466766   鲁作登字-2023-L-00466759   鲁作登字-2023-L-00466761   鲁作登字-2023-L-00466763   鲁作登字-2023-L-00466757