首页 Stata入门手册

Stata入门手册

Stata入门手册 STATA操作方法概述  引言  STATA简介  STATA的发展历史  STATA的界面结构  STATA的主要特点与功能  STATA的语法结构 1 《STATA应用高级培训教程》南开大学数量经济研究所王群勇引言  规范性的研究包括两个核心的要素：理论模型和经验分析（统计分析、计量分析）。  面临的问题：  研究者经常地希望利用多种方法从不同角度对数据进行分析，但拥有绝对优势的软件是不存在的，不存在哪个软件能解决所有的问题。  计量经济学发展迅...

STATA操作方法概述  引言  STATA简介  STATA的发展历史  STATA的界面结构  STATA的主要特点与功能  STATA的语法结构 1 《STATA应用高级培训教程》南开大学数量经济研究所王群勇引言  规范性的研究包括两个核心的要素：理论模型和经验分析（统计分析、计量分析）。  面临的问题：  研究者经常地希望利用多种方法从不同角度对数据进行分析，但拥有绝对优势的软件是不存在的，不存在哪个软件能解决所有的问题。  计量经济学发展迅速，新的方法层出不穷，而软件公司将这些新方法嵌入到软件中是存在滞后的。 2 《STATA应用高级培训教程》南开大学数量经济研究所王群勇引言  解决方案：  不同的软件各有所长，各有所短。学习、掌握多种软件。但是不同的软件在数据格式、操作方法、语法结构有很大区别，因此熟练掌握一种软件需要花费较长的时间。  我们希望能够有一个相对较为综合的分析软件=>Stata在统计、计量分析方面都非常出色。  是否已有相应的程序供我们直接运行=>Stata具有丰富的网络资源  掌握软件的编程方法，自己编写程序=>Stata具有简练、强大、快捷的编程和运算功能。  Stata以其操作简单、运行快速而精确，全面的数据管理功能，精致的作图，强大的统计与计量分析功能，简练标准的程序与矩阵运算功能、丰富的网络资源，在统计学、经济学、金融学、心理学、计算机科学、物理、化学等多个学科领域得到广泛使用（http://www.stata.com/whystata/field.html）。 3 《STATA应用高级培训教程》南开大学数量经济研究所王群勇 STATA简介：发展历史  Stata是一个用于数据管理和分析的统计软件，由Stata公司（StataCorp）研制开发。从1985开始，先后开发了1.1, 1.2,…,等多个版本。目前Stata 的最新版本为2009年7月份推出的Stata 11.0。 4 《STATA应用高级培训教程》南开大学数量经济研究所王群勇 STATA简介：发展历史  Stata 11包括四种版本：Small（小型版）、IC（标准版）、SE（特别版）和MP（多处理器版）。其中属MP版本最为强大。MP版与SE版的功能完全相同，但MP版的运算速度比SE版的要快很多。用户可以在命令栏输入 about 查看所安装的Stata所属的版本。  不同版本对样本容量、变量个数、矩阵阶数、宏的字符长度等有着不同的限制。以SE版为例，其最大变量个数为32767，最大字符长度为244 字节，最大矩阵阶数为11000（即1100011000）。Stata默认值为：最大变量个数为5000，最大矩阵阶数为400，最大内存为50兆(在Stata10中为 10m)。如果用户需要更多的内存或者更多的变量，可以在命令栏输入如下命令进行扩展。 . set maxvar # (.set maxvar 5000 <最大变量个数5000个。>) . set maxsize # (.set maxsize 1000 <最大矩阵阶数10001000。>) . set memory #m (.set memory 50m <分配内存50兆。>) 5 《STATA应用高级培训教程》南开大学数量经济研究所王群勇 STATA简介：界面结构  6 《STATA应用高级培训教程》南开大学数量经济研究所王群勇 STATA简介：界面风格设置  风格设置：Edit - > Preference （右键->Preference)  字体设置：（右键->Font) 《STATA应用高级培训教程》南开大学数量经济研究所王群勇 STATA简介：主要特点与功能  统计分析与计量分析的结合  单元统计：描述统计、假设检验（参数、非参数）、ANOVA、质量控制、统计作图  多元统计：MANOVA、主成分、因子分析、典型相关、聚类、判别分析、对应分析、多维标度  线性回归、非线性回归、工具变量回归、广义线性回归、分位数回归（稳健回归）、系统方程模型（SUR、联立方程）、离散选择模型（二项选择、排序选择、多项选择、条件Logit、嵌套Logit模型、二元选择模型等）、计数模型（泊松回归、负二项回归）、截断与归并模型、海克曼选择模型、逐步回归(stepwise)等。  时间序列分析：时间序列的平滑、相关图、ARIMAX、GARCH、单位根检验、 Johansen协整检验、 VAR、VEC、滚动回归等。  面板数据（线性模型、工具变量回归、动态面板、分层混合效应、广义估计方程（GEE）、随机边界模型等）。  调查数据分析  生存分析  蒙特卡洛模拟、自举法(bootstrap)、刀切法（jackknife） Capability 8 《STATA应用高级培训教程》南开大学数量经济研究所王群勇 STATA简介：主要特点与功能  丰富的网络资源。 http://www.stata.com http://www.stata-press.com http://www.stata-journal.com  严谨、简练、灵活的程序语言。 Stata提供了严谨、简练而灵活的程序语句，用户可以编写自己的命令和函数，也可以制作自己的对话框和窗口菜单。  强大的矩阵运算功能：Mata Mata是Stata的矩阵运算语言，实现各种运算  兼容性。在Stata中可以直接运行其它程序；其他语言编写的程序可以作为插件（Plugin）直接嵌入到Stata中。 Add New Features Examples Utilities 9 《STATA应用高级培训教程》南开大学数量经济研究所王群勇 STATA简介：主要特点与功能  Stata与EViews的比较 (1) Regresson method OLS GLS NLS 2SLS GMM (N)SUR 3SLS ML Eviews yes yes yes yes yes yes yes yes Stata yes yes yes yes yes yes yes yes Quantile Stepwise GLM Heckman Eviews yes(6) yes(6) Stata yes yes yes yes 10 《STATA应用高级培训教程》南开大学数量经济研究所王群勇 STATA简介：主要特点与功能  (2) Statistical Method ANOVA Parame- tric test Nonpara- metrc test Quantity control Random Sampling Survey Survival EViews yes yes yes yes yes(U) Stata yes yes yes yes yes(U,M) yes yes MANOVA PCA Factor Discrimi- nant Cluster Corres- pondence MDS Canonical EViews yes yes(6) Stata yes yes yes yes yes yes yes yes 11 《STATA应用高级培训教程》南开大学数量经济研究所王群勇 STATA简介：主要特点与功能 (3) Limited Dependent Binary Mutino- minal Ordered Nested logit Condi- tional logit Count model Zero- inflated count Zero- truncated count EViews yes yes yes yes Stata yes yes yes yes yes yes yes yes Censored Truncated EViews yes yes Stata yes yes 12 《STATA应用高级培训教程》南开大学数量经济研究所王群勇 STATA简介：主要特点与功能 (4) Time series Seasonal adjust- ment Smooth- ing ARIMA Unit root test Cointe- gration VECM ARCH Filter Eviews yes yes yes yes yes yes yes yes Stata yes yes yes yes yes yes Yes(11) M- GARCH State Space Eviews yes yes Stata Yes(11) Yes(11) 13 《STATA应用高级培训教程》南开大学数量经济研究所王群勇 STATA简介：主要特点与功能 (5) Panel data Linear Linear with AR IVLS DPD Binary Count Multilevel mixed effect GEE Eviews yes yes yes yes Stata yes yes yes yes yes yes yes yes GLS Random Coefficient Stochastic Frontier Tobit Unit root test Cointe- gration Quantile Eviews yes yes Stata yes yes yes yes net net 14 《STATA应用高级培训教程》南开大学数量经济研究所王群勇语法结构  基本格式： [by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [using filename] [, options] 其中，符号[ ] 表示可选项。command为Stata的命令函数，varlist为变量， [if exp]、[in range]用于设定变量或观测值，[weight]用于设定观测值的权重，[using filename]表示使用的数据文件，options表示命令的选项，不同命令的选项也不同。[by varlist:]表示对varlist（分类变量）中的每一类分别执行命令（command）。  比如，线性回归模型的命令regress的格式为： . regress depvar [indepvars] [if] [in] [weight] [, options] 用户可以输入如下命令： . regress depr dcpi drgdp if depr<20 15 《STATA应用高级培训教程》南开大学数量经济研究所王群勇语法结构（varlist）  已存在的变量 varlist表示若干变量。对于数据中存在的变量，允许的表达形式包括 *、？和。其中，*表示任意字符，？表示一个字符，表示两个变量之间的所有变量（根据数据中变量的存放位置）。比如，数据文件中共有20个变量，依次为var1、var2、… 、 var20，则var* 表示所有变量var1-var20，var?表示变量var1、 var2、… 、var9，var1-var6表示变量var1、var2、… 、var6。  新变量生成新变量时，变量名称不能简化。如果变量具有相同的前缀并且都以数字结尾，可以用-表示。比如，生成新变量V1、V2、V3、V4 input v1 v2 v3 v4 或者 . input v1-v4。 16 《STATA应用高级培训教程》南开大学数量经济研究所王群勇语法结构（varlist）  上述运算符不区分大小写，可以重复，也可以进行各种组合。比如， L3.x也可以等价地表述为LLL.x、LL2.x、L2L.x。  #可以为单个数，也可以为数列（numlist），表示对同一变量的多次运算。比如，L(1/3).GDP表示L.GDP、L2.GDP、L3.GDP。x可以为单个变量，也可以为多个变量，表示对不同变量的同一运算。比如 L2.(GDP CS)表示L2.GDP、L2.CS。L(1/3).(GDP CS)表示 L.GDP、L2.GDP、L3.GDP、L.CS、L2.CS、L3.CS。运算符含义例子备注 L#.x x的#阶滞后。 L3.x=x t-3 一阶滞后可写为L.x F#.x x的#阶超前。 F3.x=x t+3 一阶超前可写为F.x D#.x x的#次差分。 D2.x =(x t -x t-1 )-(x t-1 -x t-2 ) 一次差分可写为D.x S#.x x的#阶季节差分 S12.x=(x t -x t-12 ) 一阶季节差分可写为S.x 17 《STATA应用高级培训教程》南开大学数量经济研究所王群勇语法结构（range）注：-#表示倒数第#个数。表达式含义例子 # 第#个观测值。第10个观测值：in 10 #1/#2 第#1到第#2的观测值。前10个观测值： in 1/10 或 in f/10 #/l 第#个观测值到最后一个观测值（last）。后10个观测值： in -10/-1 或 in -10/l f/# 第1个观测值（first）到第# 个观测值。从第21至第50个观测值： in 21/50 18 《STATA应用高级培训教程》南开大学数量经济研究所王群勇语法结构（weight）命令格式： weighttype=exp 其中，weighttype表示权数的类型，包括频率权数（fweight或frequency）、抽样权数（pweight）、解析权数（aweight）和重要性权数(iweight)。频率权数即每个观测值的重复次数。抽样权数表示在抽样设计中观测值被抽取到的概率的倒数。解析权数与观测值的方差呈反比，比如第j 个观测值的权数为w_j，则其方差为sigma2/w_j。重要性权数即表示观测值的重要性，这种权数没有正式的统计定义。 19 《STATA应用高级培训教程》南开大学数量经济研究所王群勇语法结构（numlist）  表达式含义例子注释 #1 #2 #3 ... 数#1、#2、...。 2 0.5 1.8 2.9 2 0.5 1.8 2.9 #1/#2 从#1到#2，每步增加数为1。 2/5 2,3,4,5 #1(#d)#2 从#1到#2，每步增加数为#d。 9(-2)1 9,7,5,3,1 #1[#d]#2 等价于#1(#d)#2。 9[-2]1 9,7,5,3,1 #1 #t to #2 从#1到#2，每步增加数为#t-#1。 1 4 to 13 1,4,7,10,13 #1 #t:#2 等价于#1 #t to #2。 1 4:13 1,4,7,10,13 20 《STATA应用高级培训教程》南开大学数量经济研究所王群勇语法结构：命令前缀（by）  by是很多命令的前缀。[by varlist:]表示对varlist（分类变量）中的每一类分别执行命令。事实上，Stata的很多命令带有不同的前缀。比如， by，statsby，rolling，bootstrap，jackknife，permute， simulate, svy, stepwise, xi, capture, noisily, quietly, version等。 21 《STATA应用高级培训教程》南开大学数量经济研究所王群勇语法结构：命令前缀(xi)  命令格式： . xi [, prefix(string) noomit] terms . xi [, prefix(string) noomit] : command varlist terms 其中，prefix设定生成的虚拟变量的前缀，Stata默认为_I。Stata默认值为对m个类别仅生成m-1个虚拟变量，将最小值作为基础类别（如果是字符变量，则按照字母排序）。noomit表示生成所有类别对应的虚拟变量。  利用如下方法更改基础类别。 . char varname[omit] “prevalent” <将频数最高的作为基础类别。 > . char varname[omit] {# | string} <将取值#的类别或字符为string的类别作为基础类别。> . char varname[omit] <返回默认值。> 22 《STATA应用高级培训教程》南开大学数量经济研究所王群勇语法结构：命令前缀(xi)  数值分类变量: . use coal, clear . xi: reg coal trend i.quar . char quar[omit] 3 . xi: reg coal trend i.quar . xi, noomit: reg coal trend i.quar . xi, noomit: reg coal trend i.quar, nocons  字符分类变量: . xi: reg coal trend i.quarstr . char quarstr[omit] “2nd” . xi: reg coal trend i.quarstr . xi, noomit: reg coal trend i.quarstr . xi, noomit: reg coal trend i.quarstr, nocons 《STATA应用高级培训教程》南开大学数量经济研究所王群勇语法结构：命令前缀(xi) terms的形式如下。 i.varname <对分类变量建立虚拟变量。> i.varnam1*i.varnam2 <对两个分类变量分别建立虚拟变量及其交叉项：模型中包括所有主效应和交叉效应。> i.varnam1*varname3 <对分类变量建立虚拟变量、建立连续变量：模型中包括所有主效应和交叉效应。> i.varnam1| varname3 <对分类变量建立虚拟变量、建立连续变量：模型中包括varname3的主效应和交叉效应，但不包括varnam1的主效应。> 其中，varname、varnam1、varnam2为分类变量（数值变量或字符变量均可），varnam3为连续数值变量。 24 《STATA应用高级培训教程》南开大学数量经济研究所王群勇语法结构：命令前缀(xi)  比如，线性回归模型的命令regress的格式为： . regress depvar [indepvars] [if] [in] [weight] [, options] 用户可以输入如下命令： . use depr, clear . regress depr dcpi drgdp . regress depr dcpi drgdp if depr<20 . by category: regress depr dcpi drgdp if depr<20 . xi: regress depr dcpi drgdp i.category if depr<20  . use grunfeld, clear . by company: invest kstock mvalue . xi: invest kstock mvalue i.company 25 《STATA应用高级培训教程》南开大学数量经济研究所王群勇语法结构：命令前缀(simulate)  蒙特卡罗模拟是指随机生成满足条件的随机数，进行估计得到需要的估计量，并反复若干次以得到统计量的分布。命令格式为： . simulate [exp_list] , reps(#) [saving(filename [, replace]) seed(#)] : command  例：虚假回归。随机生成两个随机游走序列（100个样本），进行回归，计算估计量和t统计量；如此反复10000次。（文件：rdwalk）（1）利用均匀分布或正态分布随机数生成器生成随机游走过程。（2）通过如下命令进行模拟。 . simulate beta=(r(b1)) se=(r(se1)), reps(200) : rdwalk, diff( 1 1) （3）观察其分布，并与标准正态分布相比较。 . gen t=beta/se . histogram t . twoway histogram t || function y=normalden(x,0,1), range(-3 3) 26 《STATA应用高级培训教程》南开大学数量经济研究所王群勇语法结构：命令前缀(bootstrap)  自举法即通过有放回地重复抽样计算所需要的统计量，并反复若干次以得到统计量的标准差或其它精度测度指标。 . bootstrap exp_list [, options eform_option] : command  例：计算下列样本的自举均值、50分位数、标准差、四分位数间距与极差：自举次数100次。（数据文件：boot1） 3.12、0.15、1.57、19.67、5.60、9.16。 . bootstrap mean=(r(mean)) median=(r(p50)) sd=(r(sd)) iqr=(r(p75)-r(p25)), reps(100) : summ samp, detail  lny=beta0+beta1*lnk+beta2*lnl+u中，lnk、lnl参数的自举估计量、标准差、99%的置信度。自举次数100次。 . bootstrap (eq: beta1=_b[lnk] beta2=_b[lnl] ), nodots reps(100): regress lny lnk lnl, level(99) 27 《STATA应用高级培训教程》南开大学数量经济研究所王群勇语法结构：命令前缀(jackknife)  刀切法是20世纪40年代末50年代初发展起来的。它是指每一次删除样本中的一个观测值，利用剩余的观测值进行估计，进而得到所需要的统计量的分布。刀切法经常用于评估单个观测值对估计量的影响、计算统计量的标准差。 . jackknife exp_list [, options eform_option] : command  例: 回归如下方程， Lny = 0 + 1*lnk + 2*lnl + u 计算lnk、lnl参数的刀切估计量、标准差、99%的置信度。 . jackknife (eq: beta1=_b[lnk] beta2=_b[lnl] ), e(r(N1)) keep: regress lny lnk lnl, level(99) 28 《STATA应用高级培训教程》南开大学数量经济研究所王群勇语法结构(post-estimation)  Chapter 5, P39  常见命令（1）模型的检验：estat （2）参数的约束检验：test, testnl, hausman, lrtest （3）模型预测：predict, predictnl, adjust （4）边际影响或弹性：mfx  常见其他命令（1）保存模型：est store （2）激活模型：est restore （3）观察估计结果：est replay 29 《STATA应用高级培训教程》南开大学数量经济研究所王群勇语法结构(post-estimation)  模型的检验、预测、分析都通过标准的估计后的分析工具中进行设定（不同的估计命令对应着不同的选项）（Statistics -> Post-estimation）。  每次估计的结果可以保存在内存中或磁盘上，便于随时调用（调用时需要首先将其激活，即是令其处于活动状态(active)）。  在各种模型的估计、检验、预测中，Stata提供了一些更加方便、更加专业的操作，也提供了更加科学的分析结果。  提供了方便的命令前缀，如by, xi等。  存在多重共线性问题的时候，自动删除产生共线性问题的变量。  非线性模型中，参数估计量可以按照具有直接经济意义的形式输出。比如，probit模型中直接输出其边际影响；或者logit模型中直接输出机会比。  很多模型的具体设置要求用户具有一定的专业基础。比如Hausman 检验等。 30 《STATA应用高级培训教程》南开大学数量经济研究所王群勇命令操作  命令操作的好处（1）快捷、方便。随着对命令的逐渐熟悉，越能有效地提高效率，节省时间。（2）窗口设定的菜单具有一定的局限性，命令操作能更有效地、更全面地对数据进行分析。  有些命令的选项在菜单中只设置了一部分。比如，regress中，选项 mse1（约束回归标准差为1）没有出现在菜单中。  有些命令在菜单中没有设置，只能通过命令运行。比如，Monte Carlo模拟（simulate）。  有些命令的菜单在输入设置上存在一定的限制。比如，对系统方程的检验，逐步回归法等。（3）Stata的网络资源绝大多数程序没有制作相应的菜单，运行这些程序必须通过命令操作的方式。（4）命令操作可以为日后的编程打下一定的语法基础。 31 《STATA应用高级培训教程》南开大学数量经济研究所王群勇命令操作  几点事项的说明：（1）无需记住这些命令。当需要的时候，可以查阅相关参考书目，也可以直接通过help命令观察其语法结构。比如， . help probit 如果不知道具体的命令是什么，那么可以通过search命令搜索关键词。 . search probit . search binary （2）命令的标准语法结构都必须小写，因此Regress, Xi、If、Fweight等命令都会提示错误信息。不过，目录、文件的名称不区分大小写。（3）命令可以简化。比如，regress也可以简写为reg。在其说明文件中，允许的最短的简写部分用下滑线标出。（4）如果出现输入错误，用户可以根据提示的错误信息查找命令中的错误。 32 《STATA应用高级培训教程》南开大学数量经济研究所王群勇命令操作  几个重要的命令：（1）由于Stata为程序分配特定的内存运行，因此运算速度比较快。但如果内存中存在过多的程序时，会降低运算速度；还可能会出现操作窗口无反应等情况。这时，可以直接通过discard命令清除所有内存中的程序，然后再执行命令。 . discard （2）display （3）quietly （4）set more off 33 《STATA应用高级培训教程》南开大学数量经济研究所王群勇

                    本文档为【Stata入门手册】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

Stata入门手册

你可能还喜欢