SAS教程

SAS教程nullnull SAS统计分析软件内容安排 SAS编辑数据步的创建与 SAS基本过程 SAS统计分析过程null第一讲 SAS概述一、SAS系统的组成 SAS（Statistical Analysis System）是一个用来管理分析数据和编写报告的组合软件系统。由两大部分组成：一部分是系统管理程序；一部分是过程库与程序库。 SAS系统管理程序：主要用于统一管理与控制系统的过程库和程序库，提供操作界面。 null过程库与程序库：包括窗口显示管理程序、远程通讯过程及各种统计分析模...

nullnull SAS统计分析软件内容安排 SAS编辑数据步的创建与 SAS基本过程 SAS统计分析过程null第一讲 SAS概述一、SAS系统的组成 SAS（Statistical Analysis System）是一个用来管理分析数据和编写报告的组合软件系统。由两大部分组成：一部分是系统管理程序；一部分是过程库与程序库。 SAS系统管理程序：主要用于统一管理与控制系统的过程库和程序库，提供操作界面。 null过程库与程序库：包括窗口显示管理程序、远程通讯过程及各种统计分析模块，其模块主要有： SAS/BASE数据管理与基本统计模块。 SAS/STAT统计分析模块。 SAS/GRAPH绘图模块二、SAS系统的特点良好的软件环境；多窗口操作环境和显示方式；功能强，应用面广；信息存储方式简便灵活；null数据访问数据管理统计分析结果呈现应用开发三、SAS系统的功能统计分析软件，大型集成软件应用系统null四．启动SAS系统五．显示管理系统窗口 1．主窗口：显示管理系统有三个主窗口 PROGRAM EDITER窗口：SAS程序编辑窗口 LOG窗口：显示有关程序运行信息 OUTPUT窗口：显示程序运行后的输出 null2．其他窗口 OUTPUT MANAGER窗口：显示输出目录 KEYS 窗口 HELP 窗口 LIBNAME，DIR，VAR窗口 OPTIONS窗口：查看或者改变系统设置null六．显示管理系统命令 1．窗口调用命令 2．窗口管理命令 BYE ENDSAS END ZOOM CLEAR HOMEnull3．文件管理命令 RECALL SUBMIT FILE “文件名” INCLUDE “文件名” PMENU NUMSnull4．窗口菜单栏 5．命令或程序的执行 * 窗口命令行：SUBMIT * 功能键：F6 * 菜单：LOCALS----SUBMIT * 工具栏：null七．建立和运行SAS程序 SAS程序的建立---在PGM窗口输入程序，一行可输入多个语句，每条语句以分号结束 SAS程序提交运行---SUBMIT命令或F8键或点击相应图标 SAS程序的修改---RECALL命令或F4键在PGM窗口调回程序，修改好后再提交运行 SAS程序及结果的保存---FILE命令及菜单 SAS程序的调用---INC命令及菜单 null八． SAS语句和SAS程序结构 1． SAS语句 SAS语句由关键字、SAS名、特殊字符或运算符组成，并以分号（；）结尾。SAS语句可以一行写一个语句，也可以一行写多个语句。 2． SAS名 SAS名由1-8个字符组成，且必须以字母或下划线开头，后续字符可以是字母、数字或下划线。系统采用开头与结尾均以下划线作标记的SAS名作为系统保留名。如：--NULL--、--N--。null3． SAS文件与SAS数据库 SAS文件有三类： * SAS数据集 * SAS目录文件：主要包括显示管理过程中定义和保存的一些文件，如功能键的定义等，可在DIR窗口查看。 * 格式文件 SAS数据库 nullSAS系统把存放SAS文件的每一个磁盘目录看作一个SAS数据库，该数据库是一个逻辑概念，系统利用数据库对SAS文件进行管理，每一个SAS文件定义一个数据逻辑名来代替该文件的目录路径，使数据库逻辑名和目录路径联系起来，因此完整的SAS文件名由两部分组成：数据库逻辑名.SAS文件名在LLIBNAME窗口中可观察到各数据库逻辑名及其相应的目录路径。null5． SAS程序结构 SAS系统是通过运行用SAS语言编制的源程序来完成每一个作业的。一个SAS作业通常由两大部分组成，即数据步和过程步。数据步：包括数据的读入、文件操作、数据处理和建立数据集。过程步：对数据集的数据进行分析处理。null第二讲数据步的创建与编辑数据步的主要功能： 1．输入数据，建立SAS数据集 2．编辑数据，对数据进行处理 3．按用户设计的格式输出打印数据，或将数据写入磁盘文件 4．对已建立的数据集，通过取子集、合并、更新等方式产生新的数据集null一． SAS数据集的建立及其语句 1． SAS数据集的组成 * 数据值 SAS工作的基本单元，数据值有数值型数据和字符型数据两种类型。 * 观察值描述单一整体，如一个人的一系列数据值，一个观察值也就是一个记录。 null* 变量相同特性的数据值的集合用变量来标识。 * 数据集观察值的集合叫SAS数据集。 2．建立SAS数据集数据集分为两类：临时数据集；永久数据集临时数据集：仅在当前会话期间有效，一旦退出SAS系统，临时数据集就被删除。 null永久数据集：是指存储在外部存储介质上的数据集。数据集的性质以数据集的名称来标识。所有的SAS数据集名都是由“.”分隔的两部分组成，第一部分称为一级名（或称库逻辑名），它指明该数据集所存储的位置，第二部分（二级名）标识特定的数据集。SAS系统将本次建立的临时数据集全部暂存入SASWORK目录下，系统指定WORK.作为临时数据集的第一级名，通常可省略，而永久数据集需要指出其存储的地方，不能省略第一级名，所以永久数据集必须由两级名来标识。null1）临时数据集的建立程序基本结构： DATA 语句； INPUT 语句； [用于数据步的其它语句]； CARDS；若干数据行 RUN；null* DATA语句格式：DATA [数据集名]；功能：标志数据步的开始，并指明所建立的SAS数据集的名称。 * INPUT 语句格式：INPUT [变量说明]….；功能：描述输入记录中数据，并把输入值赋给相应的变量。INPUT 语句主要用于读CARDS语句后的数据或者一个外部数据文件中的数据。null[变量说明]主要格式：（1）列表或自由格式 INPUT 变量[$] 变量….；变量简单的列在INPUT语句中，各变量间用一空格分开，使用这种格式，用户不用了解在输入记录中数据所占的列数。null（3）行保持符@@ 通常执行一次INPUT语句后，再次执行INPUT语句，SAS系统要从下一数据行去读取数据，行保持符@@可改变其读取方法。 INPUT 变量@@; @@用来从一行读入多个观察值，INPUT语句读完一个观察值后，标记@@把控制指针仍保持在当前行，继续用INPUT语句中的变量读取本行的剩余数据，直到全部数据读完。null* CARDS语句格式：CARDS；功能：表明数据行的开始与数据步的结束。 * RUN语句格式：RUN；功能：执行刚发送的SAS语句。nulldata temp; 例 data temp; input x y@@; cards; 34 56 78 90 35 67 89 10 23 65 77 ; Run; 变量ｙ后面的@@表示数据可以在一行里连续读入，SAS默认按列来分隔变量，可是这里只有两个变量，输成两列数据太长，因此加上两个@@，SAS见到这个符号，在按变量名依次读取完数据后，不是跳到下一行，而是继续在该行读数据，直至本行结束或到达分号为止。 null数据步以DATA语句开始，在遇到run语句或另一个数据步/过程步时就结束了。每一个程序应至少在最后有一个run语句，表明前面的所有语句可以提交运行了。 Submit命令和run语句有什么区别？run是程序语句，可在程序中多次出现，它表示前面的程序段已经全部写完，可以作为一个或几个整体提交运行了，而Submit则是SAS命令，只在最后程序运行的时候发出，表示将程序正式提交运行。 null2）永久数据集的建立程序的基本结构 LIBNAME 库逻辑名 "路径"; DATA 语句； INPUT 语句； [用于数据步的其它语句]； CARDS；若干数据行 RUN；null* LIBNAME语句格式：LIBNAME 库逻辑名 "路径"; 功能：以库逻辑名代替其后所指的路径。nullSAS数据库对应文件夹，如SASUSER对应c:\sas\sasuser，WORK对应c:\sas\saswork, SAS数据集则对应文件，每个数据集实际上是在硬盘的相应文件夹内产生一个文件名为数据集名，而扩展名为.sd2的文件，因此成功的建立了一个数据集，理论上就可以反复使用。null每一个数据集都有一个两级名，第一级是库标记，第二级是数据集名，中间用“.”隔开，在程序中通过指定两级名来识别文件。文件两级名的一般形式如下：库标记.数据集名如在a库中的数据集abc可以这样来引用：a.abc 。 null3）它形式的数据文件转化为SAS数据集的方法（1）数据来自外部数据文件程序的基本结构： FILENAME 语句；（可省略） DATA 语句； INFILE语句; INPUT语句；用于数据步的其他语句； RUN；null* FILENAME 语句格式：FILENAME 文件逻辑名 “文件名”；功能：定义文件逻辑名，代替外部文件目录路径和文件名。 * INFILE语句格式：INFILE 文件名（或文件逻辑名）；功能：读入指定的数据文件中的数据。null（2）数据来自于已建立的SAS数据集程序基本结构： DATA 语句； SET 语句；用于数据步的其它语句； RUN；null* SET 语句格式：SET 数据集名；功能：从指定的数据集中，依次读入每一个观察值，对数据作某中处理后，将数据写入新的数据集中。null二．数据集的修改与加工处理 1．数据集的通用编辑语句 * 赋值语句格式：变量=表达式；功能：计算赋值号“=”右边表达式值，并赋给左边的新变量，该新变量为SAS数据集中建立的新变量。不能处理遗漏值。null* 累加求和语句格式：变量+表达式；功能：将变量的值与表达式的值相加，再赋给变量。变量成为数据集中的新变量。若出现遗漏值自动处理为0值。 * 删除变量语句格式：DROP 变量表；功能：删除DROP指定的变量进入数据集。null* 保留变量语句格式：KEEP 变量表；功能：对正在建立的数据集，只有KEEP语句指明的变量才能保存在数据集中。 2．编辑数据集的控制语句 * IF 语句两种类型：条件IF语句求子集IF语句null（1）条件IF语句格式： IF 条件表达式 THEN 语句；或 IF 条件表达式 THEN 语句； ELSE 语句；功能：条件表达式的值为逻辑值，条件为真，系统执行THEN后的语句，否则跳过该语句执行下一语句；条件为假，则执行ELSE后的语句。null（2）求子集的IF语句格式：IF 条件表达式；功能：系统仅将符合条件的观察值送入正在建立的数据集中。 * 删除观测值语句格式：DELETE；功能：删除观察值，通常配合条件语句使用。null例在产生数据集temp的同时为其增加变量class，当x>50时class=1，否则class=2 。 data temp; input x y@@; if x>50 then class=1; else class=2; cards; 34 56 78 90 35 67 89 10 23 65 77 45 ; proc print; run; null数据步的执行过程，input语句按变量顺序将数据读入内存缓冲区，直至每一个变量都有值相对应。然后数据步继续向下执行，从而其它语句可以修改内存缓冲区，如修改值、增加变量等，在执行到数据步结束后，程序又回到input语句处继续执行，直到数据读完为止。null* 循环语句格式： DO 循环控制变量=初值 TO 终值 BY 步长；语句组； END；功能：根据初值、终值、步长的值决定在数据步的一次执行中重复执行某些语句的次数。null三．数据集的排序、连接与合并 1．数据集的排序（过程步）格式： PROC SORT DATA=数据集名 OUT=新数据集名； BY [DECENDING] 变量...; RUN； 2．数据集的连接null2．数据集的连接格式： SET 数据集名1 数据集名2；功能：将两个或多个数据集纵向连在一起。变量相同的情况：新数据集的变量为原数据集的变量，观察值为合并的数据集的观察值之和。变量不同的情况：新数据集的变量包含所有的变量，观察值为合并的数据集的观察值之和。若变量无值，则以确省值代替。null交叉连接：将有相同变量值的数据连在一起，连接前必须先排序。数据集连接：SET 数据集1 数据集2；数据集合并：MERGE 数据集1 数据集2； null四．数据的输出及其语句 1． PUT 语句格式：PUT [变量][=][$]....；功能：按格式在LOG窗口（确省时）输出变量或常量的值。null2． OUTPUT语句格式：OUTPUT 数据集名；功能：把当前正在处理的观察值输出到正在建立的数据集中。主要用于下列三种情况： * 从每一数据行中建立两个或多个观察值。 * 从一个输入数据文件中建立多个数据集 * 把几个观察值合并成一个观察值null例在产生数据集temp的同时为其增加变量class，取值依次为1、2。 Data temp; do class = 1 to 2; input x y@@; output; end; cards; 34 56 78 90 35 67 89 10 23 65 77 45 ; run; null第三章 SAS过程步过程步是以关键字PROC开始的一个或多个SAS语句。用于过程步的SAS语言是面向问题的语言，用户只需要把解决的问题用SAS语言表达出来，组成源程序，系统便会计算出结果。过程步的结构一般为： PROC 过程名 [过程选择项] ; 语句 [/语句选择项] ; 语句 [语句选择项] … ; 语句； nullSAS基本过程一． SORT过程排序是数据处理中常用的一项操作，SORT过程就是按BY语句中的变量值的顺序对SAS数据集的观察值进行重新分类排序，并把排序好的观察值存入数据集中。两种情况：1、数据集的观察值变得有序； 2、是其它过程的必经之路，在使用BY语句前，SAS系统要求被处理的数据集已按BY语句所指定的变量排序。 null一． SORT过程排序是数据处理中常用的一项操作，SORT过程就是按BY语句中的变量值的顺序对SAS数据集的观察值进行重新分类排序，并把排序好的观察值存入数据集中。排序一方面使数据集的观察值变得有序，另一方面，是其它过程的必经之路，因为在过程步中，需要分组处理数据集时，采用的是BY语句，而在使用BY语句前，SAS系统要求被处理的数据集已按BY语句所指定的变量排序。 null一． PRINT过程null格式：PROC PRINT 选择项； VAR 变量表； ID 变量表； BY 变量表 SUM 变量表； SUMBY 变量表； PAGEBY 变量表； LABEL 变量 “标记”....;null功能：将数据集按要求显示出来。 1． PROC PRINT语句的可选项： DATA=数据集名 LABEL：用变量的标记替代变量名的输出。 N：在输出数据集清单末尾给出观察值的例数。 2． VAR 语句：指定输出的变量名。 3． ID 语句：用变量的值代替观察值的序号。null4． BY 语句：分组输出（先排序）。 5． SUM 语句：对指定的变量求和。 6． SUMBY 语句：按指定的变量分组求和（先排序）。 7． PAGEBY 语句：按指定的变量分组，并分页显示。nullFORMAT语句：格式：FORMAT 变量名格式名.；功能：将变量的值按指定的格式名所指定的格式输出。SAS定量资料统计SAS定量资料统计对于定量资料的统计描述和简单推断，SAS提供了三个强有力的程序步，它们是： MEANS过程：提供单个或多个变量的简单描述，对于多个变量，它的输出格式紧凑，便于阅读。 UNIVARIATE过程：提供单个变量的详细描述和对其分布类型的检验。 TTEST过程：对变量进行t/u检验。 null三． MEANS过程格式：PROC MEANS 选择项； VAR 变量表；指明基本统计量的分析变量，一定是数值型的。 FREQ变量表；指明频数处理变量。 WEIGHT变量表；计算加权平均值与加权变异数。 ID变量表； BY变量表； OUTPUT 选择项；null功能：用于处理计量数据，并进行一般统计量的计算，还可建立包含统计量的数据集。 1． PROC MEANS 的选择项：无选择项时，自动为每个数值型变量输出五个基本统计量（N，MIN，MAX，MEAN，STD） DATA=数据集名； MAXDEC=nnull基本统计量： MEAN STD MIN MAX RANGE：极差 SUM VAR：方差 USS：不修正平方和 CSS：修正平方和 STDERR：标准误 CV：变异系数null2． OUTPUT 语句的选择项： OUT=数据集名 KEYWORD=变量表；把计算的结果送入新的数据集中，KEYWORD可以是上述所列的统计量，变量表指明在新数据集中，表统计量的变量名称。null例文本文件“C:\USER\WTLI1_1.DAT”中已存入某市110名7岁男子童的身高资料(cm) ，请计算均数s、变异系数CV、标准差。解：该题应首先用数据步建立一个数据集，然后调用UNIVARIATE过程或MEANS过程来求出所需要的统计量。具体的程序如下： ① 设定数据库环境： LIBNAME A 'C:\USER'; null② 数据步，建立数据集： DATA A.WT; 　INFILE 'C:\USER\WTLI1_1.DAT'; 　INPUT X @@; RUN; ③ UNIVARIATE或MEANS过程，求出所需要的统计量： PROC MEANS DATA=A.WT N MEAN STD CV ; VAR X; RUN; null四． UNIVARIATE过程基本格式：PROC UNIVARIATE 选择项； VAR 变量表； FREQ变量表； WEIGHT变量表； ID变量表； BY变量表； OUTPUT 选择项；nullUnivariate 过程对数值变量给出比较详细的变量分布的描述，其中包括：变量的极端值。常用的百分位数，包括四分位数和中位数。用几个散点图描绘变量的分布。频数表。确定数据为正态分布的检验。 null功能：对数值型的变量进行一般性统计描述，给出数据分布状态：峰度、偏度、从数、中位数及四分位数，给出变量的极端值和描述概率分布图。 1．PROC UNIVARIATE的选择项 DATA=数据集名 FREQ：给出频数表 PLOT：给出干叶图、箱式图及正态概率图，检验数据是否服从正态分布。 NORMAL：判定数据是否是正态分布，并产生W或D统计量，样本数小于或等于2000，产生W统计量，反之，产生D统计量。null例某地101例健康男子血清总胆固醇值测定结果已存入文本文件“c:\user\WT1_1.dat”中，请绘制直方图，计算均数、标准差s、变异系数CV、中位数M、p2.5和p97.5。解：UNIVARIATE过程的默认输出中并不给出p2.5和p97.5，因此程序中要加以相应修改，最后在OUTPUT视窗中只会输出所需的几个统计量，具体程序如下：、nulllibname a 'c:\user'; data a.wt1_1; 　infile 'c:\user\wt1_1.dat'; 　input x @@; proc univariate data=a.wt1_1 noprint; 　var x; 　output out=temp 　n=n mean=xbar std=s cv=cv median=m 　pctlpts=2.5,97.5 pctlpre=per; proc print data=temp; run; null五．FREQ过程基本格式： PROC FREQ 选择项； TABLES 变量组成/选择项；产生频数表或列联表（用“*”分割） WEIGHT 变量表； BY 变量表；功能：产生一维至N维的频数表和列联表。null1． TABLES语句的选择项 LIST：使用列表的形式显示。 CHISQ：请求卡方检验。卡方检验的一般步骤：（1）假设样本或构成之间无差异（2）在TABLES语句中指定CHISQ选项（3）根据结果进行分析得出结论。null下列选项可用于TABLES语句中“/”的后面： OUT＝数据集建立一个输出数据集。 CHISQ 对每层作c 2检验，包括Pearson c 2、似然比c 2和Mantel-Haenszel c 2。此外还给出与c 2检验有关的关联指标包括Phi系数、列联系数和Cramer’s V。对于2×2表，给出Fisher精确概率。 ALPHA＝p 给出检验水准。缺省为0.05。 NOPRINT 不给出表格，但可给出CHISQ统计量 LIST 用LIST格式打印N维列联表，当需要统计检验时，该选项就不能用了。null【WEIGHT语句】通常每个观察值提供数值1给频数计数，当WEIGHT语句出现时，每个观察值提供的是该观察值的加权变量值。该值必须非负，但可不必为整数。只能使用一个WEIGHT语句，且该语句作用于所有的表。【BY语句】指明需要分组处理变量当TABLES语句不带任何选项时，FREQ过程只输出N维频数表，只有在选项中指定统计方法后才输出相应的检验结果。 null某医生用国产呋喃硝胺治疗十二指肠溃疡，以甲氰咪胍作对照组，问两种方法治疗效果有无差别处理愈合未愈合合计呋喃硝胺 54 8 62 甲氰咪胍 44 20 64 合计 98 28 126 null解：在建立行´ 列表的数据集时一般需要三个变量――行变量、列变量和指示每个格子中频数的变量。本例首先建立这样一个数据集，然后调用FREQ过程输出行´ 列表，同时利用CHISQ选项进行c 2检验。 nullLIBNAME A C:\USER ； DATA A.YTLI8_1; 　DO ROW=1 TO 2；　　DO COLUMN=1 TO 2；　　　INPUT NUMBER @@; 　　　OUTPUT；　　END；　END；　CARDS；　54　8　44　20 ； RUN; PROC FREQ DATA=A.YTLI8_1; 　TABLE ROW*COLUMN / CHISQ; 　WEIGHT NUMBER; RUN; null例某地测得6094人的血型结果如下，问ABO血型与MN血型有无关联？血型 M N MN 合计 O 431 490 902 1823 A 388 410 800 1598 B 495 587 950 2032 AB 137 179 325 641 合计 1451 1666 2977 6094 nulldata.yt2_11; 　do a=1 to 4; 　　do b=1 to 3; 　　　input count @@; 　　　output; 　　end; 　end; 　cards; 　431 490 902 388 ．．． ; proc freq; 　tables a * b/chisq; 　weight count; run; null六． T检验两组均数差异性的检验：三种情况：样本均数与总体均数配对资料的T检验两样本均数的T检验null样本均数与总体均数的t检验---MEANS过程或UNIVARIATE过程配对资料的t检验---MEANS过程或UNIVARIATE过程两样本均数的t检验---TTEST过程null1．用MEANS过程作T检验基本格式： PROC MEANS N MEAN STD STDERR T PRT； VAR 变量； RUN；null2． TTEST过程基本格式： PROC TTEST [DATA=数据集名]； CLASS 变量；指明分析变量，必须两个水平。 VAR 变量； BY 变量；null例某医生测得18例慢支炎患者与16例健康人的尿17酮类固醇排出量 (mg/dl)分别为X1和X2，问两者均数是否不同？解：这是成组设计的两样本均数比较的t检验，程序应首先建立数据集，然后调用TTEST过程进行检验，在检验的同时也可以得到两个样本的简单描述。 nullLIBNAME A 'C:\USER'; LIBNAME A 'C:\USER'; LIBNAME A 'C:\USER'; LIBNAME A 'C:\USER'; LIBNAME A 'C:\USER'; DATA A.YTLI2_17; INPUT GROUP VALUE @@; CARDS; 1 3.14 1 5.83 1 7.35 1 4.62 1 4.05 1 5.08 1 4.98 1 4.22 1 4.35 1 2.35 1 2.89 1 2.16 1 5.55 1 5.94 1 4.4 1 5.35 1 3.8 1 4.12 2 4.12 2 7.89 2 3.24 2 6.36 2 3.48 2 6.74 2 4.67 2 7.38 2 4.95 2 4.08 2 5.34 2 4.27 2 6.54 2 4.62 2 5.92 2 5.18 　; RUN; PROC TTEST DATA=A.YTLI2_17; 　VAR VALUE; 　CLASS GROUP; RUN; null结果解释可见该结果分为三大部分：第一部分为两组各种描述统计量的值，第二部分分别给出两组所在总体方差齐和方差不齐时的t检验结果，第三部分为方差齐性检验，因此该过程一共进行了三个假设检验。对于无效假设H0：两总体方差齐的检验结果为F' = 1.09，DF = (15,17)，p = 0.8589，可见在本例中方差是齐的，从而应选用方差齐时的t检验结果，即t= -1.8179，ν=32，p=0.0785，按α=0.05水准，不拒绝H0，尚不能认为慢支炎患者与健康人的尿17酮类固醇排出量不同。 null例某医院对9例慢性苯中毒患者用中草药一号抗苯一号治疗，得下列白细胞总数（109/L），问该药是否对白细胞总数有影响？病人号 1 2 3 4 5 6 7 8 9 治疗前 6.0 4.5 5.0 3.4 7.0 3.8 6.0 3.5 4.3 治疗后 4.2 5.4 6.3 3.8 4.4 4.0 5.9 8.0 5.0 解：该题为样本差值均数和总体均数为0比较的t检验，TTEST过程无法完成。这里用MEANS过程来处理，程序如下： nulllibname a 'c:\user'; data a.wt2_3; 　input x y @@; 　tempvar=x-y; cards; 　6.0 4.2 4.8 5.4 5.0 6.3 3.4 3.8 　3.4 3.8 7.0 4.4 3.8 4.0 6.0 5.9 　8.0 5.0 ; proc means n mean std stderr t prt ; var tempvar; run; null例将钩体病人的血清分别用标准株和水生株做凝溶实验，测得稀释倍数如下。问两组的平均效价有无区别标准株：100 200 400 400 400 400 800 1600 1600 1600 3200 水生株：100 100 100 200 200 200 200 400 400 解：程序如下： nulllibname a 'c:\user'; data a.wt2_5; 　input group x @@; 　logx=log(x); 　cards; 　1 100 1 200 1 400 1 400 1 400 1 400 　1 800 1 1600 1 1600 1 1600 1 3200 　2 100 2 100 2 100 2 200 2 200 2 200 　2 200 2 400 2 400 ; proc ttest ; 　class group; 　var logx; run; 七、SAS定量资料统计 --方差分析七、SAS定量资料统计 --方差分析方差分析主要用于3个以上水平或2个以上因素均数的比较，在SAS系统中由SAS/STAT模块来完成，其中常用的有ANOVA过程和GLM过程。前者运算速度较快，但功能较为有限，主要用于平衡资料的方差分析；后者运算速度较慢，但功能强大，可用于平衡资料和非平衡资料的方差分析。前提条件：数据来自正态总体，方差齐null常用的方法： * 完全随机设计资料的方差分析（单因素方差分析） * 随机区组设计资料的方差分析（两因素方差分析） * 拉丁方设计资料的方差分析（三因素方差分析） * R*C析因设计资料的方差分析（有交互因素的方差分析）null方差分析的ANOVA过程（主要用于平衡数据）和GLM过程（主要用于不平衡数据）基本格式： PROC ANOVA [DATA=数据集名]； CLASS 变量表； MODEL 因变量表=效应/选择项； MEANS 效应/选择项；null说明：（1）CLASS语句和MODEL语句是必须语句，且CLASS语句必须位于MODEL语句之前；（2）Means语句的选项主要用来指定两两比较的方法，主要有 BON（Bonferroni检验）、DUNCAN（新复极差法）、DUNNETT、GABRIEL、LSD（最小显著差法）、SCHEFFE、SIDAK 、SNK（q检验）、TUKEY 、WALLER 等null注意： CLASS语句中的变量是分类变量，分类变量的个数反映方差分析的因素个数。 MODEL语句指出因变量和效应变量。因变量的个数反映是一元或多元方差分析，效应变量是分类变量的各种组合主效应： MODEL Y= A B C；交互效应： MODEL Y=A B C A*B A*C A*B*Cnull主要了解一元方差分析 * 单因素一元方差分析 * 两因素一元方差分析 * 有交互因素的一元方差分析null统计分析所用的数据格式和我们在分析整理资料时所用的格式是不同的。一般来说，数据集中应至少有一个结果变量，用于记录不同处理因素水平下观察值的大小；至少有一个处理因素变量，用于记录处理因素的类型及其水平数。以单因素方差分析为例，就应有一个结果变量和一个处理因素变量；而两因素的方差分析应有一个结果变量和两个处理因素变量。 null例某职业病防治院对31名石棉矿工中的石棉肺患者、可疑患者及非患者进行了用力肺活量测定，请给出数据集的结构。解：数据集中应有两个变量，x和group。x记录肺活量的大小；group取值为1、2或3，分别代表石棉肺患者、可疑患者及非患者。 null例某厂医务室测定了10名氟作业工人工前、工中及工后4小时的尿氟浓度，请给出数据集的结构。解：数据集中应有三个变量，x、group和worker。x记录尿氟浓度；group取值为1、2或3，分别代表工前、工中及工后；worker取值为1到10，分别代表10名工人。八、方差分析GLM过程八、方差分析GLM过程八、GLM过程即广义线形模型(General Liner Model)过程，它使用最小二乘法对数据拟合广义线形模型。GLM过程中可以进行回归分析、方差分析、协方差分析、剂量――反应模型分析、多元方差分析和偏相关分析等。null格式： PROC GLM [DATA= <数据集名>] ; CLASS <处理因素名列>; MODEL <应变量名=处理因素名列> / [选项]; MEANS <变量名列> / [选项] ; BY <变量名列>; CONTRAST ‘标号’ 效应常数值； MANOVA H= 效应 E= 效应 M= 公式...;nullGLM过程的用法与ANOVA过程基本相同说明：（1）CLASS语句和MODEL语句是必须语句，且CLASS语句必须位于MODEL语句之前；（2）Means语句的选项主要用来指定两两比较的方法，主要有 BON（Bonferroni检验）、DUNCAN（新复极差法）、DUNNETT、GABRIEL、LSD（最小显著差法）、SCHEFFE、SIDAK 、SNK（q检验）、TUKEY 、WALLER 等九、非参数检验九、非参数检验非参数统计是统计分析的重要组成部分。可是与之很不相称的是它的理论发展远远不及参数检验完善，因而比较完善的可供使用的方法也不多。在SAS中，非参数统计主要由UNIVARIATE过程和NPAR1WAY过程来实现，前者在前面的章节中已经介绍，它们可以进行配对设计差值的符号秩和检验（WILCOXON配对法）；后者是一个单因素的非参数方差分析过程，可进行成组设计的两样本（WILCOXON法）或多样本比较（KRUSKAL-WALLIS法）的秩和检验。 nullPROC NPAR1WAY [DATA=数据集名[选项]] ; 　CLASS <处理因素变量名>; 　VAR <结果变量名>; 　BY <变量名列>; 说明：（1）“NPAR”即“非参”的英文缩写，“WAY”是维数，更明确的说是因素的意思，而“1WAY”就代表一个因素，合起来“NPAR1WAY”说的是“单因素非参数检验” （2）CLASS指明分类变量，是必需语句（3）VAR语句指明分析的结果变量。十、直线回归与相关十、直线回归与相关直线回归与相关是联系非常紧密的两种统计分析方法，事实上SAS用于回归分析的程序步REG也可提供相关分析的结果，但进一步的深入分析仍应采用相应的程序步－－CORR才能实现。回归分析：GLM过程、REG过程相关分析：CORR过程 null基本格式： PROC GLM [DATA=<数据集名> [选项]]; MODEL 应变量名=自变量名列[ /选项]; FREQ 变量名; WEIGHT 变量名; BY 变量名列; OUTPUT OUT=新数据集名关键字=新变量名...;null语法说明程序中全部语句中只有第一行和MODEL语句是必需的，MODEL语句定义模型中的因变量、自变量、模型选项及结果输出选项。 MODEL语句中常用的选项有： INTERCEPT 打印截距的假设检验。 NOINT 在模型中不拟合常数项。 P 输出实际值Yi、预测值和残差等。 ALPHA=P 指明可信区间α值nullSAS/STAT模块提供了近十个用于回归分析的过程，其中REG过程是进行一般线性回归分析最常用的过程，该过程采用最小二乘法拟合线性模型，可产生有关数据的一些描述统计量、参数估计和假设检验以及散点图，输出预测值、残差、学生化残差、可信限等，并可将这些结果输出到一个新的SAS数据集中。 nullPROC REG [DATA=<数据集名> [选项] ] ; 　MODEL 应变量名=自变量名列/ [选项] ; 　[VAR 变量名列; 　FREQ 变量名; 　WEIGHT 变量名; 　BY 变量名列; 　OUTPUT OUT=新数据集名关键字=新变量名 ...;null【过程选项】 OUTEST=数据集名指定统计量和参数估计输出的新数据集名。 NOPRINT 禁止统计结果在OUTPUT视窗中输出。 SIMPLE 输出REG过程中所用每个变量的基本统计量。 CORR 输出MODEL语句或VAR语句中所列变量的相关矩阵。 ALL 请求各种不同的打印null【 MODEL语句】 MODEL语句中常用的选项有： NOPRINT 禁止回归结果的一般打印 NOINT 在模型中不拟合常数项。 R 输出个体预测值、残差及其标准误。 P 输出实际值Yi、预测值和残差等。 COLLINOINT 进行回归变量的共线性分析 CORRB 打印估计的相关矩阵 STB 输出标准化回归系数。 null ELECTION=方法，规定变量筛选的方法，主要有： FORWARD(或F)，前进法， BACKWARD（或B），后退法， STEPWISE（或S），逐步法，按照SLE的标准依次选入变量，同时对模型中现有的变量按SLS的标准剔除不显著的变量 SLE=概率值，入选标准，规定变量入选模型的显著性水平，前进法的默认是0.5，逐步法是0.15 SLS=概率值，剔除标准，指定变量保留在模型的显著水平，后退法默认为0.10，逐步法是0.15十一、直线回归与相关CORR过程十一、直线回归与相关CORR过程 PROC CORR [选项] ; 　[VAR 变量名列 ; 　WITH 变量名列; 　WEIGHT 变量名; 　FREQ 变量名; 　BY 变量名列;]null 语法说明 VAR语句，可选语句，定义相关分析的变量 WITH语句，可选语句，定义分析的另一组变量【过程选项】 DATA=数据集名指定要分析的数据集名。 OUT=数据集名要求产生结果的新数据集 PEARSON 要求计算PEARSON相关，系统在默认的情况下就计算PEARSON相关系数。 nullSPEARMAN 要求计算SPEARMAN相关，也就是等级相关（秩相关）。 NOPRINT 禁止统计结果在OUTPUT视窗中输出。 NOSIMPLE 取消每个变量的简单统计描述。

                    本文档为【SAS教程】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

SAS教程

你可能还喜欢