首页 SAS过程简介

SAS过程简介

SAS过程简介第49章SAS过程简介用编程法运行SAS，通常需要两步，第一步，叫SAS数据步，此步产生SAS数据集；第二步，叫SAS过程步，此步调用SAS软件包中真正的程序（称为SAS过程）处理提供的SAS数据集。本章将介绍以下主要内容：其一，SAS过程步的一般形式；其二，SAS/BASE模块中常用的一些过程及其主要功能；其三，SAS/STAT模块中常用的一些过程及其主要功能。49.1SAS过程步的一般形式SAS过程步的一般形式为：PROC过程名DATA=输入数据集选项;过程语句/选项;过程语句/选项;……RUN;其中PROC是...

第49章SAS过程简介用编程法运行SAS，通常需要两步，第一步，叫SAS数据步，此步产生SAS数据集；第二步，叫SAS过程步，此步调用SAS软件包中真正的程序（称为SAS过程）处理提供的SAS数据集。本章将介绍以下主要内容：其一，SAS过程步的一般形式；其二，SAS/BASE模块中常用的一些过程及其主要功能；其三，SAS/STAT模块中常用的一些过程及其主要功能。49.1SAS过程步的一般形式SAS过程步的一般形式为：PROC过程名DATA=输入数据集选项;过程语句/选项;过程语句/选项;……RUN;其中PROC是过程步开始的标志，在PROC后至少要留一个空格，紧随其后的是一个英文单词（如PRINT、SORT、…），该单词叫SAS过程名。SAS软件中有很多模块（如SAS/BASE、SAS/STAT、SAS/GRAPH、…），每个模块中都有很多具体的SAS过程。在PROC后写上一个具体的过程名，就是要求SAS系统调用该过程对给定的SAS数据集进行处理。写在“PROC过程名”之后的内容，都叫作PROC语句的选择项，简称PROC语句的选项。所谓“选项”，就是根据用户的需要，可选可不选，用来规定过程运行的一些设置。若某些选项没选，SAS系统就取隐含的或默认的或缺省的内容。例如，当“DATA=输入数据集”未被选定时，SAS系统就使用在此之前最后生成的数据集为分析之用的数据集。如果有多个选项，彼此之间需用空格分开。每个SAS语句都以分号结束，而每个过程步一般以RUN语句结束。还有一种所谓“交互式过程”可以在遇到RUN语句时不结束过程运行，只有遇到QUIT语句或者下一个过程步、数据步时才结束。在一个SAS过程步中，根据需要，可以写多个SAS过程步语句。49.2SAS/BASE模块中常用的一些过程及其主要功能49.2.1CHART过程CHART过程可以产生垂直和水平直方图、块形图、饼图和星形图。这些图形显示变量的值或与这些值相关的统计量。变量可以是数值的，也可以是字符的。PROCCHART是一种有效的工具，它可以快速将数据视觉化，但如果需要生成包含颜色和不同字体的高品质图形，建议使用SAS/GRAPH软件。SAS/GRAPH软件中的GCHART过程产生与PROCCHART相同类型的图表。此外，PROCGCHART还可以生成环形图。49.2.2COMPARE过程COMPARE过程比较两个SAS数据集的内容，它能比较不同数据集中的变量，也能比较同一个数据集中的不同变量。PROCCOMPARE比较两个数据集：基础数据集和比较数据集。这个过程确定匹配变量和匹配观测。匹配变量是具有相同名字的一些变量，或者使用VAR和WITH语句明显配对的一些变量。匹配变量必须是相同的类型。匹配观测是对用户规定的所有ID变量具有相同值的一些观测，若没有规定ID语句，则是出现在这些数据相同位置的观测。如果使用ID变量来匹配观测，两个数据集必须按所有ID变量分类。49.2.3CORR过程CORR过程用于计算变量间的相关系数，包括Pearson的乘积矩相关和加权乘积矩相关，还能产生三个非参数的关联测度（Speaman的秩序相关，Kendall的tau-b，和Hoeffding的相关性度量D）。另外，该过程也可以计算偏相关（Pearson的偏相关，Speaman的偏秩序相关和Kendall的偏tau-b）和Cronbach系数α及一些单变量的描述性统计量。49.2.4EXPORT过程PROCEXPORT过程步用于读取SAS数据集，并把它写到外部文件中去并保存。外部文件类型包括：Excel、Access、DBF、文本文件（*.txt）等，同时此过程步还可以自定义存为外部文件时的格式。PROCEXPORT以下述方式之一来输出数据：·产生DATA步代码·产生SAS/ACCESS代码·转译器用输出数据源特定的选项和语句来控制结果。PROCEXPORT产生特定的输出文件并保存输出信息到SAS日志。在日志中可以看到DATA步或由PROCEXPORT产生的SAS/ACCESS代码。若使用转译器则不提交代码。49.2.5FORMAT过程FORMAT过程用来对数值或字符变量定义用户自己的输入格式和输出格式。此外，它可以打印含有输入或输出格式的一部分目录，存贮SAS数据集中输入或输出格式的描述，还可以用SAS数据集产生输入或输出格式。49.2.6FREQ过程FREQ过程可以生成单向到n向的频数表和交叉表。对于双向表（二维表），该过程可以计算检验统计量和关联度。对于n向表，该过程进行分层分析，计算每一层和交叉层的统计量。这些频数也能够输出到SAS数据集里。49.2.7FSLIST过程FSLIST过程能够使用户浏览SAS对话中的非SAS数据集的外部文件。因为这些文件在交互式的Windows环境中显示，为检查这些文件的内容，该过程提供了高度方便的机制。另外，用户可以从FSLIST窗口中拷贝文本到利用SAS文本编辑器的任何一个窗口中。49.2.8IMPORT过程IMPORT过程从外部数据资源读取数据并且将数据写入到SAS数据集中。外部数据资源包括MicrosoftAccess数据库、Excel文件、SPSS文件、Stata文件、Lotus1-2-3扩展表和有界限的外部文件（在这些文件中，数据值被一些界限分隔开，比如说空格、标点或者标记等）。当运行PROCIMPORT过程时，该过程读取输入文件并将数据写入SAS数据集中。SAS变量的定义是基于输入记录的。PROCIMPORT过程通过下列方法将数据读入到数据集中：·产生DATA步代码·产生SAS/ACCESS代码·翻译引擎用户可以利用语句和选项来控制结果的输出，这些语句或者选项对于输入数据资源来说是特定的。PROCIMPORT过程产生特定的SAS输出数据集并且往SAS日志窗口写入关于输入的信息。在日志窗口中，用户可以看到由PROCIMPORT过程产生的DATA步或者SAS/ACCESS代码。如果使用翻译引擎，那么就不会提交代码。注意：为了输入数据，用户也可以使用Import 指南，这是一个窗口工具，它能够指导用户通过使用该过程输入外部数据资源。用户也可用请求Import指南产生IMPORT过程语句，该语句可以被保存到文件中以备后用。选择FileImportData可以使用Import指南。49.2.9MEANS过程MEANS过程为描述性统计量计算提供了数据总结工具，这些变量来自于所有的观测和分组的观测。例如，运行PROCMEANS可以·计算基于矩阵的描述性统计量·估计分位数，包括中位数·计算均数的置信区间·进行t检验在默认的情况下，PROCMEANS过程显示输出结果。用户也可以利用OUTPUT语句将统计量存储到一个SAS数据集中。PROCMEANS过程与PROCSUMMARY过程是非常相似的。49.2.10OPTIONS过程该过程用于列出所有SAS系统选项的当前值，输出结果在SAS的LOG窗口中显示。SAS系统选项是用于控制SAS输出格式、文件处理、数据集运行、与操作环境的交互方式、以及其他任务，它不是针对某一步或某个SAS数据集。用户可以通过以下方式改变SAS某些选项的当前值：SAS命令、配置或autoexec文件、SASOption语句、使用OPTLOAD和OPTSAVE过程、通过SAS系统选项窗口、以及其他方法。通过OPTIONS过程产生的LOG输出窗口可以显示全部选项的设置和概要。49.2.11PLOT过程PLOT过程用来画散布图。在数据处理中常常希望直观地了解数据的变化趋势，数据间的相关关系等，该过程能够很方便地实现这一目的。假设已有一个SAS数据集，共有n个观测，m个变量。该过程能够对数据集中任两个变量画出散布图。用户可以自定义散布图的标记符号、刻度间隔和标记、图形的大小、重叠作图、等值线图、以及水平或垂直方向的扩展。49.2.12PRINT过程PRINT过程用于输出SAS数据集中的全部或部分变量的数值，它可以产生一系列报告，从简单列表报告，到资料分组和数值变量总体或亚总体计算的高级定制报告。简单列表报告是用户可以产生的最简单的一种报告，它通过procprint语句直接产生。定制报告通过使用ODS的PRINT过程来产生，包括：HTML输出、定制报表外观、定制标题和列标题、数值输出中的美元符号和逗号、选择性的变量数量和顺序、报表资料分组、全部或部分变量值汇总。49.2.13PRINTTO过程该过程用于定义SAS过程输出和SAS日志的输出地点。通常，SAS过程的输出根据执行的方式，送到缺省的过程输出文件。SAS日志根据执行的方式送到缺省的SAS日志文件。使用PROCPRINTTO，用户可规定文件标记，文件名，或者逻辑名作为打印输出或SAS日志的目的地，该过程把输出送到用户指定的文件中去。PRINTTO过程的功能有：改变过程输出的目的地、改变SAS日志的目的地、有选择地限制SAS输出、把输出文件存放在永久性文件中、在同一作业中使用SAS输出作为输入数据。49.2.14RANK过程该过程通过SAS数据集中的观测计算一个或几个数值变量的秩得分，这些秩得分被输出到新的SAS数据集中。RANK过程可以有选择地生成正态或其他秩得分。RANK过程把数值从最小到最大排列，对最小值赋秩1，对第二小值赋秩2，一直到赋秩n，出现数值相同的观测值时，其秩可以赋平均秩。许多非参数统计方法使用秩而不用原始变量值。该过程对于连续数据分成n组也是有用的。选项GROUP=能够把一个总体分解为个数近似相等的一些组。49.2.15REPORT过程REPORT过程将PRINT,MEANS和TABULATE过程的特点与DATA步报告写法的特点结合起来成为一个强有力的编写报表的工具。用户可以按以下各种方式来使用该过程：1、用一个具有提示功能的窗口环境来引导用户建立一个报表；2、用一个没有提示功能的窗口环境；3、用一个非窗口环境。在这种情况下，用户提交带有PROCREPORT语句的一系列语句，正如用户在其他SAS过程的做法一样。用户可以存贮一个报表的定义并且用一个窗口环境或者非窗口环境对含有用于报表定义中这些变量的任一个SAS数据集生成同样的报告。49.2.16SORT过程SORT过程在SAS数据集中按一个或几个变量的大小次序将观测重新分类排序，并把结果存放在新的SAS数据集里，或者用新的数据集代替原始数据集。SORT过程常用于将数据集分类排序，以便其他SAS过程通过使用BY语句可以直接调用它。在对数据集进行合并或者更新前，也必须先进行分类排序。该过程根据BY语句中变量值的大小将数据集中的观测重新排序。当你想按两个或更多的变量进行排序时，SORT过程首先按第一个BY变量的次序排序，然后对第一个BY变量具有相同值的那些观测再按第二个BY变量的次序排序。对所规定的每个BY变量均依次进行排序。49.2.17SQL过程SQL过程实现SAS中的结构查询语言SQL（StructuredQueryLanguage）。SQL是一个标准化的广泛使用的语言，它可以检索和更新关系表格和数据库中的数据。SQL过程可以实现：1、检索和操作存于表中、视图里的数据；2、在表的列中生成表格、视窗和索引；3、产生包含查询结果各行观测值的SAS宏变量；4、增加或修改在表格列里的数值，或者通过增加、修改、删除列来修饰表格。49.2.18STANDARD过程STANDARD过程将SAS数据集中的部分或所有变量按给定的均值和标准差进行标准化变换，并生成一个包含标准化值的新的SAS数据集。标准化是一种移动数据位置和标度属性的方法。有时你需要将一个变量中心化使其均值为0、标准差为1。有些统计方法是在数据标准化的基础上进行分析的。如果数据是正态分布，标准化也是学生化，因为标准化的结果具有学生t分布。49.2.19SUMMARY过程SUMMARY过程是用于数据集中或分组中的所有观测进行描述统计量计算的数据汇总工具。SUMMARY过程与MEANS过程非常相似，MEANS过程中的描述适用于SUMMARY过程。49.2.20TABULATE过程TABULATE过程用分类报表的形式输出满足用户要求的描述性统计量。每个表单元属于用交叉变量名组成的特殊的观测类。与每个单元有关的统计量是由该类所有观测计算得到的。由该过程计算的统计量很多与其它描述过程，如MEANS，FREQ和SUMMARY等计算的统计量相同。TABULATE过程可以提供：简单但很有效的方法来创建用户定义的报表；非常灵活的分类方式；用于加标题、格式化变量和用过程产生统计量的各种机制。49.2.21TRANSPOSE过程TRANSPOSE过程完成对SAS数据集的转置，即把观测变为变量，变量变为观测。该过程读入一个SAS数据集并创建一个新的数据集作为它的唯一输出集。原数据集中的行变成列，列变成行。在新的数据集中的变量对应于原数据集的观测，而新的数据集中的观测对应于原数据集的变量。该过程产生的新数据集包含下面三类变量：从输出数据集中拷贝过来的变量，这些变量与输入数据集中的变量具有相同的名字和值、由输出数据集中的观测转置后创建的变量；为了识别在输出数据集的每个观测值的来源而由该过程创建的变量。49.2.22UNIVARIATE过程该过程除了可以完成类似MEANS过程的基本统计量计算外，它还可以计算以下统计量：描述变量极端值的情况；计算分位数；生成若干个描述变量分布的图；生成频数表；对数据进行正态性检验。还可对单组设计或配对设计定量资料进行t检验或符号检验、符号秩和检验。49.3SAS/STAT模块中最常用的一些过程及其主要功能49.3.1ANOVA过程ANOVA过程对多种类型试验设计的均衡数据进行方差分析。一个响应变量（通常称为因变量）在由分类变量（通常称为自变量）识别的试验条件下被测量。响应变量的变异可解释为归因于分类效应的误差加上随机误差。ANOVA过程是SAS/STAT模块中进行方差分析的几个过程之一。ANOVA过程用于处理均衡数据（即对于分类变量的每种组合观测数是相等的），GLM过程能够处理均衡和不均衡的两种数据。因为PROCANOVA过程考虑到均衡设计的特殊构造，对于均衡数据使用ANOVA比起使用GLM不仅较快，而且使用的存储量更少。ANOVA过程主要处理均衡数据，除此之外，还可以处理拉丁方设计，若干不完全的均衡区组设计，完全的嵌套（或系统分组）设计以及单元频数互相成比例，且对基本总体也成比例的设计。因素彼此正交时出现异常。进一步的详述参见Searle。PROCANOVA用于每组要素都具有相同值的区组对角线X´X矩阵。通过检测平均单元值来对程序进行部分试验。然而。这个试验是不完美的：一些不能被正确分析的设计可能会通过试验，能被正确分析的设计也许不能通过试验。如果你的设计不能通过试验，PROCANOVA将给出警告来告诉你这个设计不均衡并且ANOVA分析无效；如果你的设计不是一个特殊的案例，那么应该用PROCGLM代替。PROCANOVA没有完全有效的设计，因为需要整个X´X矩阵；如果你不确定你的设计中PROCANOVA的有效性，则应使用PROCGLM。需要注意的是：如果你使用PROCANOVA来分析不均衡数据，你必须假定结果有效性的响应度。ANOVA过程自动产生图形作为ODS输出的一部分。49.3.2CALIS过程结构方程模型是一个在经济及行为科学领域中重要的统计方法。结构方程表示几个变量之间的关系，这些变量包括可直接观测的显变量及不可观察的隐变量。隐变量的介绍参见Loehlin(1987),Bollen(1989b),Everitt(1984),orLong(1983)；显变量参见Fuller(1987)。在结构模型中，所有的变量都是随机变量而不像函数模型中变量取相同的水平。在CALIS过程里关于极大似然估计和广义最小二乘估计中，随机变量通常假设近似具有多维正态分布。否则的话，尤其是高峰度时，即使样本量很大，也容易导致粗劣的估计，很大的标准差和错误的假设检验。因而，正态分布的假设比起在模型中自变量非随机变量的假设更重要。用户在使用CALIS过程的最大似然估计和广义最小二乘估计之前，应删去异常点并对非正态变量进行适当变换。如果观测个数足够大，可以使用Browne的ADF估计方法。CALIS过程在以下几方面可用于解决有约束条件和无约束条件问题的参数估计和假设检验：z多重和多元线性回归模型z线性测量误差模型z路径分析和因果关系模型z具有交互因果关系的联立方程模型z探索性的或证实性的任何阶次的因子分析z典型相关分析z其它线性或非线性隐变量模型根据下述标准进行参数估计：z没有加权的最小二乘准则（ULS）z广义最小二乘准则（GLS）z多维正态数据的最大似然准则（ML）z加权最小二乘准则（WLS，ADF）z对角线加权最小二乘准则（DWLS）广义最小二乘准则的默认权矩阵是简单样本协方差或相关矩阵。加权最小二乘准则的默认权矩阵是样本协方差或相关矩阵的不对称协方差阵的估计。在这种情况下，加权最小二乘准则等价于Browne不对称自由分布估计。对角加权最小二乘准则的默认权矩阵是输入样本协方差或相关矩阵的渐近方差的估计。可以使用输入数据集在GLS、WLS和DWLS中指定权矩阵。PROCCALIS中估计方法的实现没有用尽这个领域所有的供选方案。例如，PLS没有被实现。具体参见SAS说明书关于PROCCALIS中“估计标准”部分的内容。注意一个被称为PROCPLS的SAS/STAT过程，它应用不完全最小二乘法，但其模式的分类不同于PROCCALIS的。带有潜变量的通径分析或结构方程模型可以考虑使用PROCCALIS。模型说明有以下几种输入方式可以使用：z如果用户已有一组描述模型的结构方程式，利用LINEQS语句以等式形式描述这一组结构方程。z利用REM语句以简易的公式化列表形式规定简单的路径模型（McArdle和McDonald1984）。z利用FACTOR语句进行带约束的一阶因子分析或分量分析。z利用COSAN和MATRIX语句分析一组矩阵模型，这与McDonald和Fraser的COSAN程序类似。它允许你规定复杂的矩阵模型，包括非线性方程模型和高阶因子模型。对于参数的线性和非线性等式及不等式约束可根据输入类型的不同由一些不同的语句指定。对于简单的常数及等式参数约束和起作用的边界约束，需要计算拉格朗日乘子检验指数。一般的等式及不等式约束可用程序语句加以公式化。PROCCALIS在最优化过程中提供几种自动产生初始估计的方法：z二阶段最小二乘估计z仪器变量因子分析z近似因子分析z普通最小二乘估计zMcDonald法在很多共同的应用中，这些初始值将防止出现计算问题，并节省计算时间。由于在（非）线性约束的优化过程中经常出现数值问题，因而CALIS过程提供了几种优化算法：zLevenberg-Marquardt算法z置信域算法zNewton-Raphson算法z各种拟牛顿算法和对偶拟牛顿算法z各种共轭梯度算法拟牛顿和共轭梯度算法可以被一些网上查到的方法修饰。最优化技术在参数上加上简单分界线和线性约束。只有对偶拟牛顿算法可以加上非线性等式和不等式限制。过程创建OUTRAM=输出数据集，它完全地描述模型（除了程序语句）并且包含参数估计。这个数据集可被用于另一个PROCCALIS执行的输入。编辑数据集会出现小的模型改变，所以可以在之后的分析中利用先前的参数估计作为初始值。OUTEST=数据集包含关于最佳参数估计（参数估计、梯度、Hessian等）的信息。INEST=数据集对参数给出了起始值、分界线和线性约束。OUTSTAT=数据集包含残差，用于探索性因子分析，旋转和非旋转因子载荷。在使用RAM和LINEQS输入语句的同时，或者当这些模型用输入模型数据可被识别时，可以进行自动变量选择（从输入数据集中选出只在模型说明中用到的变量）。在这种情况下，外生显变量的协方差被认为是给定常数。使用PREDET选项在过程开始前可以预测模型矩阵中呈现常数和变量的预设模式。PROCCALIS提供在信息矩阵（近似Hessian矩阵）中线性相关的一种分析，它在检测未识别模型中是有用的。为了进一步的分析，用户可以同参数估计、梯度和近似标准误差一起在一个输出数据集中存贮信息矩阵和参数估计的近似协差阵（信息矩阵的逆）。PROCCALIS未提供样本大小不同或数据中存在缺失值的多个样本的广义算法。然而，相同样本含量的多个样本的分析可通过包含作为分块对角子矩阵的单个矩阵的动差超矩阵来完成。新的实验过程TCALIS可被使用。除了COSAN模型分类，PROCTCALIS在CALIS过程中支持几乎所有的模型分类方法。此外，PROCTCALIS有许多新的特点，PATH语句可通过使用路径语法来规定模型，MSTRUCT语句可以直接规定协方差结构，进行多组分析，增强均值和协方差结构分析，先验的功能检验，标准误估计的影响分析等等。CALIS过程使用ODS制图法来绘制图形作为它的输出。高品质的残差直方图可通过PROCCALIS得到。49.3.3CANCORR过程CANCORR过程完成典型相关，偏典型相关和典型冗余相关分析。典型相关分析是研究两组变量间相关关系的一种统计方法。在多重相关中，可以检查两组变量（X和反应变量Y）间的线性相关情况。在典型相关分析中，可以检查线性组合变量X和线性组合变量Y之间的关系。这些线性组合被称为典型变量。自变量和反应变量可被详细说明，因为统计模型在两组变量中是均衡的。在一组或两组包含单变量的情况下，简单和复杂相关是典型相关中的特例。CANCORR过程可以检验一些假设，如在总体中，每个典型相关及所有较小的典型相关为0。进行检验时CANCORR过程使用F近似统计量，在小样本情况下，F近似给出比使用卡方近似较好的结果。进行检验时要求两组变量中至少有一组近似正态分布，以便得到的概率水平有效。该过程可以计算标准化和没有标准化的典型系数，典型变量和原始变量的所有相关，同时也可进行典型冗余分析。PROCCANCORR提供多重回归分析选项来帮助解释典型相关分析。PROCCANCORR可产生包含每个典型变量的观测值的数据集，并且可使用PRINT过程来列出这些值。每个典型变量对应其它组中它的副本的图通常很有用，可以使用PROCSGPLOT同输出数据集来绘制图。第二个输出数据集包含典型相关和其它过程的统计计算。49.3.4CANDISC过程典型判别分析是与主成分分析和典型相关有关的降维方法。这种方法用于导出单因素多元方差分析的典型系数。单因素多元方差分析试验为了计算均值向量。典型判别分析找出了定量变量的线性组合，使组或类得到最大程度的分离。给出分类变量和一些定量变量，CANDISC过程导出典型变量，定量变量的线性组合概述了类间的变化，主成分以相同的方式概述了总变异。CANDISC过程完成典型判别分析，计算平方Mahalanobis距离并做单变量与多变量的单因素方差分析。该过程产生包括典型相关系数和典型变量得分的输出数据集。典型系数输出数据集可被FACTOR过程旋转。遵循典型相关的标准以使典型变量的均值等于0并且组内方差等于1。PROCCANDISC显示出标准和非标准典型系数。典型变量和原始变量的关系与典型变量的类均值也同样被呈现出来；这些相关，有时被认为是载荷，被称为典型结构。典型变量输出数据集可与ODS图形连用绘制典型变量来帮助看清组间差距。给定两组或更多组带有几个定量变量的观测，典型判别分析得出与组有最大可能多重相关的变量的线性组合。最大的多重相关叫做第一典型相关。线性组合的系数称为典型系数或典型权重。线性组合定义的变量称为第一典型变量或典型成分。第二典型相关由与第一典型变量无关的线性组合得到，该组合应与组有最大可能多重相关。抽取典型变量的过程可以重复直到典型变量的个数等于原始变量的个数或类的个数减1。第一典型相关至少等于组与任何一个原始变量间的多重相关。如果原始变量有较高的组内相关，第一典型相关可以很大，即使多重相关很小。换句话说，第一典型变量可以显示类间的重要区别，即使用原始变量不能达此目的。典型变量有时被称为判别函数，但是这种使用不明确，因为DISCRIM过程产生不同的分类函数也被称为判别函数。对每一个典型相关，CANDISC检验总体中该相关及更小的典型相关为0的假设。采用F近似值比一般的卡方近似值能给出更好的小样本结果。每一类内变量应该具有近似的多元正态分布，为了概率水平有效，方差阵应该是相同的。典型判别分析相当于定量变量从类变量得到的哑变量集的典型相关分析。典型判别分析相当于执行以下步骤：1)变化变量使合并的类内协方差阵为单位阵2)计算变换后的变量的类均值3)对均值做主成分分析，以每一类中的观测的个数作为权重。特征值等于每一个主成分方向上类间偏差与类内偏差之比4)把主成分变量反变换到原始变量的空间，获得典型变量典型变量一个有趣的特征是无论相关是从全部样本还是从合并类内相关计算出，它们都不相关。但是，典型系数并不正交，因此，典型变量并不代表原始变量空间中正交的方向。49.3.5CATMOD过程CATMOD是属性数据建模过程。CATMOD分析可用列联表来表示的数据。该过程用线性模型拟合响应频数的函数，可用来进行线性模型化，Logistic回归和重复观测分析。CATMOD使用：z加权最小二乘估计来分析广泛的一般线性模型z最大似然估计来分析对数线性模型和广义Logits模型CATMOD过程提供各种属性数据分析。许多是连续数据分析方法的一般化。输入数据的类型可以是两种类型。例如传统意义上的方差分析，适用于均数分析和将变量从均值划分到不同的来源。这里，方差分析用于响应函数的分析和将函数变量划分到不同的来源。如果因变量是被顺序标度的，那么响应函数可能为均值。但是它们也可以是边缘概率，累积Logits，或者从因变量合并基本信息的其它函数。提示：PROCCATMOD用于WLS模型和广泛列联表模型的分析。标准模型的ML建模，特别是与连续预测一起更适合使用如PROCGENMOD或PROCLOGISTIC过程。49.3.6CLUSTER过程CLUSTER过程分别采用十一种方法对SAS数据集中的观测进行分类。数据可以是数值型的坐标值，也可以是距离值。如果数据是坐标值，CLUSTER过程计算（可能是平方）欧式距离。如果想得到非欧式距离，使用DISTANCE的数据集作为输入数据集。聚类方法有类平均法、重心法、最长距离法、密度估计法（包括Wong混合聚类方法和k最近邻方法）、最大似然法、可变类平均法、McQuitty相似分析法、中间距离法、最短距离法、两阶段密度估计法和Ward最小方差法。所有的方法都以谱系聚类过程为基础，一开始将每个观测各作为一类，然后将距离最近的两类合并形成一个新的类来代替之前的两类。重复进行两个最近类的合并，每次减少一类，直至所有观测合并为一类。不同聚类方法的区别在于类间距离的计算方法不同。因为对于大多数方法，计算时间随观测数目的平方或立方而改变，所以CLUSTER过程并不适用于非常大的数据集。FASTCLUS过程所需的时间与观测数量成比例，因此比CLUSTER更适用于更大的数据集。如果要对非常大的数据集进行系统分类，可以使用FASTCLUS进行初始聚类分析并生成较多类，然后使用CLUSTER对上面的类进行系统分类。CLUSTER打印聚类的历史过程，给出用于对样本数据集估计分类个数的统计量。CLUSTER也生成一个输出数据集，TREE过程可用这个数据集画分类谱系树状图或在所要求的任何水平下输出聚类结果。例如，为得到6个类的结果，可以首先使用带有选项的OUTTREE=的CLUSTER语句；然后使用这个数据集作为TREE过程的输入数据集，并在TREE过程中，使用选项NCLUSTERS=6和OUT=来得到6个类的结果，并画一张树状图。对于坐标数据，欧式距离由坐标值之间的差别计算。差别的使用有以下重要影响：z如果差别有效，变量必须有间隔或者较大的测量范围。有序或分级数据不适合进行聚类分析。z对于同等的欧式距离，相同的距离应有相同的实际影响。需要将变量进行线性或非线性变换来满足条件。例如，如果一个变量的单位为美元一个为欧元，应将它们转换为相同的货币单位。如果比值比差别更有意义，则应取对数。z变化大的变量比变化小的变量对于聚类的结果有更大的影响。如果认为所有变量同等重要，可用PROCCLUSTER中的STD选项进行标准化，使得均值为0，方差为1。标准化并不是总能适用。除非选项TRIM=也被使用，否则在使用带有STD选项的PROCCLUSTER过程前，异常值将被删除。STDIZE过程提供了变量标准化和输入缺失值的另一种方法。在下述任何条件下ACECLUS过程用于对变量进行线性变换：z不知道变量如何被衡量z在不考虑一些变量是否比其它变量有更大的影响时想检测自然聚类z想使用设计好的聚类方法来发现紧密的聚类，但也想检测延展的类49.3.7CORRESP过程CORRESP过程进行简单和多重对应分析。它是用于寻求列联表的行和列之间联系的低维图形表示法。每一行和每一列用单元频数确定的欧式空间中的一个点表示。PROCCORRESP也能够对欧式空间中附加的行和列计算坐标。PROCCORRESP能够读以下两类输入数据：关于两个或多个分类变量的原始类目响应和双向列联表。对应分析图用ODS绘制。背景：在法国和日本，对应分析是一种很流行的数据分析方法。在法国，对应分析是在Jean-PaulBenzécri的极大影响下发展起来的；在日本，是ChikioHayashi发展起来的。对应分析这个名字是法文analysedescorrespondances的翻译。从表面上看这个方法来源ﬁ于许多没有联系的文献（例如，Richardson和Kuder1933;Hirsheld1935;Horst1935;Fisher1940;Guttman1941;Burt1950;Hayashi1950）。它有许多不同的名字，在美国称为最优定标、相对平均、最佳得分和适当得分；在日本称为数量化方法；在荷兰称为齐性分析；在加拿大称为对偶定标；而在以色列称为标图分析。在法国，Benzécri(1973)和Lebart，Morineau和Tabard(1977)很详细地描述过对应分析。在日本，Komazawa(1982),Nishisato(1982),和Kobayashi(1981)也讨论过这个课题。在英国，对应分析由Lebart，Morineau和Warwick(1984),Greenacre(1984),Nishisato(1980),Tenenhaus和Young(1985)介绍过；Gi(1990)ﬁ，Greenacre和Hastie(1987)，以及许多其它文献也曾介绍过。Hoffman和Franke(1986)使用市场研究领域的例子给出简明的介绍。49.3.8DISCRIM过程对于每个观测都含有一个或多个定量变量和一个定义观测组的分类变量的观测数据集，DISCRIM过程确定一个判别标准把每个观测分入其中一组。从数据集中得出的判别准则在DISCRIM过程的同一个执行过程中可应用于第二个数据集。用以得出判别准则的数据集称为训练数据集或标定数据集。当每组都服从多元正态分布时，可使用参数检验方法来开发判别函数。判别函数也称为分类标准，由广义平方距离来决定。这一分类准则基于单个组内协方差阵或合并协方差阵；它也考虑到类的先验概率。校准信息被储存到特定的SAS数据集中并被其它数据集应用。当每组分布不被假设或假设分布不服从多元正态分布时，将采用非参数检验来估计组密度。这些方法包括核方法，k最近邻方法。DISCRIM过程采用均匀的、正态的、二权或三权的核方法来估计密度。马氏距离或欧式距离能够用来确定接近程度。马氏距离基于单个组内协方差阵或合并协方差阵。采用k最近邻方法时，马氏距离基于合并协方差阵。采用核方法时，马氏距离基于单个组内协方差阵或合并协方差阵。用被估计出的组密度和它们的先验概率，可以估计属于每类成员的后验概率。标准判别分析是关于主成分分析和典型相关的降维技术。给出分类变量和一些定量变量，DISCRIM导出典型变量（定量变量的线性组合），它可以用与主成分总结总变化相同的方式来总结两类间的变化。（见SAS说明书关于“CANDISC过程”中关于典型判别分析的信息）。判别标准来源于PROCDISCRIM。如果想用没有判别标准的典型判别分析应使用CANDISC过程。DISCRIM过程可产生包括不同统计量如平均标准差和相关的输出数据集。如果使用参数方法，判别函数被储存到数据集中来对将来的观测进行分类。在完成典型判别分析后，输出数据集包括典型系数被FACTOR过程旋转。PROCDISCRIM过程也能创建输出数据集的第二个类型，包括每个观测的分类结果。完成典型判别分析后，输出数据集同样包括典型变量评分。第三类输出数据集包括每个观测的组密度。PROCDISCRIM是通过估计未来观测分类的误差率来评价判别标准的。误差率估计包括出错数估计和后验概率错误率估计。当输入数据集是一个普通的SAS数据集时，将用交叉验证来估计错误率。不要混淆判别分析和聚类分析。所有的判别分析都需要关于类的先验知识，通常是每类中样本的形式。在聚类分析中，数据不包括类的隶属的信息；其目的是构建分类。49.3.9FACTOR过程FACTOR过程可以完成几种类型的公因子分析、主成分分析和因子旋转。输入数据集可以是多变量数据、相关阵、协差阵、因子模型得分数据。FACTOR过程对相关阵和协差阵进行分解，它计算的许多结果可以存储在输出数据集中。FACTOR过程可以处理来自其它过程的输出结果。比如在GLM过程中来自多变量分析的典型相关系数可以用FACTOR过程进行旋转。提取因子的方法有主成分分析，主因子分析，迭代因子分析，没有加权的最小二乘因子分析，最大似然（典型）因子分析，α因子分析，映像分量分析和Harris分量分析。先验共性方差估计的不同方法也可被用。正交旋转方法有：方差最大，四次方最大，parsimax，均方最大和因子parsimax。斜交方法同样适用。另外，四次方最小等斜交旋转也可用。正交旋转方法有用户指定γ的正交最大，用户指定幂次的parsimony和因子parsimony。斜交旋转法有用户指定的tau，用户指定幂次的parsimony，用户指定幂次的promax，用户指定幂次的Harris-Kaiser情况II，用户规定目标模式的斜交Procrustes。输出包括均值，方差，相关系数，抽样适当的Kaiser量度，特征值，屏幕图，特征向量，先验和最终的公因子方差，没有旋转的因子模型，残差和偏相关系数，旋转的主因子模型，主因子结构，参考结构，参考轴相关，即没有忽略也没有删除其它因子时每个因子解释的方差，旋转和没旋转的这些因子的散点图，每个因子同这些变量的多重相关的平方，标准误，置信区间，得分系数。FACTOR现在使用ODS制图法画图来作为输出的一部分。49.3.10FASTCLUS过程FASTCLUS过程是基于对一个或多个定量变量的距离计算进行不相交聚类而设计的。这些观测被归类，使得每个观测只能归于一类，但这些类不能像它们在CLUSTER过程做的那样形成树状图。如果想对不同分类个数分别进行分析，每个分析需运行PROCFASTCLUS一次。或者在大的数据集中进行分层聚类，使用FASTCLUS过程找到初始聚类，然后使用这些初始聚类作为PROCCLUSTER的输入。FASTCLUS过程默认使用欧式距离，所以聚类中心基于最小二乘估计。这种聚类方法通常被称为k均值聚类，当算法全收敛时，聚类中心是观测分配到每组的均值。每次重复降低最小二乘准则直到收敛完成。通常没有必要运行FASTCLUS过程来进行收敛。FASTCLUS过程通过对数据扫描两次或三次来寻找更好的聚类。PROCFASTCLUS的初始化方法担保如果存在相同聚类中观测间的所有距离小于不同聚类中观测间的所有距离，并且告诉FASTCLUS过程聚类的正确数值，它不用重复总是能找到聚类。甚至没能很好地分离类时，FASTCLUS过程常常寻找足够好的不需重复的初始点。因此，FASTCLUS过程默认重复一次。FASTCLUS过程的初始方法使得它对异常点很敏感。FASTCLUS过程是检验异常点的有效方法，因为异常点通常出现在只有一个成员的类里。FASTCLUS过程使用Lp（最小P次幂）聚类准则替代k均值聚类方法中的最小二乘(L2)准则。选项LEAST=P指定使用P次幂。因为需要更多的重复并且当指定LEAST=P时默认重复限制增加，所以使用选项LEAST=来延长完成时间。与最小二乘法相比，P值小于2时将减小聚类中心异常点的影响；P值大于2时将增强异常点的影响。FASTCLUS过程用于观测数大于100的大的数据集。对于小数据集，此过程对于观测的次序比较敏感。FASTCLUS过程用较大的方差替代变量上大的影响，所以在聚类分析前使变量标准化很必要。以上是对FASTCLUS过程简短的总结。更多关于聚类的测验可以参见包含聚类关系的输出数据集。49.3.11FREQ过程FREQ过程可以生成单向和n向的频数表和交叉表。对于双向表，该过程计算检验统计量和关联度。对于n向表，该过程进行分层分析，计算每一层和交叉各层的统计量。单向频数表中，FREQ过程进行等比例或指定零比例计算。该过程给出置信区间和二项式比例检验，包括非低等和同等检验。在列联表中，FREQ过程计算不同统计量来检验两个分类变量间的关系。对于一些配对变量，可以检测变量间关联度的存在和大小。如果存在关联应进行χ2检验。若想估计关联强度，当没有关联度时用FREQ过程计算关联度会趋近0，当有完美的关联度时会接近最大（最小）值。列联表统计包括：zχ2检验和测量z关联度测量z2×2表危险度（二项式比例）和危险度差异z2×2表OR值和相对危险度z趋势检验z一致性检验和测量zCMH统计量FREQ过程计算不对称标准误，置信区间，关联度和一致性测量的检验。精确的P值和置信区间对许多统计检验和测量很有用。FREQ过程也可以通过计算交叉、单向、n向列联表分层变量的调整来完成分析。包括CMH统计量和一致性检验。分析双向列联表关联度的方法的选择应考虑研究设计（指明行和列变量是自变量还是因变量），变量的测量尺度（名义的，顺序的，或间隔的），检测每一个测量的关联度的类型，和测量的有效解释所需的假设。应根据数据选择合适的方法。选择和解释检验统计量适用相似的评论。例如，MHχ2统计量需要对两个变量进行顺序标度并检测线性关联度。Pearsonχ2检验适用于所有变量并能检测关联度的任意类型，但检测线性关联度的效果不强，因为它的功效分散到了大量的自由度中（除了2×2表）。关于选择合适的统计分析的信息见Agresti(2007)或Stokes,Davis,和Koch(2000)。一些SAS过程计算频数；只有FREQ过程进行单向到n向列联表的χ2检验并计算列联表的关联度和一致性。另一些计算过程包括TABULATE和UNIVARIATE过程。使用SURVEYFREQ过程创建列联表和对样本调查数据进行关联度检验。若想对分类数据创建合适的模型，使用CATMOD,GENMOD,GLIMMIX,LOGISTIC,PROBIT,或SURVEYLOGISTIC过程。FREQ过程使用ODS，SAS子系统提供从SAS过程显示和控制输出的能力。ODS可以使FREQ过程的输出结果转入SAS数据集。FREQ过程使用ODS制图法绘制图形作为它的输出。49.3.12GENMOD过程GENMOD过程用于由Nelder和Wedderburn(1972)定义的广义线性模型。这一类广义线性模型是传统的线性模型的延伸，它使总体均值通过一个非线性连接函数依赖于线性预测值，还允许响应概率分布为指数分布族的任何一员。有许多广泛应用的统计模型都属于广义线性模型，其中包括带正态误差的经典线性模型，二元数据的对数和概率单位模型，以及多项数据的对数线性模型。还有其它许多有用的统计模型，如果选择合适的连接函数和响应概率分布的话，也可以表示为广义线性模型。McCullagh和Nelder(1989)对于使用广义线性模型的统计模型给出了详尽的说明，Aitkin等(1989)和Dobson(1990)所写的书也都是很好的参考书，其中收集了许多有关广义线性模型的应用的例子。Firth(1991)给出了广义线性模型的概述。当测量值被假设为多元正态分布时，来源于重复测量的相关数据的分析被广泛研究。然而，假设不总是合理的；例如，当响应是离散的并且是相关时，不同的方法论被用于数据分析中。广义估计方程提供了合理的有效的统计实践方法来分析数据。LiangandZeger(1986)引进GEE来处理相关数据，除了响应变量间的相关，数据可用于广义线性模型的建模。例如，在许多情况下相关的二元和计数数据可用这种方式建模。GENMOD过程可用GEE方法来使模型适用于相关的响应变量。可以使用GEE来使模型适用于Liang和Zeger(1986)的大多数的相关结构。更多GEE的信息参见Hardin和Hilbe(2003)，Diggle，Liang，Zeger(1994)，和Lipsitz等(1994)。广义线性模型的Bayesian分析可由GENMOD过程的BAYES语句获得。在Bayesian分析中，模型参数作为随机变量被处理，参数的影响基于参数的后验分布。使用Bayes学说作为用先验分布加权的数据的似然函数来得到后验分布。先验分布可以结合分析中参数值可能范围的知识或经验。如果没有参数值的先验知识，可以使用无信息的先验分布，并且Bayesian分析的结果与基于最大似然的经典分析相似。后验分布的封闭型通常不可行，Gibbs抽样的MarkovchainMonteCarlo方法用于从后验分布中模拟样本。在Bayesian分析中，为模型参数产生后验分布样本的Gibbs链。统计量（平均值，标准差，四分位数，HPD和置信区间，相关矩阵）和收敛诊断（自相关；Gelman-Rubin,Geweke,Raftery-Lewis,Heidelberger和Welch检验；样本大小；MonteCarlo标准误）对每个参数、相关矩阵和后验样本的协方差矩阵进行计算。使用ODS制图法来对每个参数绘制痕迹图，后验密度图，自相关函数图。GENMOD过程使用ODS制图法绘制图形来作为它的输出。49.3.13GLM过程GLM过程用最小二乘法拟合一般线性模型。在PROCGLM中用到的统计方法有：回归分析，方差分析，协方差分析，多元方差分析和偏相关。PROCGLM分析一般线性模型的数据。PROCGLM处理关于一个或几个连续自变量和一个或几个因变量的模型。自变量可以是能将观测分离到个别组的分类变量，也可以是连续变量。因此，GLM过程能被用在许多不同的分析中，包括：z简单回归z多重回归z方差分析，特别是非均匀数据的方差分析z协方差分析z响应面模型z加权回归z多项式回归z偏相关z多元方差分析z重复测量方差分析下面概括了PROCGLM的主要特征：z当有一个以上因变量时，GLM会自动将数据集内或BY组中具有相同类型缺失值的变量组合在一起，以保证利用所有可能的观测对每一因变量进行分析。zGLM能交互地使用。当指定并运行了一个模型后，GLM不用重新计算模型参数或平方和，就能执行多种不同的语句。zGLM允许你指定任意阶交互效应（交叉效应）和嵌套效应。GLM也提供下列效应项的估计，即多项式，连续变量与分类和连续变量嵌套于分类变量。z通过可估性的概念，无论有多少缺失的单元或者有多少混淆不清，GLM都提供线性模型效果的假设检验，GLM将打印出与每一假设检验有关的平方和，并且根据要求打印出在假设检验中用到的可估函数的形式。GLM能够产生所有可估函数的一般形式。z多元方差分析语句允许你规定用于多元方差分析的假设效应和误差效应。zGLM能够产生包括多个诊断度量和所有原始变量的输出数据集。另外，GLM能够产生包括平方和、叉积和及用MANOVA语句完成的典型分析的结果。同时，GLM也能在LSMEANS语句中产生一个输出数据集来存贮一些值、标准差和最小二乘均值的协方差。zREPEATED语句允许你指定在同一实验单位上相同响应重复出现的度量在模型中的效应，并且提供单变量和多变量的假设检验。zRANDOM语句允许你在模型中规定随机效应：打印出类型Ⅰ、类型Ⅱ、类型Ⅲ、类型Ⅳ的均方期望，并与在检验中使用的均方相对比。根据要求，可以完成把合适的均方或均方的线性组合作为误差项的Ｆ检验。zESTIMATE语句允许你指定一个Ｌ向量来估计参数β的一个线性函数Lβ。zCONTRAST语句允许你指定一个对照向量或矩阵来检验假设Lβ＝０。指定以后，这些对比也包含在用MANOVA和REPEATED语句所作的分析中。PROCGLM与其它SAS过程的比较：如前所述，GLM能够用在多种不同的分析中，有许多其它SAS过程没有的特别之处。但是，对某些类型的分析，可采用其它的SAS过程，正如后面“PROCGLM用于多重回归”和“PROCGLM用于非均衡方差分析”中所讨论的，有些时候用其它过程比GLM过程更有效。下列过程与GLM相比，可以完成某些相同的分析。ANOVA：完成均衡设计的方差分析，在这些模型下，ANOVA一般比GLM更有效。NESTED：对嵌套随机模型进行方差分析和方差成分估计。在这些模型下，NESTED一般比GLM更有效。NPAP1WAY：完成非参数单因子秩得分分析。这也可通过PROCRANK和PROCGLM实现。REG：完成一般用途的回归。REG允许使用多个MODEL语句，且给出回归诊断，特别是诊断共线性。RSREG：建立二次响应面回归模型，完成典型分析和岭分析。对来自一个响应面实验的数据，一般建议使用RSREG。TTEST：比较两组观测的均值，也检验两组方差是否相等。对这种类型的数据，TTEST往往比GLM更有效。VARCOMP：对一般线性模型估计方差分量。49.3.14GLMMOD过程GLMMOD过程为一般线性模型构造设计矩阵；它实质上完成了GLM过程建模的前端工作。你可以使用GLMMOD过程连同SAS/STAT软件的其它回归过程或SAS/IML软件来得到你用GLM过程无法得到的特殊分析。SAS/STAT软件中的一些用于回归的过程对一般线性效应建模提供分类变量及交互作用效应或多项式效应，而有些过程并不提供。对于这些过程，你必须用显变量来说明模型。例如，如果你想使用REG过程来拟合一个多项式模型，首先你必须生成交叉乘积项和幂次项作为新变量，这项工作通常在DATA步里完成。或者，你可以使用GLMMOD过程来创建一个数据集，其中包含一个模型的设计矩阵，它如同使用GLM过程的效应建模方法那样。TRANSREG过程提供了对满秩和非满秩模型、多项式构建设计矩阵的另一种方法。49.3.15GLMPOWER过程概率和样本大小分析优化了资源使用和研究设计，提高了有最高效率的最终结果的机会。GLMPOWER过程实现了线性模型概率和样本大小分析的预测，其目标有：z决定所需的样本大小来得到有足够概率的显著结果z通过研究中的概率来检测有意义的结果z进行假设分析来评估概率和所需样本含量对其它因素的敏感性预测分析表明分析与对未来的计划有关。这与对过去研究的回顾性分析相反，它不支持这个过程。统计分析涵盖了TypeIII检验和单变量线性模型指定效果的差别，有随意的协同变异。协同变异可以是连续的或绝对的。涉及随机效应的检验和对比不被支持。PROCGLMPOWER的输入包括在研究计划中被考虑的成分：z设计（包括项目概况和它们的指定权重）z统计模型z类效果的对比z显著性水平（α）z项目的推测反应均数（通常被称为“单位均值”）z变异性推测z概率z样本大小为了判别作为结果参数的概率和样本大小，应用输入中的缺失值指明它。过程通过一个或多个输入为所有其它成分计算结果值。通过使用模范数据集来指明设计和单位均值，构建人工值数据集来说明总体的抽样设计和推测的反应均值。使用与GLM,ANOVA和MIXED过程相似的MODEL和CONTRAST语句规定模型和对比。用POWER语句来指明保留参数，这与POWER过程的分析语句相似。GLMPOWER过程除了列表，还可以绘图。默认设置可以方便地绘制大多数常见图

                    本文档为【SAS过程简介】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

SAS过程简介

你可能还喜欢