第三章 spss文件的基本加工与处理
3-1 数据文件的整理
一、个案排序
1、排序变量:作为个案排序
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
的变量
2、单值排序:只有一个排序变量
3、多重排序:
★ 含义:有一个以上的排序变量
★ 方法:
4、操作:
★菜单选择:Data -> Sort Cases
★指定主排序变量至Sort by
★多重排序应注意排序规则
5、注意:
★注意多重排序时的排列顺序
★可按一个变量升序而另一个变量降序
★重新排序后,原来数据的次序被打乱,注意备份。
二、个案选取
1、spss个案选取的方式
★方式一(If condition is satisfied):
选择符合一定条件的个案
l 方式二(random sample of cases):
l 随机选取个案
——近似选取 近似按照百分比选取
——精确选取 以个案数与个案范围两个参数为标准选取
★方式三(based on time or case range):
选区某一范围内的全部个案
★方式四(use filter variable):
该变量取值为0或系统缺失值的个案全部被删除
2、spss个案选取的步骤
★菜单选项:Data -> Select Cases
★指定个案选取方式
★指定为选中个案的处理方式:
Filtered——以“/”作为删除比标记
Deleted——从数据编辑窗口删除
★说明:
——spss只对选择后的个案进行分析
——前三种方式中spss自动生成一个新变量:filter_$
0表示个案未选中,1表示改个案被选中。
二、个案转置
1、含义:将数据编辑窗口的数据的行列进行互换
2、操作:
——菜单选择Data ->Transpose
——指定保留变量进入Variable中
——选择转置后各个变量如何取名。选择一个取值唯一的标记变量,转置后变量为:V+标记变量。否则变量名为默认形式。
三、数据文件的合并
1、纵向合并
★含义:对接变量
★条件:
——内容合并有实际意义
——合并的变量名要相同
★操作:
——打开待合并的文件
——Data ->Merge->Add Cases
——共有的变量会自动匹配,出现在Variable in New Working Data中。如果不接受这种默认,可将其剔出到Unpaired Variables
——在Unpaired Variables中,*表示当前数据窗口的变量,+表示即将被调入的数据文件中的变量。
——还可以手工使用Pair强行匹配,再进入Variable in New Working Data,或者先按Rename更名后再配对。
——个案标记。可以选择Indicate case source as variable,自动出现Sourcel1变量,0表示第一个文件,1表示第二个文件。
2、横向合并
★含义:对接个案
★条件:
——至少有一个公共变量
——按照关键变量进行排序
——数据含义不同的劣,使用不同的变量名。
★操作:
——打开待合并的文件
——Data ->Merge File->Add Variables
——在New Working Data中,*表示当前数据窗口的变量,+表示即将被调入的数据文件中的变量。
——如果不接受这种默认,可将其剔出到Excluded Variables; 或者或者先按Rename更名再进入New Working Data。
——还可以手工使用Pair强行匹配。
——如果数据是横向对应的,则点OK。否则,进入下一步。
——若数据不是横向对应的,则选Match cases on key variables in sorted项,从Excluded Variables选出一个或多个变量作为Key Variables
——指定数据提供方式:
Both files provide cases:合并后的数据有两个文件共同组成。
External file is keyed table:合并后的个案是当前窗口的个案
Working data file is keyed table:合并后的个案仅是第二个窗口的个案
——个案标记。可以选择Indicate case source as variable,自动出现Sourcel1变量,0表示第一个文件,1表示第二个文件。
3-2 数据加工
一、变量转换
——含义
——作用:利用统计分析
——三种基本方式:
spss算术表达式法、spss函数法、spss条件表达式法
1、spss算术表达式法
——含义:由常量、spss变量名、spss算术运算符与圆括号组成的表达式,即变量名的算术混合运算式。
——字符型常量应用单引号引起来
——主要运算包括:加+、减-、乘*、除/与乘方**
——注意:
常量与变量的类型应该一样
算术表达式是针对变量进行的,每个个案均有其数值
结果变量与数据变量的类型一样
2、spss条件表达式
★含义与作用:仅对部分个案进行运算
★类型:
——简单条件表达式
包括:><≥≤≠=
——复杂条件表达式:由SPSS关系运算符、常量、SPSS变量、括号以及算术表达式和函数式等组成的式子。
逻辑运算符有:以优先次序有NOT \AND\OR
3、spss函数
★算术函数
常见的算术函数
函数名
功能
举例
ABS(数值表达式)
计算数值表达式的绝对值
ABS(数学—英语):每个个案的函数值均为:各自数学与英语差的绝对值
SQRT(正数值表达式)
计算正数值表达式的平方根
SQRT(4):每个个案的函数值均为:2
SIN(弧度单位的角度数)
计算正弦值
SIN(30*3.14/180):每个个案的函数值均为:0.5
COS(弧度单位的角度数)
计算余弦值
COS(60*3.14/180):每个个案的函数值均为:0.5
EXP(数值表达式)
计算e的数值表达式次幂
EXP(5):每个个案的函数值均为:148.41
LN(数值表达式)
计算以e为底的自然对数值
LN(5):每个个案的函数值均为:1.61
LG10(数值表达式)
计算以10为底的对数值
LG10(5):每个个案的函数值均为:0.7
RND(数值表达式)
得到数值表达式四舍五入后的整数
RND(2.66):每个个案的函数值均为:3
TRUNC(数值表达式)
得到截去数值表达式小数部分后的整数
TRUNC(4.7):每个个案的函数值均为:4
MOD(数值表达式,常数)
得到数值表达式除以常数后的余数
MOD(20,3):每个个案的函数值均为:2
★统计函数
常见的统计函数
函数名
功能
举例
MEAN(数值表达式,数值表达式,…)
计算出多个数值表达式的平均值
MEAN(数学,英语,计算机):对每个个案都算出成绩平均值
SD(数值表达式,数值表达式,…)
计算出多个数值表达式的标准差
SD(数学,英语,计算机):对每个个案都计算出成绩标准差
VARIANCE(数值表达式,数值表达式,…)
计算出多个数值表达式的方差
VARIANCE(数学,英语,计算机):对每个个案都计算出各成绩间的方差
SUM(数值表达式,数值表达式,…)
计算出多个数值表达式的总和
SUM(数学,英语,计算机):对每个个案都计算出各成绩的总和
CFVAR(数值表达式,数值表达式,…)
计算出多个数值表达式的变异系数(标准差/均值)
CFVAR(数学,英语,计算机):对每个个案都计算出各成绩间的变异系数
MAX(数值表达式,数值表达式,…)
得出多个数值表达式中的最大值
MAX(数学,英语,计算机):对每个个案都计算出各成绩中的最大值
MIN(数值表达式,数值表达式,…)
得出多个数值表达式中的最小值
MIN(数学,英语,计算机):对每个个案都计算出各成绩中的最小值
★分布函数
常见的分布函数
函数名
功能
举例
NORMAL(正数值型数据)
产生一个正态分布的随机序列,其均值为0,标准差为指定的数据
NORMAL(1):产生一个服从标准正态分布的随机序列
UNIFORM(数值型数据)
产生一个均匀分布的随机序列,其最小取值为0,最大取值为指定的数据
UNIFORM(1):产生一个服从均匀分布的随机序列,其取值范围是:0至1
RV. 分布名(参数,…)
产生一个服从指定统计分布的随机序列
RV.NORMAL(10,5):产生一个服从均值为10、标准差为5的正态分布随机序列
RV.T(10,5): 产生一个有10个自由度的学生分布随机序列
CDFNORM(数值型数据)
计算标准正态分布序列中小于指定数值的累计概率值。对应于PROBIT函数
CDFNORM(0):得到标准正态分布序列中小于0的累计概率,结果为0.5
PROBIT(概率值)说明:0<=概率值<=1
计算标准正态分布对应于指定累计概率值的数值
PROBIT(0.5):得到标准正态分布序列中累计概率为0.5的数值,结果为0
CDF.分布名(数值,参数,…)
产生一个服从指定统计分布的随机序列,并计算出序列值小于指定数值的累计概率值。对应于IDF函数
CDF.NORMAL(0,0,1):得到标准正态分布序列中小于等于0的累计概率,结果为0.5
IDF.分布名(数值,参数,…)说明:0<=概率值<=1
产生一个服从指定统计分布的随机序列,并计算出序列值小于指定累计概率值的数值。对应于CDF函数
IDF.NORMAL(0.5,0,1):得到标准正态分布序列中累计概率为0.5的数值,结果为0
★逻辑函数
常见的逻辑函数
函数名
功能
举例
RANGE(参数1,参数2,参数3,…)
判断参数1是否载参数2至参数3范围之间(包括参数2和参数3)
RANGE(数学:80,90):判断数学成绩是否在80至90分之间,结果依个案值而定
RANGE(‘AA’,‘AB’,‘AZ’):判断字符串AA是否在字符串AB至AZ的范围内,结果为0
ANY(参数1,参数2,参数3,…)
判断参数1是否出现在参数2或参数3中
RANCE(数学:80,90):判断数学成绩是否为80分或90分,结果依个案值而定
RANGE(‘AA’,‘XX’,‘DD’):判断字符串AA是否出现在XX或DD中,结果为0
二、产生记数变量
1、意义与作用
2、区间指定
★一个数据点
★一个闭区间
★给出最大值得开区间
★给出最小值得开区间
3、操作
三、数据文件的分类汇总
1、意义与作用
2、方法:
★指定分类变量与汇总变量
★分类计算
★分别保存
3、操作
说明:分类变量可以是多个,类似排序。
3-3 数据分组或重新编码
一、含义与作用
●含义:根据数据分析的需要,对原始数据进一步概括与总结,或者转换变量的类型。
●主要步骤:
——指定分组变量;
——定义分组区间;
——指定一个存放分组结果的标志变量
●分组方式:
——自动分组
——手动分组
二、数据自动分组
●含义:依据分组变量的大小,将个案自动分成若干组
●特点与局限:
无需指定分组变量的分组区间,缺乏分组的灵活性
●操作:
——选择Transform->automatic Recode
——Variable->New name
——在New name框输入标志变量名,并按New name
——在Recode Starting from框中制定组号编制方法:
Lowest value升序排列;Highest value降序排列
三、数据手工分组
●含义:依据分组变量的大小,将个案按照需要分成若干组。主要环节包括:指定分组变量、标志变量与定义分组区间。