生物统计II实验
课件
超市陈列培训课件免费下载搭石ppt课件免费下载公安保密教育课件下载病媒生物防治课件 可下载高中数学必修四课件打包下载
(第3个)
实验三 统计假设测验
(基础性实验)
一、实验目的和要求
通过对MEANS、SUMMARY(少用)、UNIVARIATE(少用)、TTEST过程的使用方法的学习,使同学们能对连续性资料(单个样本平均数、成对设计和成组设计两平均数相比较)进行统计假设测验。
二 、实验主要内容
1.过程
格式
pdf格式笔记格式下载页码格式下载公文格式下载简报格式下载
和语句功能
对于MEINS、SUMMARY和UNIVARIATE的过程格式和语句功能在上一章已介绍,现仅对其在连续性资料中,用于单个样本平均数、成对设计和成组设计两平均数相比较的统计假设测验时所需过程格式和语句功能作简单说明。(因为SUMMARY、UNIVARIATE过程不常用,请同学们主要参考
教材
民兵爆破地雷教材pdf初中剪纸校本课程教材衍纸校本课程教材排球校本教材中国舞蹈家协会第四版四级教材
)
1.1、MEANS过程格式及语句功能用于单个样本平均数、成对设计两平均数相比较的统计假设测验
PROC MEANS 语句选项串:
VAR — 变量名称串:界定参与
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
的数值变量。
1.2、SUMMARY 过程格式及语句功能用于单个样本平均数、成对设计两平均数相比较的统计假设测验
PROC SUMMARY语句选项串:
VAR — 变量名称串:界定参与分析的数值变量。
OUTPUT:OUT = 统计值输出文件名 统计值关键字符串。
PROC PRINT:打印语句。
1.3、UNIVARIATE 过程格式及语句功能用于单个样本平均数、成对设计两平均数相比较的统计假设测验
PROC UNIVARIATE语句的选项串:
VAR — 变量名称串:界定参与分析的数值变量。
OUTPUT:OUT = 统计值输出文件名 统计值关键字符串。
PROC PRINT: 打印语句。
1.4、TTEST过程格式及语句功能用于成组设计两平均数相比较的统计假设测验
PROC TTEST 语句的选项串;
CLASS — 变量名称串:指明分类变量,这里的分类变量仅为2个水平。
VAR — 变量名称串:界定参与分析的数值变量。
BY — 变量名称串: 用于指明分组变量,但事先要对数据集按分组变量对数据由小到大排列,该步骤可由PROC SORT完成。
2、 统计假设测验
2.1、单个样本平均数的假设测验
单个样本平均数的假设检验在SAS系统中可用 MEINS、SUMMARY 和UNIVARIATE的过程格式和语句来进行。
根据对某春小麦良种的多年种植,知其千粒重
=34g,现从外地引入一高产品种,在8个小区种植,得其千粒重(g)为:35.6 、37.6、 33.4 、35.1、 32.7 、36.8 、35.9、 34.6,问新引入品种的千粒重与当地良种有无显著差异?
(1).PROC MEANS过程
data ex41;
input y@@;
y = y - 34.0;
cards;
35.6 37.6 33.4 35.1 32.7 36.8 35.9 34.6
;
proc means n mean stderr t prt maxdec=3;
run;
【程序说明】:分析各个Y与
=34的差值
PROC MEANS语句:指定计算基本统计数据,包括样本容量、平均数、平均数标准误、t值和概率(指实得结果由误差造成的概率)。
结果显示 :
The MEANS Procedure
Analysis Variable : y
N Mean Std Error t Value Pr > |t|
8 1.213 0.58 2.09 0.0749
解释 :
输出结果中平均数为1.213是指8个小区的平均千粒重与良种千粒重平均数差值变量;实得结果由误差造成的概率值为0.0749,大于常用的显著水平(
=0.05) ,接受H0,说明新引入品种的千粒重与当地良种千粒重没有显著差异。
t 测验结果、t=2.09,Pr=0.0749 > 0.05,接受H0:说明新引入品种的千粒重与当地良种千粒重没有显著差异。
注:在SAS软件的假设测验中,计算的是t 值在t分布中位于两尾的概率,不是与t
相比。
(2).PROC SUMMARY 过程
data ex41;
input y@@;y = y - 34.0;
cards;
35.6 37.6 33.4 35.1 32.7 36.8 35.9 34.6
;
proc summary print;var y;
output t=t prt=p mean=md std=sd stderr=msd;
proc print;run;
【程序说明】:
PROC SUMMARY 语句后必须调用‘print’,是为了统计数的输出。
OUTPUT语句 指定输出t值、实得概率值 、平均数、标准差和平均数标准误。
PROC PRINT语句的作用是打印结果。
结果显示:
(1) The SUMMARY Procedure
Analysis Variable : y
N Mean Std Dev Minimum Maximum
8 1.2125000 1.6400675 -1.3000000 3.6000000
(2) The SAS System
Obs _TYPE_ _FREQ_ t p md sd msd
8 2.09105 0.074854 1.2125 1.64007 0.57985
解释:
(1) 显示基本统计数据:容量、平均数、标准差、最小值和最大值。
(2) t测验结果。
(3).PROC UNIVARIATE 过程
data ex41;input y@@;
y = y - 34.0;
cards;
35.6 37.6 33.4 35.1 32.7 36.8 35.9 34.6
;
proc univariate;var y;run;
【程序说明】:
PROC UNIVARIATE 语句后面虽未指出具体的选项,其固定给出正态分布统计数(可与第三章例3.1中的PROC UNIVARIATE语句比较)。
结果显示:
(1) The UNIVARIATE Procedure
Variable: y
Moments
N 8 Sum Weights 8
Mean 1.2125 Sum Observations 9.7
Std Deviation 1.64006751 Variance 2.68982143
Skewness -0.1750017 Kurtosis -0.6411801
Uncorrected SS 30.59 Corrected SS 18.82875
Coeff Variation 135.2633 Std Error Mean 0.57985143
(2) Basic Statistical Measures
Location Variability
Mean 1.212500 Std Deviation 1.64007
Median 1.350000 Variance 2.68982
Mode . Range 4.90000
Interquartile Range 2.35000
(3) Tests for Location: Mu0=0
Test -Statistic- -----p Value------
Student's t t 2.091053 Pr > |t| 0.0749
Sign M 2 Pr >= |M| 0.2891
Signed Rank S 12.5 Pr >= |S| 0.0859
(4) Quantiles (Definition 5)
Quantile Estimate Quantile Estimate
100% Max 3.60 25% Q1 0.00
99% 3.60 10% -1.30
95% 3.60 5% -1.30
90% 3.60 1% -1.30
75% Q3 2.35 0% Min -1.30
50% Median 1.35
(5) The UNIVARIATE Procedure
Variable: y
Extreme Observations
----Lowest---- ----Highest---
Value Obs Value Obs
-1.3 5 1.1 4
-0.6 3 1.6 1
0.6 8 1.9 7
1.1 4 2.8 6
1.6 1 3.6 2
解释 :
PROC UNIVARIATE语句分析给出了5个方面的统计量,信息量大,每个方面的具体内容与第三章一致。
根据本题意只需对试验资料进行统计假设测验,最后输出t测验值和概率值,作出统计推断即可。因此为了简明扼要,只要在PROC UNIVARIATE语句后面加上‘noprint ’,指明不需输出正态分布统计数,过程步如下:
data ex41;
input y@@;
y = y - 34.0;
cards;
35.6 37.6 33.4 35.1 32.7 36.8 35.9 34.6
;
proc univariate noprint;var y;run;
结果显示:
The SAS System
Obs md sd msd t p
1 1.2125 1.64007 0.57985 2.09105 0.074854
分析结果仅作出统计推断。
2.2、成对数据资料两平均数相比较的假设测验
成对设计资料两平均数间比较的假设检验在SAS系统中可用 MEANS、SUMMARY和UNIVARIATE过程格式和语句来进行。
选生长期、发育进度、植株大小和其它方面皆比较一致的两株番茄构成一组,共得7组,每组中随机一株接种A处理病毒,另一株接种B处理病毒,以研究不同处理方法的钝化病毒效果,表4.1结果为病毒在番茄上产生的病痕数目,试测验两种处理方法的差异显著性。
表4.1 A、B两法处理的病毒在番茄上产生的病痕数目
组别
y1(A法)
y2(B法)
d(差数)
1
10
25
-15
2
13
12
1
3
8
14
-6
4
3
15
-12
5
5
12
-7
6
20
27
-7
7
6
18
-12
(1).PROC MEANS 过程
data ex42;
input y1 y2 @@;
d = y1-y2;
cards;
10 25 13 12 8 14 3 15 5 12 20 27 6 18
;
proc means n mean stderr t prt; var d;run;
【程序说明】:
PROC MEANS语句 指定计算基本统计数据,包括样本容量、平均数、平均数标准误、t值和概率(指实得结果由误差造成的概率)。
VAR d 语句 界定对d 变量进行分析,d 变量是差数。如果该语句没有,则SAS系统自动对 y1、y2、d 进行分析。
结果显示:
(1) The MEANS Procedure
Analysis Variable : d
N Mean Std Error t Value Pr > |t|
7 -8.2857143 1.9965957 -4.15 0.0060
t 测验结果、t=-4.15,Pr=0.0060<0.01,否定H0:,接受HA:两种处理方法的钝化病毒效果有极显著差异。
(2).PROC SUMMARY过程
data ex42;
input y1 y2 @@;
d = y1-y2;
cards;
10 25 13 12 8 14 3 15 5 12 20 27 6 18
;
proc summary;var d;
output t=t prt=p mean=md std=sd stderr=msd;
proc print;run;
【程序说明】:
OUTPUT语句 指定输出t值、实得概率值 、平均数、标准差和平均数标准误。
PROC PRINT语句的作用是打印结果。
结果显示:
The SAS System
Obs TYPE_ FREQ_ t p md sd msd
1 0 7 -4.14992 .006011621 -8.28571 5.28250 1.99660
解释:
本例过程步的PROC SUMMARY 语句后面没有调用“print”,则一般的统计数就不输出,只输出所指定的统计数(可与例4.1中的PROC SUMMARY语句比较)。
(3).PROC UNIVARIATE过程
data ex42;
input y1 y2 @@;
d = y1-y2;
cards;
10 25 13 12 8 14 3 15 5 12 20 27 6 18
;
proc univariate noprint;var d;
output t=t prt=p mean=md std=sd stderr=msd;
proc print;run;
【程序说明】:
PROC UNIVARIATE语句后面的“noprint” 指明不需要输出正态分布统计数。
OUTPUT 语句要求只输出指定的统计数。
结果显示:
The SAS System
Ob md sd msd t p
1 -8.28571 5.28250 1.99660 -4.14992 .006011621
解释 :
调用三种过程格式和语句用于成对设计资料的统计假设测,结果是一致的。
2.3.成组数据资料两平均数相比较的假设测验
成组设计资料两平均数相比较的假设测验在SAS系统中可用TTEST的过程格式和语句来进行。
(1).各组观察值数目相等
随机调查某农场每667m230万苗和35万苗的稻田各5块,得667m2产量(单位:kg)列于表4.2,试测验两种密度667m2产量的差异显著性。
表4.2, 两种密度的稻田667m2产量(kg)
密 度
观 察 值
30万(y1)
400
420
435
460
425
35万(y2)
450
440
445
445
420
双循环输入法t为处理,n为重复数
data ex43;
do t=1 to 2;
do n=1 to 5;
input y@@;
output; end; end;
cards;
400 420 435 460 425
450 440 445 445 420
;
proc ttest; class t; var y;run;
【程序说明】:
在数据步中,第2—6句为循环语句,在DO后面直到END语句之前这些语句作为一个单元执行。DO和END语句之间的这些语句称为一个DO组。任意多个DO组能够被嵌套,本例使用两套循环。在DO语句里规定外层、内层的变量分别为t(组)、n(样本容量),它的值控制了该语句被重复执行的次数。
OUTPUT语句 用于输出一组观察值,它表明一条
记录
混凝土 养护记录下载土方回填监理旁站记录免费下载集备记录下载集备记录下载集备记录下载
的结束。
在过程步中, CLASS语句一定要设定,用于指明分组变量,本例是t。在TTEST过程中只允许有两组。VAR语句 指明对y变量进行分析。
结果显示: (1) The SAS System
The TTEST Procedure
Statistics
Lower CL Upper CL Lower CL Upper CL
Variable N Mean Mean Mean Std Dev Std Dev Std Dev Std Err
Y1 5 400.73 428 455.27 13.16 21.966 63.12 9.8234
Y2 5 425.44 440 454.56 7.0255 11.726 33.695 5.244
Y1- Y2 -37.68 -12 13.679 11.893 17.607 33.731 11.136
(2) T-Tests
Variable Method Variances DF t Value Pr > |t|
y Pooled Equal 8 -1.08 0.3126
y Satterthwaite Unequal 6.11 -1.08 0.3219
(3) Equality of Variances
Variable Method Num DF Den DF F Value Pr > F
y Folded F 4 4 3.51 0.2515
解释 :
分析结果输出三个方面的内容:
(1) 基本统计数据:容量、平均数及上下限、标准差及上下限、平均数标准误。
(2) t 测验结果。t=-1.08,P=0.3126,概率大于0.05,接受H0,说明两种密度667m2产量没有显著差异。
(3) 方差同质性测验。F=3.51, P=0.2515,概率大于0.05,说明两处理的方差同质,既为
。
(2).各组观察值数目不等
研究矮壮素使玉米矮化的效果,在抽穗期测定喷矮壮素小区8株、不喷矮壮素小区9株,其高度结果列于表4.3,试测验两处理植株高度的差异显著性。
表4.3 喷矮壮素与否的玉米高度(cm)
处 理
观 察 值
喷矮壮素(y1)
160
160
200
160
200
170
150
210
不喷矮壮素(y2)
170
270
180
250
270
290
270
230
170
1、双循环输入法t为处理,n为最大的重复数,少的用“.”代替。
data ex44;
do t=1 to 2;
do n=1 to 9;
input y@@;
output; end; end;
cards;
160 160 200 160 200 170 150 210 .
170 270 180 250 270 290 270 230 170
;
proc ttest; class t; var y;run;
2、单循环输入法c $ n,do i=1 to n
data ex44;
input c $ n;
do i=1 to n;
input y @@;
output;end;
cards;
c1 8
160 160 200 160 200 170 150 210
c2 9
170 270 180 250 270 290 270 230 170
;
proc ttest;class c;var y;run;
【程序说明】:
在数据步中,INPUT语句 指明输入字符型($)变量和数字型变量,字符型变量为处理类型号,数字型变量为每种处理类型内的容量。
第3—6语句构成循环结构,其中OUTPUT语句 把观察值输入到数据集ex44中,按分组资料组成数据集。
在过程步中,CLASS语句用于指明分组变量,本例是 C。
VAR y 语句 指明分析的变量。
结果显示:
(1) The TTEST Procedure
Statistics
Lower CL Upper CL Lower CL Upper CL
Variable N Mean Mean Mean Std Dev Std Dev Std Dev Std Err
C1 8 156.8 176.25 195.7 15.38 23.261 47.342 8.224y C2 9 196.47 233.33 270.2 32.394 47.958 91.877 15.986
Diff (1-2) -96.92 -57.08 -17.25 28.411 38.46 59.524 18.688
(2) T-Tests
Variable Method Variances DF t Value Pr > |t|
y Pooled Equal 15 -3.05 0.0080
y Satterthwaite Unequal 11.8 -3.18 0.0081
(3) Equality of Variances
Variable Method Num DF Den DF F Value Pr > F
y Folded F 8 7 4.25 0.0721
解释:
分析结果输出格式与前论述的相同,三个方面分别为:(1)基本统计数、(2)t 测验结果、t=-3.05,Pr=0.0080<0.01,否定H0:,接受HA:玉米喷矮壮素后,其株高与不喷的有极显著差异。
(3)方差同质性测验。
下面对本例在数据步中不采用循环语句方式输入数据,请比较语句的不同。
3、一个处理一个值的不循环输入法(最烦琐)
data ex44;
input C $ y @@;
cards;
a 160 b 170 a 160 b 270 a 200 b 180
a 160 b 250 a 200 b 270 a 170 b 290
a 150 b 270 a 210 b 230 b 170
;
proc ttest;class C;var y;run;
【程序说明】
在数据步中,INPUT语句是指明输入字符型($)变量和数字型变量,采用CARDS语句直接具体指明处理类型号和数据,这里不需调用output语句,这种方式更为简便。
过程步与上相同。
结果显示:
(1) The TTEST Procedure
Statistics
Lower CL Upper CL Lower CL Upper CL
Variable N Mean Mean Mean Std Dev Std Dev Std Dev Std Err
a 8 156.8 176.25 195.7 15.38 23.261 47.342 8.224
b 9 196.47 233.33 270.2 32.394 47.958 91.877 15.986
Diff (1-2) -96.92 -57.08 -17.25 28.411 38.46 59.524 18.688
(2) T-Tests
Variable Method Variances DF t Value Pr > |t|
y Pooled Equal 15 -3.05 0.0080
y Satterthwaite Unequal 11.8 -3.18 0.0081
(3) Equality of Variances
Variable Method Num DF Den DF F Value Pr > F
y Folded F 8 7 4.25 0.0721
解释 :
在数据步中虽不采用循环语句方式输入数据,分析结果完全一样。
三、实验操作和实验报告(全部是作业题。各题的程序和结果,结果中主要是t测验的数据,并解释结果的显著性maxdec=2)
1.对桃树含氮量测定10次,得结果(%)为:2.38 2.38 2.41 2.50 2.47 2.41 2.38 2.26 2.32 2.41 , 显著水平α=0.01, 检验H0:μ=2.50,HA:μ
2.50。(单个样本平均数的假设检验)
DATA ex31;
INPUT y@@;
y=y-2.50;
CARDS ;
2.38 2.38 2.41 2.50 2.47 2.41 2.38 2.26 2.32 2.41
;
PROC means n mean stderr t prt maxdec=2 ;
RUN ;
2. 从前作喷洒过有机砷杀雄剂的麦田中随机取4个植株,各测定砷残留量得:7.5 9.7 6.8和6.4mg,又测定对照田的3株样本,得砷残留量为:4.2 7.0和4.6mg,问两种麦田的有机砷的平均残留量是否存在显著差异?显著水平α=0.05, 检验H0:μ1=μ2,HA:μ1
μ2。(成组设计资料两平均数相比较的假设测验)
DATA ex31;
do t=1 to 2;
do n=1 to 4;
input y@@;
output; end; end;
CARDS ;
7.5 9.7 6.8 6.4
4.2 7.0 4.6 .
;
PROC ttest; class t ; var y;
RUN ;
3. 选面积为300平方米的玉米小区10个,各分成两半,随机一半去雄另一半不去雄,得产量(kg)为:去雄:28 30 31 35 30 34 30 28 34 32 。
不去雄:25 28 29 29 31 25 28 27 32 27。
问去雄和不去雄的玉米的小区平均产量差异是否显著?显著水平α=0.01,用成对比较法测验H0:μd=0,HA:μd
0。(成对设计资料两平均数间比较的假设检验)
DATA ex31;
do t=1 to 2;
do n=1 to 10;
input y@@;
output; end; end;
CARDS ;
28 30 31 35 30 34 30 28 34 32
25 28 29 29 31 25 28 27 32 27
;
PROC ttest; class t ; var y;
RUN ;
_1209637858.unknown
_1209726869.unknown
_1224478153.unknown
_1209636062.unknown