卫生统计学
邹延峰
流行病与卫生统计学系
第五章 参数估计基础
Question
某市2000年随机测量了90名19岁健康男大学生的身高,其均数为172.2cm,标准差为4.5cm,,试估计该地19岁健康男大学生的身高可能的范围。
用某种仪器检查已确诊的乳腺癌患者94例,检出率为78.3%。估计该仪器乳腺癌总体检出率的可能范围。
讲课提纲
抽样分布和抽样误差
t分布
总体均数和概率的估计
第一节 抽样分布与抽样误差
用样本信息来推断相应总体的特征,这一过程称为统计推断。
统计推断包括两方面的内容:参数估计和假设检验
抽样误差:由个体变异产生的、由于抽样而造成的样本统计量与样本统计量及样本统计量与总体参数之间的差异称为抽样误差。无倾向性,不可避免。
一、样本均数的抽样分布与抽样误差
均数的抽样误差:
由个体变异产生的、由于抽样而造成的样本均数与样本均数及样本均数与总体均数之间的差异称为均数的抽样误差。用于表示均数抽样误差的指标叫样本均数的标准差,也称样本均数的标准误。
抽样实验一:假定从13岁女学生身高总体均数
标准差 的正态总体中进行随机抽样。
样本均数的抽样分布特点:
1 各样本均数未必等于总体均数
2 样本均数之间存在差异
3 样本均数的分布很有规律,围绕着总体均数,中 间多,两边少,左右基本对称,也服从正态分布
4 样本均数的变异较之原变量大大缩小
抽样实验二:非正态总体样本均数的抽样实验(实验5-2)
图5-1(a)是一个正偏峰的分布,
用电脑从中随机抽取样本含量分别为5,10,30和50的样本各1000次,计算样本均数并绘制4个直方图
N=5
N=10
N=30
N=50
1)从正态总体N(µ,σ2)中,随机抽取例数为n的多个样本,样本均数 服从正态分布;即使是从偏态总体中随机抽样,当n足够大时(如n>50), 也近似正态分布。
2)从均数为µ,标准差为σ的正态或偏态总体中抽取例数为n的样本,样本均数的标准差即标准误为 。
例5-1 2000年某研究所随机调查某地健康成年男子27人,得到血红蛋白的均数为125g/L,标准差为15g/L 。试估计该样本均数的抽样误差。
二 、样本频率的抽样分布与抽样误差
从同一总体中随机抽出观察单位相等的多个样本,样本率与总体率及各样本率之间都存在差异,这种差异是由于抽样引起的,称为频率的抽样误差。
表示频率的抽样误差大小的指标叫频率的标准误。
样本频率的抽样分布与抽样误差
实验4.2 :某班近视眼患病率20%(总体概率π=20%),随机抽出35人(n=35), 观察近视眼患病率(样本频率p i)。重复这样的实验100次,每次得到患病率分别为14.4%, 19.8%, 20.2%, 22.5%,······等,将其频数分布列于表5-3。
表5-3 总体概率为20%时的随机抽样结果(ni= 35)
黑球比例%
样本频数
%
5.0~ 3 3.0
8.0~ 7 7.0
11.0~ 5 5.0
14.0~ 8 8.0
17.0~ 16 16.0
20.0~ 22 22.0
22.0~ 15 15.0
25.0~ 7 7.0
28.0~ 7 7.0
31.0~ 5 5.0
34.0~ 3 3.0
40.0~ 2 2.0
合计 100 100.0
例5-2 某市随机调查了50岁以上的中老年妇女776人,其中患有骨质疏松症者322人,患病率为41.5%,试计算该样本频率的抽样误差。
一、t分布的概念
在统计应用中,可以把任何一个均数为µ,标准差为σ的正态分布N(µ,σ2)转变为µ=0,σ=1的标准正态分布,即将正态变量值X用 来代替。
第二节 t 分布
也服从正态分布,
服从标准正态分布N(0,1)
服从ν=n-1的t分布
N=3
N=50
t分布
统计学家将t分布曲线下的尾部面积(即概率P)与横轴t值间的关系编制了不同自由度 下的t界值表(附表2)。
t界值表:横标目为自由度 ,纵标目为概率P。
t临界值:表中数字表示当 和P 确定时,对应的值。
单侧概率 (one-tailed probability):用t,υ表示
双侧概率 (two-tailed probability):用t/2,υ表示
t分布
例如, 当 =16,单侧概率P =0.05时,由表中查得单侧t0.05,16=1.746;而当 =16,双侧概率P =0.05时,由表中查得双侧t0.05/2,16=2.120。按t分布的规律,理论上有
单侧:P(t t0.05,16)=0.05 和 P(t t0.05,16)=0.05
双侧:P(t t0.05/2,16)+P(t t0.05/2,16)=0.05
t分布
更一般的表示方法如图5-4(a)和(b)中阴影部分所示为:
单侧:P(t t, )= 和 P(t t , )=
双侧:P(t t/2, )+P(t t /2, )=
t分布
从t界值表中或表的右上角图列亦可看出:
①在相同自由度时,│t│值越大,概率P越小;
②而在相同t值时,双侧概率P为单侧概率P的两倍,即t0.10/2,16 = t0.05,16 =1.746。
一、参数估计的概念
统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。
第三节 总体均数及总体概率的估计
二、置信区间的计算
1.点估计:
用样本统计量直接作为总体参数的估计值。
例如 于2000年测得某地27例健康成年男性血红蛋白量的样本均数为125g/L,试估计其总体均数。
同理,例5-2中776名50岁以上的中老年妇女骨质疏松症的样本患病率作为总体患病率的点值估计值,即认为该市所有50岁以上的中老年妇女骨质疏松症的总体患病率约为41.5%。
(一)总体均数的置信区间
2. 区间估计:按预先给定的概率(1-α)估计总体参数的可能范围,该范围就称为总体参数的1-α置信区间(confidence interval, CI)。
预先给定的概率(1-α)称为置信度,常取95%或99%。如无特别说明,一般取双侧95%。
可信区间由两个数值即置信限构成,其中最小值称为下限,最大值称为上限。严格讲,可信区间不包括上下限两个端点值。
通式: (双侧)
(2)σ未知但样本例数n足够大(n>50)时
由t分布可知,自由度越大,t分布越逼近标准正态分布,此时t曲线下有95%的t值约在±1.96之间,即
95%的双侧置信区间:
99%的双侧置信区间:
例5-4 某市2000年随机测量了90名19岁健康男大学生的身高,其均数为172.2cm,标准差为4.5cm,,试估计该地19岁健康男大学生的身高的95%置信区间。
(3)σ未知且样本例数n较小时,按t分布原理,此时
某自由度的t曲线下有95%的t值约在±t0.05(ν)之间,
通式:
95%的双侧置信区间:
99%的双侧置信区间:
tа/2,ν 是按自由度ν=n-1,由附表2查得的t值。
例5-3 已知某地27例健康成年男性血红蛋白量的均数为 ,标准差S=15g/L ,试问该地健康成年男性血红蛋白量的95%和99%置信区间。
本例n=27,S=15
95%CI:
99%CI:
置信区间的两个要素
准确度:反映置信度1-α的大小,即区间包含总体均数的概率大小。
精度:反映区间的长度。
在置信区间确定的情况下,增加样本例数,会减小 tа,ν 和 ,可减少区间长度,提高精度。
双侧置信区间估计
单侧置信区间估计
总体概率的置信区间与样本含量n,阳性频率p的大小有关,可根据n和p的大小选择以下两种方法。
1. 正态近似法
当样本含量足够大,且p和1-p不太小,则样本率
的分布近似正态分布。
公式为:
P为样本率, 为率的标准误的估计值,
(二)总体概率的置信区间
例5-7 用某种仪器检查已确诊的乳腺癌患者94例,检出率为78.3%。估计该仪器乳腺癌总体检出率的95%置信区间。
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
:本例样本例数较大,且样本率p不太小,可用正态近似法:
2. 查表法
当n较小,如n≤50,特别是p和1-p接近0或1时,应按照二项分布的原理估计总体率的可信区间。
例5-5 某医院对39名前列腺癌患者实施开放手术治疗,术后有合并症者2人,试估计该手术合并症发生概率的95%置信区间。
例5-6 某医生用某药物治疗31例脑血管梗塞患者,其中25例患者治疗有效,试求该药物治疗脑血管梗塞有效概率的95%置信区间。
注意:附表6仅列出X≤n/2 的95%置信区间。
小 结
掌握:参数估计的概念,均数、率的标准误的计算方法,总体均数和总体率的可信区间计算方法。
熟悉:t分布的特征,t界值的使用。
了解:均数和率抽样误差的概念,样本统计量的分布规律,标准误的意义及应用。
意义: 前者为绝大多数人某项指标的数值范围,后者为按 一定的概率估计总体参数所在的范围
计算:
置信区间用标准误,参考值范围用标准差
应用:前者供判断观察对象某项指标是否正常时参考,后者估计未知总体均数所在范围
均数置信区间与参考值范围的区别
思考!
标准差与均数的标准误的区别
1)概念(意义)不同:标准差是描述样本中个体值间的变异程度;标准误是描述样本均数抽样误差大小的指标
2) 记法和计算不同:略
3) 用途不同:标准差常用于估计正常值范围,计算变异系数等;标准误常用于估计参数的可信区间,进行假设检验
4)控制方法不同:标准差趋向稳定,不能用统计方法控制。而标准误随例数的增大而减小
思考!
联系:
1)二者均为变异指标,如果把总体中各样本均数看成一个变 量,则标准误可称为样本均数的标准差
2)当样本含量不变时,均数的标准误与标准差成正比
3) 两者均可与均数结合运用,但描述的内容各不相同
案例5-1
思考!
1. 某地1992年随机抽取100名健康女性,算得其血清总蛋白含量的均数为74g/L,标准差为4g/L,则其95%的参考值范围为( )。
A.7444 B.741.964 C.742.584 D.742.58410 E. 741.96410
2. 关于以0为中心的t分布,错误的是( )。
A. t分布图是一簇曲线 B. t分布图是单峰分布
C.当时,tu D. t分布图以0为中心,左右对称 E.相同时,|t|越大,P越大
3.以下关于参数点估计的说法正确的是
A.CV越小,表示用该样本估计总体均数越可靠
B.标准误越小,表示用该样本估计总体均数越准确
C.标准误越大,表示用该样本估计总体均数的可靠性越差
D.S越小,表示用该样本估计总体均数越可靠
习题
4 某地随机抽样调查了部分健康成人的红细胞数和血红蛋白量,结果如下表:
请就下表资料:
说明女性的红细胞数与血红蛋白的变异程度何者为大?
计算男性两项指标的抽样误差。
试估计该地健康成年女性红细胞数的均数。
该地健康成年男、女血红蛋白含量是否不同?
该地男性两项血液指标是否均低于上表的标准值(若测定方法相同)?
学 无 止 境