null统计推论统计推论 统计推论就是根据局部资料(样本资料)对总体的特征进行推断。
统计推论所要介绍的是如何正确处理样本和总体之间的数量关系,从而实现从样本正确推论到总体。
统计推论的理论基础是概率论。
统计推论的特点: 统计推论的特点: 1.由于样本资料来源于总体,因此,样本资料的特性在某种程度上能反映总体的特性。
2.由于社会资料的随机性,抽样的结果不是唯一的,一次抽样结果不一定恰好就等于总体结果,而且当总体参数未知时,即便等于,我们也不知道。统计推论分为两大类:统计推论分为两大类: 1.参数估计,即通过样本对总体的未知参数进行估计。
2.假设检验,即通过样本对总体的某种假设进行检验。
参数估计与假设检验的逻辑区别 参数估计与假设检验的逻辑区别 参数估计,通俗的讲,就是根据抽样结果来合理地、科学地猜一猜总体的参数大概是多少?或者在什么范围?参数估计的逻辑是先看样本的情况,再问总体的情况。
假设检验:先假设总体的情况,再以一个随机样本的统计值来检验这个假设是否正确。换言之,要先构思总体情况,才进行抽样和
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
样本的资料。参数估计有两种做法参数估计有两种做法点值估计(或称点估计);
间距估计(或称区间估计)。
二者都要求样本是以随机方法抽取的。点估计的基本含义 点值估计,就是根据样本资料以一个最适当的样本统计值来代表总体的参数值。
优缺点:简单明确,但不能说明估计结果的抽样误差和把握程度。
点估计是区间估计的基础。
点估计的基本含义一、总体参数的点估计公式一、总体参数的点估计公式1.样本均值
2.样本方差
3.样本成数
即用样本的 ,作为总体的参数的点估计值。 例1. 根据抽样调查,以下是8名同学“社会统计学”考试得分例1. 根据抽样调查,以下是8名同学“社会统计学”考试得分求:总体的均值、方差、标准差的点估计值。解:解: 根据抽样调查,可以求出样本X ,样本S2和样本S。
因此,总体均值的点估计值为74;方差的点估计值为8.29,标准差的点估计值为2.88。例2:例2: 工会为了解春游期间需租用几辆公共汽车,在全厂10000名职工中进行了共100人的简单随机抽样调查。统计结果,其中有20名愿意外出春游。设每辆可载乘客50名,问估计要预备多少辆公共汽车? 解:根据抽样调查愿意外出春游的样本成数为: 解:根据抽样调查愿意外出春游的样本成数为:
以P作为愿意外出春游总体成数的点估计,则全厂估计将有:100000.2=2000人参加春游,又因每辆公共汽车可容乘客50人,因此有: 辆,即估计预租40辆公共汽车,可满足全厂春游的需要。二、衡量点估计值好坏的标准回答问题:
第一,我们为什么以这一个而不是那一个统计量来估计某个总体参数? 第二,如果有两个以上的统计量可以用来估计某个总体参数,其估计结果是否一致?是否一个统计量要优于另一个?估计值的衡量标准: 无偏性、有效性、一致性二、衡量点估计值好坏的标准null有效性学生 A B C D E F G
成绩 30 40 50 60 70 80 90按随机原则抽选出4名学生,并计算平均分数和中位分数。有效性有效性中位数的抽样分布平均数的抽样分布有效性无偏性有偏无偏无偏性null一致性学生 A B C D E F G
成绩 30 40 50 60 70 80 90按随机原则抽选出5名学生,并计算平均分数。从估计值的优良标准看点估计 为 的无偏、有效、一致估计量;
为 的无偏、有效、一致估计量;
为 的无偏、有效、一致估计量。从估计值的优良标准看点估计一、有关区间估计的几个概念
一、有关区间估计的几个概念
1.区间估计:就是以两个数值之间的间距来估计参数值。
2.置信区间(可信间距):两个数值之间的间距,称为置信区间。
例:我们用作为未知参数Q的估计值,那么区间为
区间的大小,反映了估计值的准确性
3.置信度与置信性水平3.置信度与置信性水平置信度(可信度)或称作置信概率或置信系数,它表示用置信区间估计的可靠性,即置信区间内包含参数Q的概率。即:
置信性水平(),它表示用置信区间估计不可靠的概率。
置信度与显著性水平之和为1。
置位区间与置信度之间的关系置位区间与置信度之间的关系在样本容量一定情况下,置信区间和置信度是相互制约的。
置信度愈大(即估计的可行性愈大),则相应的置信区间也愈宽(估计的值愈不精确),精确度越高,置信度愈小,置信区间愈窄。
null 包括总体均值的区间数为21个,占全部可能样本数35个的60%。null 包括总体均值的区间数为33个,占全部可能样本数35个的94.29%。二、正态总体的均值的区间估计二、正态总体的均值的区间估计 如果总体分布满足~N(,2 ),根据方差是否已知分为以下两种情况:
1.总体方差( 2 )为已知
根据抽样分布的讨论,统计量均值的标准分满足标准正态分布:
对于的双侧置信区间为:
对于的双侧置信区间为:
置信度(把握度)为1-
/2 /2
-Z/2 Z/2
有有 当置信度为1-=0.95时,置信区间为:
当置信度为1-=0.99时,置信区间为区间估计原理0.6827区间估计原理落在 范围内的概率为68.27%区间估计原理0.9545区间估计原理落在 范围内的概率为95.45%区间估计原理 0.9973区间估计原理落在 范围内的概率为99.73%区间估计原理 以样本统计量为中心,以抽样平均误差为距离单位,可以构造一个区间,并可以一定的概率保证待估计的总体参数落在这个区间之中。区间越大,则概率保证程度越高。区间估计原理nullnull抽样极限误差区间估计步骤计算样本统计量 计算抽样平均误差计算抽样极限误差 确定置信区间(以估计 为例):区间估计步骤SEE正态总体均值的区间估计举例 由532名《商业周刊》订阅者组成的样本表明,其每周使用因特网的平均时间为6.7小时。如果总体标准差为5.8小时,求该周刊订阅者总体每周平均花费在因特网上时间的95%置信区间。则:该置信区间为:正态总体均值的区间估计举例例例某工厂妇女从事家务劳动时间服从正态分布N(,0.662),根据36人的随机抽样调查,每天平均从事家务劳动时间为=2.65小时,求的双侧量信区间(置信度1-=0.95)。
解:解: 2.总体方差(2 )未知 2.总体方差(2 )未知 当总体满足正态分布,但2 未知的情况,统计量的标准分满足自由度为K=n-1的t分布
有有
t=(n-1)
/2 /2
例:设某社区受教育程度服从正态分布μ(, 2), 2 未知,根据25人的随机抽样调查,平均受教育年限和标准差S分别为11.5年和3.6年求的双侧置信区间 例:设某社区受教育程度服从正态分布μ(, 2), 2 未知,根据25人的随机抽样调查,平均受教育年限和标准差S分别为11.5年和3.6年求的双侧置信区间 一、大样本总体均值的
区间估计一、大样本总体均值的
区间估计式中:
X为样本均值
1-为置信度(可信度,把握程度)
为显著性水平
s 为总体标准差的点估计值
为正态分布双侧区间的分位点
为正态分布双侧区间的分位点
注意:注意:大样本区间估计公式不要求总体为正态分布。
不要求总体方差 2 (或)为已知量,由于样本容量n50,无论用或S,其分布都将是正态分布。
例:设某区受教育程度的总体分布,方差均未知,现进行了50人的抽样调查,得知均值=11.5,S=3.6。例:设某区受教育程度的总体分布,方差均未知,现进行了50人的抽样调查,得知均值=11.5,S=3.6。求置信度为0.99的双侧置信区间。
解:依题意,总体分布形式未知,但样本容量n=50,所以可采用大样本区间估计公式
置信度1-=0.99,查表得有
置信度1-=0.99,查表得有
二、总体成数(二项总体参数P)的估计
二、总体成数(二项总体参数P)的估计
(一)总体成数P的点估计
如果在样本容量为n的简单随机抽样中,对于所需研究的A共出现m次,则样本成数 : =m/n
(二)大样本总体成数P的区间估计
(二)大样本总体成数P的区间估计
例:设根据某地100户的随机抽查,其中有60户拥有电冰箱,求该地拥有电冰箱成数P的置信区间(置信区间为0.95)例:设根据某地100户的随机抽查,其中有60户拥有电冰箱,求该地拥有电冰箱成数P的置信区间(置信区间为0.95)null 得
所以该地拥有电冰箱成数P的置信区间(1-=0.95)为[0.504,0.696]
结论:根据抽样调查,该地拥有电冰箱的居民所占比例在0.504到0.696之间,这个估计的把握程度为95%。
三、大样本二总体均值差的区间估计
三、大样本二总体均值差的区间估计
设:
第一个总体的参数1, 12
第二个总体的参数2, 22
现从两个总体中独立地各抽取一个随机样本:
来自第一总体的样本:X1,S12
来自第二总体的样本:X2,S22
于是样本均值差: - 可以作为总体的均值差1-2 的点估计值。
X1-X2的分布也将趋向正态分布,它的数学特征为E( )=1-2
X1-X2的分布也将趋向正态分布,它的数学特征为E( )=1-2
当 12 、 22 未知的情况下,可用样本方差S12 和S22 代表: 12S12 , 22 S22当 12 、 22 未知的情况下,可用样本方差S12 和S22 代表: 12S12 , 22 S22 例:为了解甲、乙两地中学生毕业成绩的差别,两地作了抽样调查,结果有:
甲地: =520分,S1=40分,n1=800名
乙地: =505分,S2=50分,n2=1000名
求置信度为0.95两地平均成绩差的区间。
解:根据题意
解:根据题意
null 即两地平均成绩差估计在95%的把握程度下为10.845与19.16之间
四、大样本二总体成数差的区间估计
四、大样本二总体成数差的区间估计
null当样本分别满足n1P15,n2P25时,P1和P2都将趋向正态分布,因此P1-P2的分布也将趋向正态分布,它的数学特征为:
E( )=P1-P2
因此,大样本二总体成数差P1-P2, 的区间估计公式为:
因此,大样本二总体成数差P1-P2, 的区间估计公式为:
例:甲、乙两地各作1000户抽样调查。其中甲地拥有电视机825户,乙地拥有电视机为760户,求置信度为0.95两地电视机拥有成数差的置信区间。 例:甲、乙两地各作1000户抽样调查。其中甲地拥有电视机825户,乙地拥有电视机为760户,求置信度为0.95两地电视机拥有成数差的置信区间。 带入区间估计公式 带入区间估计公式所以,置信度为0.95的两地拥有电视机成数差区间估计为:[0.03,0.1]
区间估计总结区间估计总结数据类型双样本单样本单样本? 双样本?定类(参数P)单样本? 双样本?定距(参数µ )单样本双样本样本容量估计P值样本容量样本容量样本容量估计P1-P2值估计µ值估计µ1- µ2 值推断方法的选择总结(以均值为例)n是否为大样本是否已知是否正态总体是否已知用S 估计用S 估计增大样本容量到30以上推断方法的选择总结(以均值为例)五、积矩相关系数r(见课本114-115)
五、积矩相关系数r(见课本114-115)
根据统计学家的推算,用下面的公式把r值转化为Z值,才会得到正态分布(注意:Z不同于Z)
例:如果在随机样本中发现X与Y的积矩相关系数值是r=0.602,而样本的大小是N=150,则在总体中的相关系数值是多少?(置信度为95%) 例:如果在随机样本中发现X与Y的积矩相关系数值是r=0.602,而样本的大小是N=150,则在总体中的相关系数值是多少?(置信度为95%)则:则: Z的区间估计值为[Z-e,Z+e]=[0.6963-0.1617,0.6963+0.1617] =[0.5346,0.8580],查表附4
r的区间估计为:0.489R0.695确定样本容量的意义样本容量调查误差调查费用小样本容量节省费用但调查误差大大样本容量调查精度高但费用较大找出在规定误差范围内的最小样本容量找出在限定费用范围内的最大样本容量确定样本容量的意义确定样本容量的准则确定样本容量的准则在能够付出的研究代价的限度内,选取最大的样本。
此外,尚有两个准则可供参考:
1.允许误差为多大?允许的误差愈小,要求样本愈大。
2.研究个案之间的相互差异有多大?如果研究的个案之间的差异愈大,则样本就要愈大。一、均值估计必要抽样数目的确定一、均值估计必要抽样数目的确定2.不重复抽样
2.不重复抽样
估计均值时的样本容量(以重复抽样为例)通常的做法是先确定置信度,然后确定抽样允许误差。 或 S 必须事先知道,但通常未知。一般按以下方法确定其估计值: a 以前类似样本的S; b 试验调查样本的S; c 四分之一估计全距。计算结果通常向上进位估计均值时的样本容量(以重复抽样为例)nullEE例:某地硕士研究生毕业第一年年薪的标准差大约为2000元人民币。如果以95%的置信度估计其平均年薪,并且希望抽样允许误差分别不超过500元和100元,样本容量应为多少?二、成数必要抽样数目
二、成数必要抽样数目
2.不重复抽样 2.不重复抽样估计成数时的样本容量(以重复抽样为例)通常的做法是先确定置信度,然后确定抽样允许误差。 P 或 p 必须事先知道,但通常未知。一般按以下方法确定其估计值: a 以前类似样本的p; b 试验调查样本的p ; c 取p=0.5。计算结果通常向上进位估计成数时的样本容量(以重复抽样为例)估计成数时的样本容量计算 某网站一个由400名使用者组成的样本表明,该网站的使用者中26%的使用者为女性。在95%的置信度下,若希望将抽样极限误差控制在3%,则样本容量应当为:估计成数时的样本容量计算例:调查一批机械零件的合格比率,依据过去资料,合格率曾有过99%,97%和95%三种情况 ,现要求允许误差不超过1%,要求推行把握程度为95%,问需抽查多少零件?
例:调查一批机械零件的合格比率,依据过去资料,合格率曾有过99%,97%和95%三种情况 ,现要求允许误差不超过1%,要求推行把握程度为95%,问需抽查多少零件?
作业作业3.根据某大学100名学生的调查,每月平均用于购买书籍的费用为4.5元,标准差为5元,求大学生每月用于购买书籍费用的区间估计(置信度为99%)。
4.电视台为了解戏曲节目的收看率,拟进行一次抽样调查。根据50户的试调查,收看率为68%。现要求抽样调查的结果,误差不超过5%,置信度为0.95,求所需的样本容量? 1.某学校准备采用抽样调查了解学生平均每周用于文体活动的时间。置信度为99%,允许误差要求控制在1(小时)之内,求所需的样本容量?(已知=5小时)
2.根据居民区100户的抽样调查,居民用于食品费用占总收入的比例,平均为75%,比例的标准误差为20%。求食品费用占居民总收入比例的区间估计(置信度为95%)。