卫生统计学_赵耐青习题答案

卫生统计学_赵耐青习题答案习题答案第一章一、是非题1.家庭中子女数是离散型的定量变量。答：对。2.同质个体之间的变异称为个体变异。答：对。3.学校对某个课程进行1次考试，可以理解为对学生掌握该课程知识的一次随机抽样。答：对。4.某医生用某个新药治疗了100名牛皮癣患者，其中55个人有效，则该药的有效率为55%。答：错。只能说该样本有效率为55％或称用此药总体有效率的样本估计值为55%。5.已知在某个人群中，糖尿病的患病率为8%，则可以认为在该人群中，随机抽一个对象，其患糖尿病的概率为8%。答：对，人群的患病率称为总体患病率。在该人群中随机抽...

习题答案第一章一、是非题1.家庭中子女数是离散型的定量变量。答：对。2.同质个体之间的变异称为个体变异。答：对。3.学校对某个课程进行1次考试，可以理解为对学生掌握该课程知识的一次随机抽样。答：对。4.某医生用某个新药治疗了100名牛皮癣患者，其中55个人有效，则该药的有效率为55%。答：错。只能说该样本有效率为55％或称用此药总体有效率的样本估计值为55%。5.已知在某个人群中，糖尿病的患病率为8%，则可以认为在该人群中，随机抽一个对象，其患糖尿病的概率为8%。答：对，人群的患病率称为总体患病率。在该人群中随机抽取一个对象，每个对象均有相同的机会被抽中，抽到是糖尿病患者的概率为8％。二、选择题1.下列属于连续型变量的是A。A血压B职业C性别D民族2.某高校欲了解大学新生心理健康状况，随机选取了1000例大学新生调查，这1000例大学生新生调查问卷是A。A一份随机样本B研究总体C目标总体D个体3.某研究用X表示儿童在一年中患感冒的次数，共收集了1000人，请问：儿童在一年中患感冒次数的资料属于C。A连续型资料B有序分类资料C不具有分类的离散型资料D以上均不对4.下列描述中，不正确的是D。A总体中的个体具有同质性B总体中的个体大同小异C总体中的个体在同质的基础上有变异D如果个体间有变异那它们肯定不是来自同一总体5．用某个降糖药物对糖尿病患者进行治疗，根据某个大规模随机抽样调查的研究结果得到该药的降糖有效率为85%的结论，请问降糖有效率是指D。A每治疗100个糖尿病患者，正好有85个人降糖有效，15个人降糖无效B每个接受该药物治疗的糖尿病患者，降糖有效的机会为85%C接受该药物治疗的糖尿病人群中，降糖有效的比例为85%D根据该研究的入选标准所规定的糖尿病患者人群中，估计该药降糖有效的比例为85%三、简答题1.某医生收治200名患者，随机分成2组，每组100人。一组用A药，另一组用B药。经过2个月的治疗，A药组治愈了90人，B组治愈了85名患者，请根据现有结果评议下列说法是否正确，为什么？a)A药组的疗效高于B药组。b)A药的疗效高于B药。答：a)正确，因为就两组样本而言，的确A组疗效高于B组。b)不正确，因为样本的结果存在抽样误差，因此有可能人群的A药疗效高于B药，也可能人群的两药的疗效相同甚至人群B药的疗效高于A药，2.某校同一年级的A班和B班用同一试卷进行一次数学测验。经过盲态改卷后，公布成绩：A班的平均成绩为80分，B班的平均成绩为81分，请评议下列说法是否正确，为什么？a)可以称A班的这次考试的平均成绩低于B班，不存在抽样误差。b)可以称A班的数学平均水平低于B班。答：a)正确，因为此处将A班和B班作为研究总体，故不存在抽样误差。b)不正确，因为这一次数学平均成绩只是两班数学成绩总体中的两个样本，样本的差异可能仅仅由抽样误差造成。3.在某个治疗儿童哮喘的激素喷雾剂新药的临床试验中，研究者收集了300名哮喘儿童患者，随机分为试验组和对照组，试验组在哮喘缓解期内采用激素喷雾剂，在哮喘发作期内采用激素喷雾剂＋扩展气管药；对照组在哮喘缓解期不使用任何药物，在哮喘发作期内采用扩展气管药物。通过治疗3个月，以肺功能检查中的第1秒用力呼吸率（FEV1/FRC1）作为主要有效性评价指标，评价两种治疗方案的有效性和安全性。请阐述这个研究中的总体和总体均数是什么？答：试验组的研究总体是接受试验组治疗方案的全体哮喘儿童患者在治疗3个月时的FEV1/FRC1值的全体。对照组的研究总体是接受对照组治疗方案的全体哮喘儿童患者在治疗3个月时的FEV1/FRC1值的全体。试验组对应的总体均数是接受试验组治疗方案的全体哮喘儿童患者在治疗3个月时的FEV1/FRC1的平均值；对照组对应的总体均数是接受对照组治疗方案的全体哮喘儿童患者在治疗3个月时的FEV1/FRC1的平均值。4.请简述什么是小概率事件？对于一次随机抽样，能否认为小概率事件是不可能发生的？答：在统计学中，如果随机事件发生的概率小于或等于0.05，则通常可以认为是一个小概率事件，表示该事件在大多数情况下不会发生，并且一般可以认为小概率事件在一次随机抽样中不会发生，这就是小概率事件原理。小概率事件原理是统计学检验的基础。5.变量的类型有哪几种？请举例说明，各有什么特点？答：（1）连续型变量，可以一个区间中任意取值的变量，即在忽略测量精度的情况下，连续型变量在理论上可以取到区间中的任意一个值，并且通常含有测量单位。观察连续型变量所得到的数据资料称为计量资料(measurementdata)。如例1-1中的身高变量就是连续型变量，身高资料为计量资料。.（2）离散型变量，变量的取值范围是有限个值或者为一个数列。离散型变量的取值情况可以分为具有分类性质的资料和不具有分类性质的资料，表示分类情况的离散型变量亦称分类变量(categoricalvariable)。观察分类变量所得到的资料称为分类资料(categoricaldata)。分类资料可以分为二分类资料和多分类资料，而多分类资料又分成无序分类资料和有序分类资料，二分类资料如症状指标分为感染或未感染，无序多分类资料(nominaldata)如血型可以分为A、B、AB和O型，有序多分类资料(ordinaldata)如病情指标分为无症状、轻度、中度和重度。第二章一、是非题1．不论数据呈何种分布，都可以用算术均数和中位数表示其平均水平。答：错。只有资料满足正态或近似正态分布时计算算术均数是比较有统计学意义的。2．在一组变量值中少数几个变量值比大多数变量值大几百倍，一般不宜用算术均数表示其平均水平。答：对，可以采用中位数表示。3．只要单位相同，用s和用CV来表示两组资料的离散程度，结论是完全一样的。答：错，标准差S是绝对误差的一种度量，变异系数CV是相对误差的一种度量，对于两组资料离散程度的比较，即使两组资料的度量单位相同，也完全有可能出现两个指标的结论是不同的。在实际应用时，选择离散程度的指标时，考虑其结果是否有研究背景意义。例如：一组资料为成人的身高观察值，另一组资料为2岁幼儿的身高观察值，虽然可以用标准差S比较两组的离散程度，也不能认为这是错误的，但根本没有研究背景意义，相反选择变异系数CV比较两组资料的相对变异程度，这就有一定的研究背景意义。4．描述200人血压的分布，应绘制频数图。答：对。5.算术均数与中位数均不容易受极值的影响。答：错。算术均数比中位数容易受到极值的影响。二、选择题1．中位数是表示变量值A的指标。A．平均水平B．变化范围C．频数分布D．相互间差别大小2．对于最小组段无确定下限值和（或）最大组段无确定上限值的频数分布表资料，宜用下列哪些指标进行统计描述？C____A中位数，极差B中位数，四分位数间距C中位数，四分位数范围D中位数，标准差3．描述年龄（分8组）与疗效（有效率）的关系，应绘制A。A．线图B.圆图C.直方图D.百分条图4、为了描述资料分布概况，绘制直方图时，直方图的纵轴可以为D。A频数B频率C频率密度(频率/组距)D都可以三、简答与分析题1．100名健康成年女子血清总蛋白含量（g/L）如表2-14，试描述之。表2-12100名成年健康女子血清总蛋白含量（g/L）73.574.378.878.070.480.584.368.869.771.272.079.575.678.872.072.072.775.074.371.268.075.075.074.375.865.067.378.871.269.773.573.575.864.375.880.381.672.074.373.568.075.872.076.570.471.267.368.875.070.474.370.479.574.376.577.681.276.572.075.072.773.576.574.765.076.569.773.575.472.772.767.273.570.477.268.874.372.767.367.374.375.879.572.773.573.572.075.081.674.370.473.573.576.572.777.280.570.475.076.5答：制作频数表如下：_____________________________________________________________________组段频数百分比累积频数累积百分比____________________________________________________________________64~33.0033.0066~55.0088.0068~88.001616.0070~1111.002727.0072~2525.005252.0074~2424.007676.0076~1010.008686.0078~77.009393.0080~66.009999.0084~11.00100100.00变量例数均数标准差最小值最大值中位数25百分位数75百分位数x10073.73.92564.384.373.571.275.82．某医师测得300名正常人尿汞值（ng/L）如表2-15，试描述资料。表2-13300名正常人尿汞值（ng/L）尿汞例数累计例数累计百分数（%）0~494916.34~277625.38~5813444.712~5018461.316~4522976.320~2225183.724~1626789.028~1027792.332~728494.736~528996.340~529498.044~029498.048~329799.052~029799.056~229999.760~1300100.0合计300——答：根据资料给出统计描述的指标如下：例数均数标准差最小值最大值1615.05349.014262３．对于同一的非负样本资料，其算数均数一定大于等于几何均数。答：根据初等数学中的不等式1212nnnaaaaaan+++􀀢≥􀀢，可以得到算数均数一定大于等于几何均数。４．常用的描述集中趋势的指标有哪些，并简述其适用条件。答：（1）算术均数：适用对称分布，特别是正态或近似正态分布的数值变量资料。（2）几何均数：适用于频数分布呈正偏态的资料，或者经对数变换后服从正态分布（对数正态分布）的资料，以及等比数列资料。（3）中位数：适用各种类型的资料，尤其以下情况：A资料分布呈明显偏态；B资料一端或两端存在不确定数值（开口资料或无界资料）；C资料分布不明。第三章一、是非题1.二项分布越接近Poisson分布时，也越接近正态分布。答：错。当二项分布的π不太接近0或者1，随着ｎ的增大，nπ和n(1−π)均较大时，二项分布的X的逐渐近似正态分布；n较大，π较小，二项分布的X近似总体均数为μ=nπ的Poisson分布，只有n较大、π较小并且nπ较大时，二项分布的X既近似Poisson分布又近似正态分布，其本质是当n较大、π较小时二项分布的X所近似的Poisson分布在其总体均数μ=nπ较大时逼近正态分布。2.从同一新生儿总体（无限总体）中随机抽样200人，其中新生儿窒息人数服从二项分布。答：对。因为可以假定每个新生发生窒息的概率π是相同的并且相互独立，对于随机抽取200人，新生儿窒息人数X服从二项分布B(n,π)。3.在n趋向无穷大、总体比例π趋向于0，且nπ保持常数时的二项分布的极限分布是Poisson分布。答：对。这是二项分布的性质。4.某一放射物体，以一分钟为单位的放射性计数为50，40，30，30，10，如果以5分钟为时间单位，其标准差为1605。答：错。设iX服从总体均数为μ的Poisson分布，i=1,2,3,4,5，并且相互独立。根据Poisson分布的可加性，12345X+X+X+X+X服从总体均数为5μ，___________其总体方差为5μ，本题5分钟的总体方差5μ的估计值为50+40+30+30+10=160，所以其标准差为160。5.一个放射性物体一分钟脉冲数为20次，另一个放射性物体一分钟脉冲数为50次。假定两种放射性物体的脉冲性质相同，并且两种放射性物体发生脉冲是相互独立的，则这两种物体混合后，其一分钟脉冲数的总体均数估计值为70次。答：对。根据Poisson分布的可加性，这两种物体混合后的发生的脉冲数为12X+X，混合后一分钟脉冲数的总体均数估计值为20+50＝70次。6.一个放射性物体平均每分钟脉冲数为5次（可以认为服从Poisson分布），用X表示连续观察20分钟的脉冲数，则X也服从Poisson分布。答：对，这是Poisson分布的可加性。7.一个放射性物体平均每分钟脉冲数为5次（可以认为服从Poisson分布），用X表示连续观察20分钟的脉冲数，则X的总体均数和总体方差均为100次。答：对。Poisson分布的可加性原理。8.用X表示某个放射性物体的每分钟脉冲数，其平均每分钟脉冲数为5次（可以认为服从Poisson分布），用Y表示连续观察20分钟的脉冲数，则可以认为Y近似服从正态分布，但不能认为X近似服从正态分布。答：对。因为Y的总体均数为100，当μ比较小的时候，Poisson分布是一个偏态的分布，但是当μ增大时，Poisson分布会逐渐趋于对称。二、选择题1.理论上，二项分布是一种B。A连续性分布B离散分布C均匀分布D标准正态分布2.在样本例数不变的情况下，下列何种情况时，二项分布越接近对称分布。CA总体率π越大B样本率P越大C总体率π越接近0.5D总体率π越小3.医学上认为人的尿氟浓度以偏高为不正常，若正常人的尿氟浓度X呈对数正态分布，Y=lgX,G为X的几何均数，尿氟浓度的95%参考值范围的界值计算公式是A。Alg1(1.64)Y−Y+SB+1.96XGSC+1.64XGSDlg1(1.96)Y−Y+S4.设1210X,X,􀀢,X均服从B(4,0.01)，并且1210X,X,􀀢,X相互独立。令1210Y=X+X+􀀢+X，则DAY近似服从二项分布BY近似服从Poisson分布CY近似服从正态分布DY~B(40,0.01)5.设1210X,X,􀀢,X均服从Poisson(2.2)，并且1210X,X,􀀢,X相互独立。令1210Y=(X+X+􀀢+X)/10，则CAY近似服从B(10,0.22)BY服从Poisson(22)分布CY近似服从正态分布DY服从Poisson(2.2)分布三、简答题1.如果X的总体均数为μ，总体标准差为σ，令Y＝a+bX，则可以证明：Y的总体均数为a+bμ，标准差为bσ。如果X服从μ＝40的Poisson分布，请问：Y=X/2的总体均数和标准差是多少？答：总体均数=20，总体标准差=40/2。2.设X服从μ＝40的Poisson分布，请问：Y=X/2是否服从Poisson分布？为什么？答：不是的。因为Y=X/2的总体均数=20，不等于总体方差10。3.设X服从μ＝40的Poisson分布，可以认为X近似服从正态分布。令Y=X/10，试问：是否可以认为Y也近似服从正态分布？答：正态分布的随机变量乘以一个非0常数仍服从正态分布，所以可以认为Y也近似服从正态分布。4.设X服从均数为μ的Poisson分布。请利用两个概率之比：P(X+1)/P(X)，证明：当x<μ−1时，概率P(X)随着X增大而增加；当X>μ时，概率P(X)随着X增大而减小。答：1(1)/()()/[]/(1)(1)!!xxPXxPXxeexxxμμμμμ+=+==−−=++,显然，当x<μ−1时，对应x+1<μ,由此得到1x1μ>+，所以P(X=x+1)/P(X=x)>1，说明概率P(X)随着X增大而增加；当X>μ时，则(1)/()11PXxPXxxxμμ=+==<<+，说明当X>μ时，概率P(X)随着X增大而减小。5.已知某饮用水的合格标准是每升水的大肠杆菌数≤2个，如果随机抽取1升饮用水，检测出大肠杆菌数的95％参考值范围是多少？（提示考虑合格标准的总体均数最大值为2个/L，求95％参考值范围）。答：由于合格标准的总体均数最大值为2个/L，对于正常而言，大肠杆菌数越少越好，所以这是单侧参考值范围。即求满足累计概率的不等式200(|2)20.95!XXkkkPkekμ−==Σ==Σ≤的最大X的解。X0123456P(X)0.1353350.2706710.2706710.1804470.0902240.0360890.012030()XkPk=Σ0.1353350.4060060.6766760.8571230.9473470.9834360.995466根据上述计算得到X的95％参考值范围是X<5个/L。？第四章一、是非题1、设X的总体均数为μ，则样本均数X的总体均数也为μ。答：对。经随机抽样得到的样本均数X的总体均数也为μ。2、设X的总体方差为σ2，则样本均数X的总体方差也为σ2。答：错。经随机抽样后得到的样本均数X的总体方差为σ2/n。3、设随机变量1,,nX…X均服从B(1,π)，n很大时，则11niiXXn==Σ近似服从N(π,π(1−π)/n)答：对。4、某研究者做了一个儿童血铅浓度的流行病学调查，共调查了1000人，检测了每个人血铅浓度。虽然血铅检浓度一般呈非正态分布，但由于该研究样本量很大，可以认为这些血铅浓度近似服从正态分布。答：错。血铅浓度的分布与样本量是否很大无关，如果样本量充分大时，血铅浓度的样本均数的分布近似正态分布。5、某研究者做了一个儿童血铅浓度的流行病学调查，共调查了1000人，检测了每个人血铅浓度，计算这1000人的血铅平均浓度。对于现有的1000人的血铅浓度资料，可以认为该资料的样本均数近似服从正态分布。答：错。样本均数的概率分布是指随机抽样前将要随机抽取的样本，其样本均数近似服从某个概率分布，样本量很大时，样本均数逼近正态分布。对于这个资料而言，这是已经完成随机抽样的资料，这个资料的样本均数只是一个数，不存在服从哪种分布的问题。6、某研究者做了一个儿童血铅浓度的流行病学调查，已知血铅测量值非正态分布，计划调查1000人，并将计算1000人的血铅浓度的样本均数，由于该研究样本量很大，可以认为随机抽样所获得血铅浓度的样本均数将近似服从正态分布。答：对。如果从某个均数为μ，标准差为σ的非正态分布的总体中抽样，只要样本量足够大，则样本均数X的分布也将近似于正态分布N(μ,σ2/n)。二、选择题1、以下方法中唯一可行的减小抽样误差的方法是___B____。A、减少个体变异B、增加样本量C、设立对照D、严格贯彻随机抽样的原则2、XS表示____C____。A、总体均数的离散程度B、总体标准差的离散程度C、样本均数的离散程度D、样本标准差的离散程度3、设连续性随机变量X的总体均数为μ，从X总体中反复随机抽样，随样本量n增大，XXS−μ将趋于____D____。A、X的原始分布B、正态分布C、均数的抽样分布D、标准正态分布4、在均数为μ，标准差为σ的正态总体中随机抽样，理论上|X−μ|≥____B____的可能性为5%。A、1.96σB1.96XσC、0.05/2,vtSD1.96XS5、下面关于标准误的四种说法中，哪一种是不正确____C____。A、标准误是样本统计量的标准差B、标准误反映了样本统计量的变异C、标准误反映了总体参数的变异D、标准误反映了抽样误差的大小6、变量X偏离正态分布，只要样本量足够大，样本均数___C_____。A、偏离正态分布B、服从F分布C、近似正态分布D、服从t分布三、简答题1、样本均数的抽样误差定义是什么？答：样本均数的抽样误差是指样本均数和总体均数间的差异，但同时可以表现为从同一总体中多次随机抽样所得的样本均数间的差异，通常用样本均数的标准误度量平均的抽样误差大小。2、估计样本均数的平均抽样误差的统计量是什么？答：是样本均数的标准差，即样本均数的标准误。3、简述样本均数的抽样误差的规律？。答：样本均数的标准误的理论值为xnσσ=，而其估计值为XSSn=；4、简述t分布、F分布，χ2分布曲线的特征与自由度的关系。答：t分布是一簇以0为中心，左右对称的单峰曲线，随着自由度的增加，t分布曲线将越来越接近于标准正态分布曲线，当自由度为无穷大时，t分布就是标准正态分布。t分布的曲线下两侧尾部的面积可以通过查对应自由度下的t分布界值表得到。χ2分布的图形为一簇单峰正偏态分布曲线，且随着自由度的增加，正偏的程度越来越小。χ2分布的曲线下右侧尾部的面积可通过查χ2界值表得到。F分布的特征有：（1）F分布有两个自由度，F的取值范围为0～∞。（2）F分布为一簇单峰正偏态分布曲线，与两个自由度有关。（3）每一对自由度下的F分布曲线下面积，见方差分析用F界值表(附表4)，横标目为第一自由度，纵标目为第二自由度，表中分别给出了概率为0.05和0.01时的F界值，记为,1,2Fανν。t分布，χ2分布和F分布是三种没有未知参数，只有自由度的概率分布，常用于抽样研究中，故称为三种常见的抽样分布。5、简述正态分布、t分布、F分布、χ2分布之间的关系。答：（1）若随机变量X服从于正态分布N(μ,σ2)，那么从总体中随机抽取的样本，其样本均数X将服从于正态分布(,2)XNμσ。令Z为对X进行标准化变换的结果，Z将服从于标准正态分布，即X/ZXXnμμσσ=−=−服从标准正态分布。（2）自由度为1的χ2分布可以通过将服从标准正态分布的变量平方得到。（3）若随机变量X1和X2分别为服从自由度为v1和v2的χ2分布，并且相互独立，则比值1)21112222χ/χFXXνννννν==分布(分布(2)/服从自由度为(v1,v2)的F分布(F-distribution)。6、目前一般的统计软件（如SAS，SPSS和Stata）均能随机模拟产生服从均匀分布、正态分布、二项分布的随机数。利用这些程序，可以生成指定参数下的随机数据，这种产生随机数的方法称为“蒙特卡洛方法”（Monte-CarloMethod）。请参考光盘中随机模拟操作，借助统计软件随机模拟产生随机数据，重现本章中关于均数和率的抽样分布规律。答：以Stata为例正态分布资料的样本均数的分布模拟。用记事本写入下来语句clearsetmemory100mdi"输入样本量总体均数总体标准差"scalarm=`1'scalarmm=`2'scalaroo=`3'setobs10000localj=1genxx=0genss=0while`j'<=m{genx`j'=invnorm(uniform())*oo+mmreplacexx=xx+x`j'replacess=ss+x`j'*x`j'localj=`j'+1}genssd=sqrt((ss-xx*xx/m)/(m-1))replacexx=xx/mdi"mean="xxdi"sd="ssd用文件名"simumean.do"保存在Stata窗口中打入do[路径]simumean样本量总体均数总体标准差对于Stata7.0,输入下列命令显示样本均数的频数图graphxx,bin(50)xlabel对于Stata8.0,输入下列命令显示样本均数的频数图graph7xx,bin(50)xlabel非正态分布的样本均数的分布模拟。用记事本写入下来语句clearsetmemory100mdi"输入样本量"scalarm=`1'setobs10000localj=1genxx=0genss=0while`j'<=m{genx`j'=invnorm(uniform())^2replacexx=xx+x`j'replacess=ss+x`j'*x`j'localj=`j'+1}genssd=sqrt((ss-xx*xx/m)/(m-1))replacexx=xx/mdi"mean="xxdi"sd="ssd用文件名"simumean1.do"保存在Stata窗口中打入do[路径]simumean1样本量总体均数总体标准差对于Stata7.0,输入下列命令显示样本均数的频数图graphxx,bin(50)xlabel显示原始资料的频数分布图graphx1,bin(50)xlabel对于Stata8.0,输入下列命令显示样本均数的频数图graph7xx,bin(50)xlabel显示原始资料的频数分布图graph7x1,bin(50)xlabel样本率的分布模拟。用记事本写入下来语句clearsetmemory100mdi"输入样本量总体率"scalarm=`1'scalarpp=`2'setobs10000localj=1genxx=0genss=0while`j'<=m{replacexx=xx+int(uniform()+pp)localj=`j'+1}genppp=xx/msuppp用文件名"simumean3.do"保存在Stata窗口中打入do[路径]simumean3样本量总体率对于Stata7.0,输入下列命令显示样本率的频数图graphppp,bin(50)xlabel对于Stata8.0,输入下列命令显示样本率的频数图graph7ppp,bin(50)xlabel7、利用蒙特卡洛方法，产生标准正态分布的随机数，并计算样本方差，验证方差乘自由度(n−1)S2服从于自由度为n−1的χ2分布，两个独立样本的方差之比服从于自由度为1n−1，2n−1的F分布。答：标准正态分布资料的样本方差×（n－1）的分布模拟。用记事本写入下来语句clearsetmemory100mdi"输入样本量"scalarm=`1'setobs10000localj=1genxx=0genss=0while`j'<=m{genx`j'=invnorm(uniform())replacexx=xx+x`j'replacess=ss+x`j'*x`j'localj=`j'+1}genss=ss-xx*xx/m用文件名"simuvariance.do"保存在Stata窗口中打入do[路径]simuvariance.do样本量对于Stata7.0,输入下列命令显示样本均数的频数图graphss,bin(50)xlabel对于Stata8.0,输入下列命令显示样本均数的频数图graph7ss,bin(50)xlabelF分布的模拟。用记事本写入下来语句clearsetmemory100mdi"输入样本量1总体均数1样本量2总体均数2总体标准差"scalarm1=`1'localmn1=`1'scalarmm1=`2'scalarm2=`3'scalarmm2=`4'scalaroo=`5'setobs10000localj=1genxx=0genss=0genxx0=0while`j'<=m1{replacexx0=invnorm(uniform())*oo+m1replacexx=xx+xx0replacess=ss+xx0*xx0localj=`j'+1}genss1=(ss-xx*xx/m1)/(m1-1)replacess=0replacexx=0localj=1while`j'<=m2{genxx0=invnorm(uniform())*oo+m2replacexx=xx+xx0replacess=ss+xx0*xx0localj=`j'+1}genss2=(ss-xx*xx/m2)/(m2-1)genf=ss1/ss2用文件名"simuf.do"保存在Stata窗口中打入do[路径]simuf.do样本量对于Stata7.0,输入下列命令显示统计量F的频数图graphf,bin(50)xlabel对于Stata8.0,输入下列命令显示统计量F的频数图graph7f,bin(50)xlabel第五章一、是非题1．t检验统计量服从自由度为ν的t分布。答：错。只有在H0假设为真时才成立。2.当拒绝0H时，只可能发生第一类错误。答：对。3.对于H0:μ=μ0H1:μ≠μ0的t检验，当1H为真时，检验统计量/2,n1ttα−>的_______概率为1−β。答：对。当1H为真时，作出正确推断的概率即为1−β。4.对于0010H:μ=μH:μ≠μ的t检验，0H为真而言，发生拒绝0H的机会与样本量n无关。答：对。无论样本量n多大，犯第一类错误的概率为α。5.对于定量资料用95%可信区间的公式0.05/2,n1XXtS−±估计总体均数所在范围，要求资料服从正态分布或样本量很大。答：对。二．选择题1．在同一总体随机抽样，其他条件不变，样本量越大，则总体均数的95%可信区间（A）。A越窄B越宽C越可靠D越稳定2．从两个不同总体中随机抽样，样本含量相同，则两总体均数95％可信区间（D）。A标准差小者，可信度大B标准差小者，准确度高C标准差小者，可信度大且准确度高D两者的可信度相同3．其他条件不变，可信度1-α越大，则总体均数可信区间（A）A越宽B越窄C不变D还与第二类错误有关4．其他条件不变，可信度1-α越大，则随机抽样所获得的总体均数可信区间将不包含总体均数的概率（B）。A越大B越小C不变D不确定5.区间内包含总体均数的概率为（D）。A95％B97.5％C99％D100％6从某正态总体中随机抽样，样本含量固定，区间内包含样本均数的概率为（A）。A95％B97.5％C99％D不确定7．增大样本含量，则错误的是（A）。A可信区间的可信度变大BxS变小C同样可信度情况下，可信区间变窄D抽样误差减少8．下列公式中，哪一个可以用于正态分布总体均数的95%可信区间的估计（C）。Aμ±1.96σXB1.96Xμ±σC0.05(v)XX±tSD0.05(v)X±tS9．由两个独立样本计算得到两个总体均数的可信区间，则下列结论中正确的是（C）。A如果两个可信区间无重叠，可认为两样本均数差别无统计意义B如果两个可信区间有重叠，可认为两样本均数差别有统计意义C如果两个可信区间无重叠，可认为两样本均数差别有统计意义D以上都不对10．在总体方差相等的条件下，由两个独立样本计算两个总体均数之差的可信区间包含了0，则（B）。A可认为两样本均数差别无统计学意义B可认为两样本均数差别有统计学意义C可认为两总体均数差别无统计学意义D可认为两总体均数差别有统计学意义11．假设检验中的第二类错误是指（D）所犯的错误。1.96Xμ±σ1.96Xμ±σA拒绝了实际上成立的H0B未拒绝实际上成立的H0C拒绝了实际上不成立的H0D未拒绝实际上不成立的H012.两样本均数比较的假设检验中，差别有统计学意义时，P越小，说明（D）。A.两样本均数差别越大B.两总体均数差别越大C.越有理由认为两样本均数不同D.越有理由认为两总体均数不同13．作两样本均数差别的t检验中，P值与α值中（A）。A．α值是研究者指定的B．P值是研究者指定的C．两者意义相同，数值不同D．两者意义相同，数值相同14.两样本均数的t检验，按0.05的检验水准拒绝H0，若此时推断有误，其错误的概率为（A）。A0.05B>0.05C<0.05D不一定15.在样本均数与总体均数差别的双侧显著性检验中，结果为P<α而拒绝H0,接受H1，原因是（D）。A.H0假设成立的可能性小于αB.H1假设成立的可能性大于1-αC.H0成立的可能性小于α且H1成立的可能性大于1-αD.从H0成立的总体中随机抽取一个样本，其样本均数比现有样本的均数更远离（H0为真时）总体均数的可能性小于α注:假设检验是反证法思想，即：考察0H为真情况下，样本统计量出现背离0H并且逼近1H的概率是否为小概率事件，所以假设检验中不涉及到0H成立的概率。三、统计分析题和简答题1.在假设检验中，当出现P>α时，虽然不能拒绝H0，但不能推断H0成立。（提示：假设检验是基于反证法的思想）。答：假设检验是基于反证法的思想。拒绝H0是因为在H0为真的假设下样本统计量出现在小概率事件范围内，所以可以推断H0非真；反之，在H0为真的假设下样本统计量未出现在小概率事件范围，只是没有足够证据支持不能拒绝H0。正如反证法只是寻找推翻假设的证据，并不是寻找支持假设的证据，不能推翻假设的结果并不能成为证实假设成立的证据。事实上，不拒绝H0时犯第二类错误的概率β有时还很大，并且无法由研究者直接控制，所以不拒绝H0时，不能直接推断H0成立。2.下面是18例冠心病患者高密度脂蛋白(HDL,g/L)的测定结果，请回答下列问题。0.30，0.43，0.26，0.34，0.57，0.49，0.35，0.22，0.33，0.37，0.28，0.35，0.40，0.36，0.42，0.28，0.41，0.301）本题所研究的总体是什么？答：满足者该研究中入选标准的全部冠心病患的高密度脂蛋白(HDL,g/L)实际值的全体构成的集合。2）根据本题的研究背景和研究问题，请用研究背景语言给出本题总体均数的具体定义。答：满足者该研究中入选标准的全部冠心病患的高密度脂蛋白(HDL,g/L)实际值的平均数。3）试估计本题的总体均数及其95%可信区间，并用通俗的研究背景语言论述您的结果。答：X=0.3589,0.08567,18,0.08567/180.02XS=n=S==，95%可信区间为：xXts0.05,17±=0.3589±2.11×0.02=（0.3167,0.4011）。以95％可信度推断冠心病患者人群的高密度脂蛋白(HDL,g/L)的平均数在0.3167~0.4011g/L。3.已知大肠杆菌在饮用水中呈Poisson分布，根据有关规定：对于合格的饮用水而言，平均每升饮用水中的大肠杆菌个数不超过2个，先在某饮用水生产处抽样2L水，经检测发现6个大肠杆菌，请估计该处的饮用水平均1L中的大肠杆菌数在什么范围内？答：X=6，查Poisson分布总体均数的可信区间界值表得，95%的可信区间为（2.20/2,13.06/2）=(1.10，6.53)。4.续第3题，在实际的卫生监督执法中，一般不进行统计分析，但需要根据统计学原理和饮用水卫生标准，指定一个饮用水大肠杆菌数的界值：随机抽取1L水，当检测到的细菌数低于这个界值，可以推断该处饮用水的平均1L水的大肠杆菌数不会超过2个，请以95％的可信度确定这个界值。答：μ=2，查Poisson分布总体均数的95％可信区间界值表得到大于2的最小下限为X=6，其95%可信区间为（2.2，13.1），而X=5的95％可信区间为（1.6，11.7），所以当检测结果为大肠杆菌数≥6时，可以推断该处饮用水的平均每升水的大肠杆菌数μ>2，即该饮用水不合格。5.续第3题和第4题，请推敲下列描述有何不同，适用于何种情况？1)每1L饮用水中的平均大肠杆菌个数不超过2个是合格的2）合格的饮用水中，1L饮用水的大肠杆菌个数不得高于于2个3)第3题中，能否按1L水检测到3个大肠杆菌估计该处的饮用水平均每每1L中的大肠杆菌数在什么范围内，为什么？答：第一个问题是对于合格的饮用水而言，平均每1L饮用水的大肠杆菌个数不超过2（μ≤2），也就是在检测样品为1升饮用水时，容许样品中的大肠杆菌数超过2个。第二个问题是指检测样品为1升水时，不容许样品中的大肠杆菌数超过2个。（X≤2）3）根据Poisson分布的95％可信区间推断该处的饮用水平均每升中的大肠杆菌数在（0.62，8.8）第六章一、是非题1.随机区组设计的检验效能一定高于完全随机设计答：错。如果在完全随机设计中，实验条件和实验过程控制都非常好，研究对象的同质性非常好，几乎不存在可能的混杂因素，即可以认为可能混杂效应很小甚至可以忽略，则完全随机设计的检验效能可能要高于随机区组设计。2.随机对照试验就是实验性研究答：对。随机对照试验的英文名是Randomcontroltrial，缩写为RCT。在随机分组前，随机对照试验的研究对象来自同一人群，通过选择不同的干预，构成试验组和对照组，由此评价干预效应。因此随机对照试验就是实验性研究，但要注意：实验性研究未必是随机对照试验。3.随机对照试验就是完全随机设计答：错。随机对照试验贯彻了随机化原则，对照组和实验组间除实验因素不同外，其他条件基本相同，研究设计可以是完全随机对照设计，也可以是随机区组设计。4.采取随机分组可以提高检验效能答：错。采取随机分组的主要目的是控制或减少混杂因素对结果的影响，与检验效能没有直接的连续。5.为了研究A因素与死亡的关系，采用队列研究，但所获样本资料不能估计人群的A因素暴露比例。答：对。因为队列研究是根据A因素的不同暴露水平分别入选研究对象，由此建立不同暴露水平的队列进行随访研究的。如按A因素暴露和非暴露分别入组2000人进行随访，因此暴露人数与非暴露人数是1：1，与人群中的暴露比例无关。即：队列研究中的研究对象中的暴露比例是人为确定的，不是人群的暴露比例。二、选择题1.病例对照研究的主要缺点之一是CA.研究周期长B.病例不容易收集C.容易产生选择性偏倚D.容易失访2.病例对照研究的主要优点之一是CA.容易失访B.不容易发生测量偏倚C.患病率很低的疾病也适用D.很容易选择和收集对照3.病例对照研究最好应选择D为对照A.健康人B.医院中未患该疾病的人C.医院中的正常人D.根据研究背景选择符合一定条件的未患该疾病的人4.采用配对设计的主要目的是B。A减少样本含量B减少混杂因素对结果的影响C提高统计检验的功效D有利于统计分析5.下列说法哪一个是正确的。A.采用完全随机设计可以使试验组和对照组同时减少混杂因素的影响B.采用随机区组设计可以控制了混杂因素对结果的影响C.采用随机区组设计可以减少了混杂因素对结果的影响，当效应指标与研究因素之间存在混杂效应的情况下，采用配对设计可以提高了统计检验的效能。D.采用完全随机设计可以控制混杂因素在试验组和对照组达到概率意义下的平衡，由此提高了统计检验的效能。三、简答题1.实验性研究和观察性研究的根本区别是什么？答：主要区别在于是否人为给予干预措施，如果研究者人为施加了干预措施那么就是实验性研究，如果研究者没有施加干预措施，而是以客观、真实的观察为依据，对观察结果进行描述和对比分析，那么就是观察性研究。另外在干预前，实验性研究的研究对象来自同一群体；比较性质的观察性研究的对象一般来自不同人群。2.实验设计的三个基本原则是什么？答：实验设计的基本原则：对照、随机、重复。设立对照和贯彻随机化是使各组均衡可比的两个非常重要的手段。重复就是指试验组和对照组需要满足一定的样本量。3.随机化的作用是什么？答：随机化是采用随机的方式，使每个受试对象都有同等的机会被抽取或分到不同的实验组和对照组。随机化使不可控制的混杂因素在实验组和对照组中的影响较为均匀，并可归于实验误差之中；它也是对资料进行统计推断的前提，各种统计分析方法都是建立在随机化的基础上。4.为比较两种药物对小鼠移植性肉瘤生长有无抑制作用的效果，如果由文献报道，小鼠肿瘤重量的标准差在0.7g左右而小鼠肿瘤重量测量的有效精度在0.5g左右，规定此检验分辨的能力Δ=0.5g，标准差S=0.7g，α=0.05，Z0.05/2=1.96以及β=0.20，试估计每组所需样本量？如何将小鼠分组？并写出分组结果。答：每组样本量估计22220.05/20.2222()2(1.960.842)0.7310.5nZZ+σ+===Δ考虑到可能存在一定的脱落，增加20％样本量，故每组样本量取n=1.2×31=38。随机分组方案如下：将76只小鼠编号：1，2，…，76。设置种子数200（可以任意设置一个数值作为种子数）借助Stata软件产生76个在（0，1）上均匀分布的随机数，每个随机数对应一个研究对象：小鼠。对76个随机数从小到大排序，最小的38个随机数对应的小鼠编号为试验组，最大的38个随机数对应的小鼠编号为对照组。借助Stata软件实现如下：setobs76设置观察记录数为76genid=_n产生编号1～76setseed200设置种子数200genr=uniform()产生随机数sortr对随机数进行排序gengroup=1-int((_n-1)/38)设置最小的38个随机数为group=1，其它为group=0sortid按编号排序listidgroup列出随机分组名单第七章一、是非题1.在两样本t检验中，t检验统计量服从自由度为n1+n2-2的t分布。答：错，只有H0:μ1=μ2为真才成立2.对于两个样本的样本量都很大时，t检验对正态性的要求可以忽略。答：对，根据中心极限定理可知，样本量很大时，样本均数的分布逼近正态分布。3.对于两个样本的样本量都很大时，t检验对方差齐性的要求可以忽略。答：不对，方差齐性与样本量大小无关。4.对于观察单位不一致的两样本Poisson分布资料的平均水平检验，要求两个样本的均数1X，2X均大于30。答：不对，只要求在原始观察单位的情况下，原始观察值均大于30，详细见本章基本概念辩析。5.在假设检验中，当拒绝H0时，还可能存在第二类错误。答：不对，犯第一类错只可能发生在拒绝H0时，犯第二类错误只可能发生在不拒绝H0时。所以当拒绝H0时，就不可能存在第二类错误。二、选择题：1.两个样本均数不一致，t检验时P>0.05，则（C）A.可以认为两个总体均数相等B.可以认为总体均数不同C.没有足够证据可以推断总体均数不同D.可以认为两个样本来自同一总体2.两独立样本均数的比较，P<0.001，拒绝H0时可推论为（A）。A.1X与2X间差异有统计学意义B.1X与2X的差异无统计学意义C.1μ与2μ间差异无统计学意义D.1μ与2μ间差异有统计学意义3.完全随机设计的两样本比较的秩和检验中，编秩次的方法是（C）。A.将两组数据分别编秩，各组秩次分别相加求秩和B.将两组数据混合，从小到大统一编秩，再相加求总秩和C.将两组数据混合，从小到大统一编秩，再将各组秩次分别相加求秩和D.将两组数据分别编秩，全部秩次相加求秩和4.两独立样本连续型定量资料比较，当分布类型不清时选择（C）总是正确的。A.t检验B.Z检验C.秩和检验D.χ2检验5.两独立样本连续型定量资料的比较，应首先考虑（D）。At检验B秩和检验Cχ2检验D资料符合哪些统计检验方法的条件，在符合的统计方法中选择Power高的检验方法。6.对两样本均数做比较时，已知12n,n均小于30，总体方差不齐且分布呈偏态，宜用（C）。A.t检验B.t'检验C.秩和检验D.无法检验7.对两样本均数比较的t检验，无效假设正确的是（A）。A.H0：12μμ=B.H0：12μ≠μC.H0：12X=XD.H0：12X≠X8.两样本秩和检验的备择假设是（C）。A.两组所对应总体分布相同B.两组所对应总体均数相等C.两组所对应总体分布不相同D.两组所对应总体均数不全相等9.秩和检验和t检验相比，秩和检验的优点是（A）。A.不受分布限制B.公式更为合理C.检验效能高D.抽样误差小10.两Poisson分布资料的均数比较，正确的是（B）。A.观察单位不等时，可以直接比较B.观察单位不等时，应先将观察单位化为相等，再进行比较C.比较时不用考虑观察单位D.观察单位相等时，不可以直接比较11.Y服从Poisson分布，如果Y观察值为40，则可以认为X=Y/10（D）A.服从Poisson分布但也近似正态分布B.服从Poisson分布C.不能认为近似正态分布D.不服从Poisson分布但近似服从正态分布注：借助Poisson分布的95％可信区间可知：观察值Y=40，其95％可信区间的下限为28.58>20，可以推断Poisson分布的总体均数μ>20，并且可以认为Y近似服从正态分布，根据正态分布的随机变量乘以一个非0常数仍旧服从正态分布的原理，所以可以认为X=Y/10近似服从正态分布。三、简答题：1．某医院用新药与常规药物治疗婴幼儿贫血，将20名贫血患儿随机分为两组，分别接受两种药物治疗，测得血红蛋白增加量(g/L)如下表，请回答下列问题：1)新药与常规药的疗效有无差别？2)根据研究问题，请分别给出两个样本所在总体的定义。表7-8两种药物治疗婴幼儿贫血的血红蛋白增加量（g/L）新药组24362514263423201519常规组14182015222421252723解：方差齐性检验P=0.1258>0.1，不能认为方差不齐正态性检验：两组资料的正态性检验的P分别为0.55和0.81，均不能否认两组资料分别服从正态分布。故可以采用成组t检验比较两组资料的平均水平。（1）采用完全随机设计两样本比较的t检验。建立检验假设：H0：12μ=μ，新药与常规药治疗后的血红蛋白增加量总体均数相同；H1：12μ≠μ，新药与常规药治疗后的血红蛋白增加量总体均数不同。α=0.05。计算t统计量：t=1.02,P=0.3215>0.05结论：不能拒绝H0，两个样本均数的差异无统计学意义，尚不能认为接受新药与常规药治疗后的两个婴幼儿人群的平均血红蛋白增加量有不同。（2）新药组的总体定义：接受新药治疗的贫血婴幼儿人群的的血红蛋白增加量常规组的总体定义：接受常规药治疗的贫血婴幼儿人群的的血红蛋白增加量2．测量从事贸易的33名代谢综合征患者和从事贸易的31名健康者的血清瘦素水平，其X±S分别为49.14±6.72ng/ml和16.18±3.99ng/ml（假定血清瘦素实际值近似服从正态分布）。试比较两个人群血清瘦素平均水平有无差异。解：假定资料近似正态分布，所以首先考虑方差齐性检验。H0:σ1=σ2H1:σ1≠σ2α=0.10齐性检验的统计量F=2.837，P＝0.0052<α,所以应认为方差不齐。故选用t'检验。H0:μ1=μ2H1:μ1≠μ2α=0.05t′=1.0195,ν=14.5,P=0.3247，差异无统计学意义。没有充分证据可以认为两个人群血清瘦素的平均水平是不同的。3．为研究冠心病对眼底动脉硬化的影响，某医院调查了40例冠心病患者和32例非冠心病患者，检查每个人的眼底动脉硬化情况，整理如表2，请回答下列问题。1)这两个样本属于哪一类研究设计得到的2)请根据上述样本资料作统计分析3)根据研究背景，请问：下结论时应考虑哪些非研究因素最可能会影响统计分析结果。表7-9冠心病患者和非冠心病患者眼底动脉硬化情况眼底动脉硬化级别组别0级Ⅰ级Ⅱ级Ⅲ级合计冠心病组51812540非冠心病组2093032答：这是观察性研究中的病例对照研究，评价观察指标为眼底动脉硬化级别，这是一个有序分类资料，根据研究问题，可以作两组的秩和检验。H0:两个人群的眼底动脉硬化级别的分布相同H1:两个人群的眼底动脉硬化级别的分布不同α=0.05检验统计量Z=4.5，P<0.0001，两个人群的眼底动脉硬化级别的分布不同，基于冠心病组的平均秩(46)高于非冠心病组的平均秩(25)，可以推断冠心病人群的眼底动脉硬化的平均程度高于非冠心病患者。4.在两个样本t检验，如果方差不齐，但两组样本量相同并且很大，能否忽略t检验对方差不齐的要求？（提示：比较t检验和t'检验公式）解：对于n1=n2=n，121222221122121212122212(1)(1)(11)(1)(1)(2)222tXXXXnSnSnSnSnnnnnnXXtSSnn−−==−+−−+−++−−−′==+2222222442211221212122222444411221212212(//)()/2(1)1(/)(/)()()11(1)SnSnSSnSSSSnnSnSnSSSSnnnnν++++===−≥−+++−−−当样本量n充分大时，自由度ν也是充分大，t分布逼近标准正态分布，即tα/2,n−1≈tα/2,2(n−1)≈Zα/2。综上所述，如果两个样本量相同并且充分大，则t检验与t′检验使非常接近的，所以如果方差不齐，但两组样本量相同并且充分大，可以忽略方差不齐的条件。5.对于两组资料进行正态性检验，应该两组分别进行正态性检验还是两组资料合在一起作正态性检验？请讨论在大样本的情况下，两组资料合在一起作频数图可能会出现哪些情况。解：应该分别做正态性检验。因为两组可能来自不同的正态分布，例如：两组来自正态分布，但第一组资料所在的总体，其总体均数100，第二组资料所在总体，其总体均数为120，在样本量较大的情况下，频数图可以分析，第一组的频数图的峰在100左右，第二组的频数图的峰在120左右，两组资料合并作频数图往往会出现两个峰：一个峰在100左右，另一个峰在120左右，对于双峰的分布的资料一般会认为非正态

                    本文档为【卫生统计学_赵耐青习题答案】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：￥17.6 已有0 人下载

立即下载

卫生统计学_赵耐青习题答案

你可能还喜欢