首页 医学统计基本方法-医学课件

医学统计基本方法-医学课件

举报
开通vip

医学统计基本方法-医学课件一、漫谈”统计”日常生活中,我们常听到很多关于“统计”的词汇.例如:国家统计局公布,2004年全国GDP增长9%;国家气象局预报,明天北京天气阴,降水概率40%;报刊统计信息文摘2003年,北京市人平寿命77.93岁,婴儿死亡率为5.56‰,儿童计划免疫接种率98%.这些主要健康指标已接近或超过中等发达国家的水平.北京日报.京报网,2003年11月20日统计学的概念什么是统计学?statisticsstate指政府,官方所要求的信息。统计学是一门处理数据中变异性的科学和艺术。      --- JohnM.Last...

医学统计基本方法-医学课件
一、漫谈”统计”日常生活中,我们常听到很多关于“统计”的 词汇 英语3500词汇语境记忆pets3考试词汇二年级反义词和近义词初中词汇词汇大全考研英语二高频词汇表 .例如:国家统计局公布,2004年全国GDP增长9%;国家气象局预报,明天北京天气阴,降水概率40%;报刊统计信息文摘2003年,北京市人平寿命77.93岁,婴儿死亡率为5.56‰,儿童计划免疫接种率98%.这些主要健康指标已接近或超过中等发达国家的水平.北京日报.京报网,2003年11月20日统计学的概念什么是统计学?statisticsstate指政府,官方所要求的信息。统计学是一门处理数据中变异性的科学和艺术。      --- JohnM.Last《ADictionaryofEpidemiology》统计学的应用领域统计学经济学管理学医学 工程 路基工程安全技术交底工程项目施工成本控制工程量增项单年度零星工程技术标正投影法基本原理 学社会学…医学统计学概念用统计学原理和方法研究医学问题.应用概率论和数理统计的基本原理和方法,结合医学实际,研究资料和信息的搜集、整理与 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 的一门学科。(从看起来错综复杂的偶然性中揭露潜在的必然性)怎样学习医学统计学1.重在理解基本的统计原理,各种统计方法的基本概念,掌握适用范围和注意事项;学习过程中必须注意联系实际、结合专业;2.对于书中所引用的统计公式,只要求了解其意义及使用方法,不必深究其数理推导。充分利用计算工具,始终把注意力放在统计公式的理解,正确选择及结果分析上。二、医学统计学中的几个基本概念(一)同质-变异同质homogeneity指事物的性质、影响条件或背景相同或非常相近。(条件相同,性质相似的个体)变异variation  在同质的条件下,就同一观察条件说,各观察单位表现出来的数量间存在着差异,这种客观存在的差异性为变异。通常来源于一些未加控制或无法控制的甚至不明原因的因素。例1:儿童身体发育:同性别、同年龄身高不同例2:同种属、同性别、同年龄、同窝小白鼠喂以同样的饲料,增重量不同(同质)(变异)(变异)(同质个体)(二)总体(population)与样本(sample)总体:是根据研究目的确定的同质的研究对象的全体。是性质相同的所有观察单位某种变量值的集合。例如:某地1990年正常成年人的血压值有限总体finitepopulation明确了时间、空间范围内有限个观察单位的总体。无限总体infinitepopulation总体是抽象的、设想的,无时间和空间范围的限制。被观察的个体数在理论上存在。例如:研究用某药治疗缺铁性贫血的疗效总体中个体数目有限总体中个体数目无限多样本sample是指从总体中随机抽取的有代表性的部分个体所组成的集合。特点:代表性随机性可靠性可比性(三)参数与统计量parameterandstatistic参数:总体的统计指标,如总体均数、 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 差,采用希腊字母分别记为μ、σ。固定的常数总体样本抽取部分观察单位统计量参数推断inference统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为。参数附近波动的随机变量。(四)随机抽样-抽样误差随机抽样randomsampling为了保证样本的可靠性和代表性,需要采用随机化的抽样方法(在总体中每个个体具有相同的机会被抽到)。抽样误差例:1982年某市全体7岁男童(总体)的平均身高为122cm(总体均数).随机抽取一个(份)样本,含110名(样本含量),平均身高为119.95cm;再随机抽取一个(份)样本,含110名,平均身高122.80cm;抽样误差:样本均数≠总体均数一(份)样本的均数≠另一(份)样本的均数由于随机抽样所造成的样本统计量与总体参数的差异,或者各样本统计量之间的差异,称抽样误差。(五)频率-概率频率frequency在相同的条件下,独立重复n次试验,随机事件A出现f次,则称f/n为随机事件A出现的频率。频率的大小反映了事件A发生的频繁程度,频率大,则事件A发生就频繁,这意味着A在一次试验中发生的可能性就大。 概率随机事件发生的可能性大小,用大写的P表示;取值[0,1]。   15黑球85白球上述摸球模型,一次摸出黑球的可能性=15%必然事件P=1随机事件0 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 收集资料整理资料分析资料调查设计实验设计资料来源质量控制审核合理分组统计描述统计推断……  第三章医学统计基本方法第二节数值变量资料的统计描述与推断         一、列表描述法        ——频数分布表(frequencytable)140名成年男子红细胞数3.825.95频数表的编制步骤(1)求全距(range,R):即最大值与最小值之差;本例极差:R=5.95-3.82=2.13(2)决定组数和组距:组数通常取10-15个组,组距为全距的十分之一,再略加调整; 本例i=R/10=2.13/10=0.213≈0.20(3)列出组段:第一组段必须包括最小值,最后一个组段必须包含最大值;(4)划记计数频数表的用途1.作为陈述资料的形式2.揭示计量资料的分布类型:正态分布、偏态分布3.描述计量资料分布的集中趋势和离散趋势4.便于发现某些特大或特小的可疑值图示描述法     ----频数分布图Graphoffrequencydistribution频数分布图-直方图对称分布正偏态(右偏态)峰向左偏移,向右侧拖尾负偏态(左偏态)峰向右偏移,向左侧拖尾二、集中趋势的描述——平均水平的度量1.算术均数(arithmeticmean,M) 适用于正态分布和近似正态分布的资料。总体均数用µ表示;样本均数用 表示。直接计算法将所有观察值直接相加再除以观察值的个数。加权法(观察值个数较多时)根据频数表计算均数的一种方法.把各组的组中值视为各组观察值的代表值,分别乘以各组的频数得到各组观察值之和,然后将它们相加得到观察值的总和再除以总例数。2.几何均数(geometricmean,G)适用于偏态分布的变量值经对数转换后呈对称分布的资料,观察值间按倍数关系变化的资料,观察值间不能有0或负数。如抗体滴度、血清凝集效价、某些物质的浓度等。用G来表示。几何均数:变量对数值的算术均数的反对数。直接计算法例2.2 测得5个人的血清滴度的倒数分别是2,4,8,8,32,求平均滴度.则:5份血清滴度的平均水平是1:7频数表资料的几何均数抗体滴度⑴人数,f⑵滴度倒数,X⑶lgX⑷f·lgX⑸1:2.5 1:101:401:1601:640合计141822126722.510.040.0160.0640.00.39791.00001.60212.20412.80625.570618.000035.246226.449216.8372102.10323.中位数(median,M)将一组观察值从小到大按顺序排列,居于中心位置的数值。在全部观察值中有半数的值比M大,另有半数的值比M小。适用于当大部分观测值比较集中,少数观测值偏向一侧时;或资料分布情况不清楚时;或数据的最大值(最小值)无准确测量数据时。如传染病的潜伏期。任何分布的定量数据均可用中位数描述其分布的集中趋势,尤其是偏态分布和一端或两端无确切数值的资料。当样本量为奇数时当样本量为偶数时例:0.84 2.85 5.46 8.58 9.60中位数是 M=X3=5.46例:0.84 2.85 8.58 9.60中位数是 M=1/2(X2+X3)=1/2(2.85+8.58)=5.72频数表法公式:4.百分位数(Percentile,Px)将一组数据按照从小到大的顺序排列并等分为100等分,位于第x分位的数叫做第x百分位数,记做Px在一组数据中,全部观测值的x%小于Px,而1-  大于Px.x%百分位数示意图百分位数(percentile)百分位数的应用中位数用于反映一组数据的趋中位置或平均水平百分位数可用来描述资料的观测值序列在某百分位置的水平三、离散趋势指标的描述有两组男子身高如下,其均数相等,问两组身高(特征)是否一样?甲组:170,175,180,185,190均数=180(cm)乙组:160,170,180,190,200均数=180(cm)设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)盘编号 甲乙丙14404804902460490495350050050045405105055560520510合计250025002500均数500500500甲乙丙1.极差(Range)全距优点:简便缺点:1.只利用了两个极端值2.样本量大,R也会大3.不稳定应用:用于说明传染病、食物中毒等的潜伏期。2.四分位数间距(quartilerange)百分位数数据从小到大排列,在百分尺度下,所占百分比对应的值。记为Px。四分位间距QR=P75-P25P100(max)P75P50(中位数)P25P0(min)3.离均差平方和(sumofsquares,SS)4.方差(variance)总体方差样本方差离均差平方和自由度应用公式:5.标准差(standarddeviation)总体标准差样本标准差例3.1对甲乙两名高血压患者连续观察5天,测得其收缩压为:甲162145178142186(均数为162.6)乙164160163159166(均数为162.4)两者血压的均数几乎相等,分别计算标准差,甲患者为:19.49乙患者为:2.88表明甲患者的血压波动较乙患者大。 6.变异系数(coefficientofvariation,CV)适用条件:① 观察指标单位不同,如身高、体重② 同单位资料,但均数相差悬殊11.7%3.5%7kg60kg体重6cm170cm青年男子身高变异系数标准差均数例3.3 测得某地成年人舒张压的均数为77.5mmHg,标准差为10.7mmHg;收缩压的均数是122.9mmHg,标准差为17.1mmHg.试比较舒张压和收缩压的变异程度.舒张压 CV=10.7/77.5*%=13.8%收缩压 CV=17.1/122.9*%=13.9%两种指标的变异度没有差别.四、正态分布Normaldistribution频率组距ab正态分布的特点:以均数为中心、左右对称X的取值理论上没有边界,离均数越远,越接近X轴,但不会相交位置参数:μ形状参数:δ4.曲线下总面积为1,面积分布有规律水平参数变化形态参数变化曲线下面积意义3232/140=22.86%μμ-σμ+σμ-1.96σμ+1.96σμ-2.58σμ+2.58σ68.27%95.00%99.00%曲线下面积分布有规律频率组距ab复习正态分布的特点:以均数为中心、左右对称位置参数:μ形状参数:δ3.曲线下总面积为1,面积分布有规律μ-1~μ+10.6827μ-1.96~μ+1.960.9500μ-2.58~μ+2.580.9900σσσσσσ标准正态分布Standardnormaldistritubion为什么要引进标准化???一般正态分布为一个分布族:N(m,s2)标准正态分布只有一个N(0,1),这样简化了应用标准正态转化0-11-1.961.96-2.582.5868.27%95.00%99.00%曲线下面积正态分布的应用估计频数分布情况;确定医学参考值范围;质量控制;二项分布、泊松分布的正态近似正态分布的应用之一:估计频数分布情况成年男子红细胞数近似服从正态分布,其均数为4.78,标准差为0.38。计算红细胞数小于4.00的人群所占比例。将4.00看作一个服从正态分布的变量值,进行标准转换:查标准正态分布表,得-2.05所对应的值是0.0202,表明小于-2.05的U值占全部值的2.02%。即成年男子红细胞数低于4.00的人约占总体的2.02%。正态分布的应用之二:确定医学参考值范围MedicalReferenceValueRange概念临床上常用的参考值是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标,过去称正常值。由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围作为判定正常和异常的参考标准。“绝大多数”的概念参考值范围是指绝大多数正常人的某指标值都在一定的范围内,这个绝大多数习惯上包括正常人的90%、95%、99%等,其中95%最常用的是。如果某指标参考值百分界限采用95%,则在参考值范围之外的正常人的尚有5%。所谓“正常人”,并不是指机体任何器官、任何组织的形态和机能都正常的健康人,而是指排除了影响所研究指标的疾病和有关因素的同质人群。“单侧、双侧范围值”的概念计算医学参考值范围是采用单侧还是双侧界值,通常需要依据专业知识而定。如血中红、白细胞计数、体温和脉搏等,无论是过低还是过高均为异常,应采用双侧参考值范围分别制定下侧和上侧界值;血清转氨酶、体内有害物质含量仅过高为异常,应采用单侧参考值范围制定上侧界值;肺活量仅过低为异常,应采用单侧参考值范围制定下侧界值。医学参考值的计算方法1.正态分布法:适用于正态分布的资料双侧95%正常值范围:单侧95%正常值范围:1.96-1.961.642.百分位数法:适用于偏态分布资料双侧95%正常值范围:P2.5~P97.5单侧95%正常值范围:P5(下限)例3.4某地正常成年男子红细胞数的均数是标准差是。试估计该地成年男子红细胞数的95%参考值范围。分析:正常成年男子的红细胞数近似服从正态分布,故可按正态分布法计算。又因红细胞数过多或过少均属异常,所以应计算双侧参考值范围。该地区正常成年男子的红细胞数的95%参考值范围是(4.04,5.52)必须注意:①95%医学参考值范围仅仅告诉我们95%某特定人群的某指标测定值在此范围内,并不能说明凡在此范围内都‘正常’;也不能说明凡不在此范围内都不‘正常’。因此医学参考值范围在临床上只能作为参考。②正态分布法只限于正态分布资料、近似正态分布资料或以一定的方法可以转化为正态分布的资料。例如某变量观察值经对数变换后转换成近似正态分布,这时可先求对数的参考值范围,再求反对数即为参考值范围。③必须抽取足够例数的样本,并判定是否应分“层”确定参考值范围。如果测定值在性别间或年龄组间差别明显,而且这一差别具有实际意义时,应分“层”确定参考值范围。频数分布表图表描述法频数分布图----直方图集中趋势的描述数字特征值(指标)离散趋势的描述正态分布医学参考值范围小结数值变量资料统计描述第三章医学统计基本方法计量资料的统计推断——抽样误差与假设检验Samplingerror&Hypothesistest统计推断(statisticalinference)总体样本sampling统计量参数inference参数估计假设检验四、均数的抽样误差与标准误Standarderror(一)均数的抽样误差和标准误抽样研究,一定存在着抽样误差。因此,估计抽样误差的大小,就成为统计推断必须要解决的问题。抽样误差的概念?抽样误差的大小?1.抽样误差的概念定义:由个体变异和抽样引起的样本统计量与总体参数间、以及样本统计量与样本统计量之间的差别。原因:个体变异+随机抽样表现:样本统计量与总体参数间的差别不同样本统计量间的差别均数抽样误差:由于随机抽样所造成的样本均数与总体均数之间,各样本均数之间的差别假设一个已知总体,从该总体中重复抽取样本量相等(为m)的样本n次,对每个样本计算样本统计量(均数、方差等),观察n个样本统计量的分布规律--抽样分布规律。抽样试验从正态分布总体N(5.00,0.502)中,每次随机抽取样本含量n=5,并计算其均数与标准差;重复抽取1000次,获得1000份样本;计算1000份样本的均数与标准差,并对1000份样本的均数作直方图。按上述方法再做样本含量n=10、样本含量n=30的抽样实验;比较计算结果。抽样试验(n=5)抽样试验(n=10)抽样试验(n=30)3个抽样实验结果图示样本均数的抽样分布特点各样本均数未必等于总体均数;样本均数之间存在差异;样本均数的分布很有规律,围绕着总体均数,中间多、两边少,左右基本对称,也服从正态分布;样本均数的变异较原变量的变异大大缩小。随着样本含量的增加,样本均数的变异范围逐渐缩小。由中心极限定理及大数定理得出:若原变量X服从正态分布,随机抽取样本含量为n的样本均数也服从正态分布。即使从偏态总体中随机抽样,当n足够大(n>50),样本均数也近似服从正态分布。这个定理不仅具有理论价值,而且具有很高的实用价值。因为在实际工作当中,许多医学测量结果并不知道它的确切分布,有了这个性质,就可以利用正态分布的原理对其特征进行统计推断。样本均数的分布:2.标准误的概念(standarderror)样本均数的标准差称为均数的标准误。均数的标准误表示样本均数的变异度。当总体标准差未知时,用样本方差代替,抽样误差的大小用标准误来衡量!标准误的概念抽样的样本量越大,标准误就越小;原来总体变异度小,标准误就越小。标准误反映了样本均数间的离散程度,也反映了样本均数与总体均数之间的差异。当标准误大时,用样本均数对总体均数的估计的可靠程度就小;反之亦然。例,2000年某研究者随机调查某地健康成年男子27人,测其血红蛋白量均数为125g/L,标准差为15g/L。试估计该样本均数的抽样误差。则均数标准误为:3.标准差与标准误意义:标准差用于描述个体值之间的变异,即观察值间的离散度,标准差小,表明观察值围绕均数的波动小;标准误描述统计量的抽样误差,即样本统计量与总体参数的接近程度。标准误小,表明抽样误差小,则统计量稳定,与参数接近。用途:标准差表示观察值间波动的大小,用于医学参考值范围;标准误表示抽样误差的大小,用于参数估计。联系:都是表示变异度的指标,当样本量一定时,两者成正比。4.标准误用途衡量样本均数的可靠性:标准误越小,表明样本均数越可靠;参数估计:估计总体均数的置信区间(区域);假设检验:用于总体均数的假设检验(比较)。(二)t-分布t-distribution1.t分布的概念用样本方差代替总体方差,此时不再服从正态分布。而服从t分布。记为:t分布曲线t分布有如下性质:①单峰分布,曲线在t=0处最高,并以t=0为中心左右对称②与正态分布相比,曲线最高处较矮,两尾部翘得高(见绿线)③t分布曲线与自由度有关系,不同的自由度有不同的t分布曲线。随自由度增大,曲线逐渐接近正态分布;分布的极限为标准正态分布。统计推断(statisticalinference)总体样本sampling统计量参数inference参数估计假设检验复习(三)总体均数可信区间的估计Parameterestimation1.总体均数估计方法总体均数的估计:(1)点值估计(pointestimation):例,120名成年男子血清铁含量的均数是18.57。那么,该总体范围(这个地区)的成年男子血清铁含量的均数就是18.57。这种方法虽简单,但未考虑抽样误差,一般不用。(2)区间估计(intervalestimation)也称置信区间。按照一定的概率估计包含总体均数可能的范围,该范围亦称总体均数的可信区间。可信度:给定的概率称为可信度。用表示。通常取99%、95%。(1)σ未知、但n>100,按正态分布原理区间估计方法(2)σ已知,且n>50,按正态分布原理(3)σ未知、且n≤50,按t分布原理95%可信区间涵义:从总体中作随机抽样,作100次抽样,每个样本可算得一个可信区间,得100个可信区间,平均有95个可信区间包括μ(估计正确),只有5个可信区间不包括μ(估计错误)。意义按预先给定的概率“正常人”的各项生估计未知参数的可理、生化数据,组能范围。其含义是织或排泄物中各种该可信区间有(1成分的含量等指标-α)的可能性包的波动范围含了总体均数公式用标准误用标准差用途估计总体参数判断观察对象的某项指标正常与否均数可信区间与参考值范围的区别均数可信区间参考值范围五、假设检验Hypothesistest假设检验是统计推断的另一个重要内容。假设检验是对所估计的总体首先提出一个假设,然后通过样本数据去推断是否拒绝这一假设,如果拒绝,认为该样本很可能不是来自这个总体;否则,认为该样本很可能来自这个总体。依据:小概率事件P≤0.05(5%)或P≤0.01(1%)称为小概率事件(习惯),统计学上认为不大可能发生。让我们先看一个例子.例根据大量调查,已知健康成年男子的脉搏均数为72次/分。某医生在某山区随机调查30名健康男子,求得脉搏均数为74.2次/分,标准差为6.5次/分。能否认为该山区的成年男子的脉搏均数高于一般成年男子的脉搏均数?对差别的可能原因分析山区男子脉搏的总体均数与一般成年男子的脉搏均数相等.差异是由抽样误差引起的——提示山区男子是一般男子总体的一部分(研究总体)。山区男子脉搏的总体均数与一般成年男子的脉搏均数不相等.差异可能是由地域等因素引起的——提示山区男子与一般男子是两个不同的总体。假设检验——通过对假设作出取舍抉择来达到解决问题的目的A.山区男子脉搏的总体均数与一般成年男子的脉搏均数相等无差异假设、零假设H0(nullhypothesis)B.山区男子脉搏的总体均数与一般成年男子的脉搏均数不相等对立假设、备择假设H1(alternativehypothesis)证明A还是证明B?在H0成立的条件下,均数之间的差异是由抽样误差引起的,有规律可循;在H1成立的条件下,均数间的不同包含种种未知情形,无规律可循。故从H0成立的角度出发,寻求其成立的概率。假设检验的一般步骤1)建立假设,确定检验水准(显著性水准)H0:无效假设,零假设H1:备择假设H0:某两个(或多个)总体参数相等,或某两个总体参数之差等于0,或……无效,或某资料服从……分布(如正态分布);H1:H1的内容反映出检验的单双侧,一般认为双侧检验较为稳妥在假设检验中,称预先规定的小概率值为检验水准,也称为显著性水准,用α表示。常,通常取0.05。选择要根据实际情况而定。2)选定检验方法和计算检验统计量(1)根据资料的类型、设计类型、检验方法的适用条件等选择检验方法;(2)不同的检验方法要用不同的公式计算检验统计量;(3)不同的设计类型要用不同的公式;(4)所有的检验统计量都是在H0成立的前提条件下计算出来的。3)确定P值(1)P值:指从H0所规定的总体中进行随机抽样,获得等于及大于(或等于及小于)现有样本获得的检验统计量值的概率。(2)方法:①查表②将P与预先规定的概率(检验水准α)比较③作出结论-2.0452.045P>α结论为按所取α检验水准,不拒绝H0,无统计学意义(差异无显著性),还不能认为……不同或不等。若P≤α结论为按所取α检验水准,拒绝H0,接受H1,有统计学意义(差异有显著性),可认为……不同或不等(高于或低于);4)推断结论计算公式2.样本均数与总体均数的比较(单样本t检验)目的:推断样本所代表的未知总体均数μ与已知的总体均数μ0是否相等例:根据大量调查,已知健康成年男子脉搏的均数为72次/分钟。某医生在一山区随机调查了25名健康成年男子,求得其脉搏均数为74.2次/分钟,标准差为6.0次/分钟,能否据此认为该山区成年男子的脉搏数高于一般?(1)建立假设,确定检验水准H0:μ=μ0,即该山区成年男子的平均脉搏数与一般成年男子脉搏数相等H1:μ>μ0,即该山区成年男子的平均脉搏数高于一般成年男子脉搏数α=0.05,单侧(2)选定检验方法,计算检验统计量t值(3)确定p值,判断结果以查t界值表按α=0.05水准,拒绝H0,接受H1,差异有统计学意义。可认为该山区健康成年男子脉搏数高于一般成年男子脉搏数。1)自身配对:(1)同一受试对象给以某种处理前后的比较目的:推断某种处理有无作用(2)同一受试对象两个不同部位分别给以两种不同处理的比较(3)同一样品用两种方法(或仪器)检验的结果比较目的:推断两种处理的效果有无差别3、配对资料的比较2)异体配对:不同受试对象配成对子,分别给以两种不同处理目的:推断两种处理的效果有无差别计算公式4.两个小样本均数比较的t检验适用于完全随机设计的两样本均数的比较目的:推断它们各自所代表的总体均属是否相等。两样本含量可以相等也可以不相等,但在总例数不变的条件下,当两样本含量相等时,统计检验的效率最高。计算公式:当样本标准差S1和S2已知时5.两个大样本均数比较的u检验当两样本含量均较大时(n1和n2均大于50),其均数的比较可以用u检验。假设检验应注意的事项1、资料要来自严密的抽样研究设计2、选用假设检验的方法应符合其应用条件3、正确理解差别有无统计学意义的涵义4、假设检验的推断结论不能绝对化5、要根据资料的性质事先确定采用双侧检  验或单侧检验假设检验中的两类错误——Ⅰ型错误与Ⅱ型错误 拒绝了实际上成立的H0的错误称为Ⅰ型错误或第一类错误,也称α错误。Ⅰ型错误的概率用α表示接受了实际上不成立的H0的错误称为Ⅱ型错误或第二类错误。Ⅱ型错误的概率用β表示可能发生的两类错误客观指标假设检验的结果拒绝H0不拒绝H0H0成立Ⅰ型错误(α)推断正确(1-α)H0不成立推断正确(1-β)Ⅱ型错误(β)第三章医学统计基本方法第三节分类变量资料的统计描述与分析一、相对数(一)相对数的概念例:甲、乙两地麻疹流行,甲地发病240人,乙地发病200人。资料整理后所得到的数据,反映的是在一定条件下该地该病实际发生的绝对水平,是我们制订疾病防治工作计划和统计分析的基础。绝对数若甲地易感人群数为2000人,乙地为1000人两个有关联的绝对数之比称为相对数(二)常用的相对数指标1、率(rate)又称频率指标/强度指标分类变量资料的统计描述K:比例系数,为百分比,千分比等,其选择依据习惯用法或使算得的率至少保留一位整数特点:1)率用来说明某现象发生的频率或强度2)率中分子是分母的一部分;无量纲单位;在0-1范围内取值,多用于二项分类变量资料例:为调查某地2006年慢性胃炎的发病情况,随机抽取了1000人,其中150人被确诊为慢性胃炎,试计算该地区居民慢性胃炎的患病率。平均率的计算想想?区人口数发病数发病率(‰)甲987405035.09乙751352643.51丙1187304663.92合计29260512334.21表:某年某师三个区的肠道传染病发病率2、构成比(proportion)构成比即一事物内部各组成部分所占的比重或分布。常用百分数表示。又称构成比指标或结构指标特点:1)构成比说明某一事物内部各组成部分的比重或分布;2)各部分构成比的合计等于100%或1,其分子是分母的一部分,取值在0-1之间,无量纲单位;3)事物内部某一组成部分的构成比发生变化,其它部分的构成比也相应发生变化,故各构成比之间相互制约。分类变量资料的统计描述3、相对比(ratio)指两个有关联的计数指标之比,用于描述两者的对比水平,常用R表示。注:1)甲指标,乙指标可以是绝对数,也可以是相对数或平均数;2)甲,乙指标的量纲可以相同,也可以不同,但互不包容;3)计算结果可大于1,也可小于1。例1.2000年我国第五次人口普查结果,男子65355万人,女子61228万人,试计算男女性别比:2.(三)应用相对数的注意事项1.根据要说明的问题,选用合适的相对数资料分析时不能以构成比来代替率某地人群癌肿患病情况------------------------------------------------------------------------------年龄组(岁)人口数癌肿病人数构成比(%)患病率(1/10万)------------------------------------------------------------------------------<30633000191.33.030-57000017111.430.040-37400048632.6129.950-14300057438.5401.460-3025024216.2800.0-----------------------------------------------------------------------------合计17502501492100.085.2-----------------------------------------------------------------------------2.计算相对数时的分母应适宜观察单位数太小,缺乏代表性,不能反映事物的客观规律,甚至有时会造成错觉观察单位数太多,消耗大量的人力、物力、财力,造成不必要的浪费观察单位数具体多少合适,应结合研究目的及实际情况考虑3.注意分组资料合并率的计算4.相对数比较时应注意其可比性通常需注意两点:(1)研究对象是否同质,研究的方法是否相同,观察时间是否相等,以及地区、周围环境、民族等客观条件是否一致(2)资料的内部构成是否相同5.要注意使用率的标准化6.样本率或构成比的比较要考虑抽样误差,应做假设检验二、率的标准化法什么是标准化?为什么要进行标(准)化?表1某市甲、乙两医院某传染病各型治愈率的比较类型甲医院乙医院病人数治愈数治愈率(%)病人数治愈数治愈率(%)普通型30018060.01006565.0重型1004040.030013545.0爆发型1002020.01002525.0合计50024048.050022545.0率的标准化法(standardizationmethod)率的标准化的意义和定义意义:比较两个(或两个以上)总体率时,如果两个总体的内部构成有所差别,就不能直接拿两个总体率来做比较和下结论,只有通过采用统一的标准消除其内部构成上的差别之后,才能进行比较。定义:采用统一的标准消除内部构成差别,使总的率能够直接进行比较的方法就叫做率的标准化法。采用统一标准调整后的率为标准化率,简称为标化率(standardizedrate)或调整率(adjustedrate)常用表示。直接法的使用条件是已经有被观察的人群中各年龄组的患病率(死亡率、发病率等)资料。第一步:选择方法直接法或间接法若缺乏各年龄组的患病率资料,仅有各年龄组的观察单位数和总的患病率,则选择间接法。标准化率的计算第二步:选择标准的方法选一个具有代表性的、内部构成相对稳定的较大人群作为标准将所比较的两组资料内部各相应小组的观察单位数相加,作为共同的标准从所比较的两组中任选一组的内部构成作为标准表1新旧两种疗法的标准化治愈率甲医院乙医院类型标准病人数病人数治愈数治愈率%病人数治愈数治愈率%普通型40030018060.01006565.0重型4001004040.030013545.0爆发型2001002020.01002525.0合计100050024048.050022545.0治疗分组(以旧疗法组治愈率)标准旧疗法新疗法 原治预率%预期治预人数原治预率%预期治预人数成人组5050.05050.050儿童组1010.02010.020合计23.323.37036.770表2新旧两种疗法的标准化治预率第三步计算标准化率(直接法):2.3.1.选择标准类型标准病人数(1)甲医院乙医院原治愈率(%)(2)预期治愈人数(3)原治愈率(%)(4)预期治愈人数(5)普通型40060.065.0重型40040.045.0爆发型20020.025.0合计1000--2401604026018050440490经标准化后,消除了两医院各型传染病病人构成不同的影响,得出甲医院传染病标准化治愈率为44.0%,乙医院为49.0%,甲医院低于乙医院,校正了标准化前甲医院治愈率高于乙医院的错误情况。甲医院乙医院类型标准病人数病人数治愈数治愈率%病人数治愈数治愈率%普通型40030018060.01006565.0重型4001004040.030013545.0爆发型2001002020.01002525.0合计100050024048.044.050022545.049.0应用标准化时的注意事项1.标准化后的率并不表示率的实际水平,只能表示相互比较资料间的相对水平。选定的标准不同,算得的标准化率也不同。故只能对统一标准的标化率进行比较。2.两样本标准化率是样本值,存在抽样误差,若想得出标化组和被标化组的总率是否相等的结论,还应作假设检验。3.用不同的标准或计算方法,得出的标准化的数值是不一样的,但所反映的趋势是一致的,所以分析结论也是一致的。4.对标化率的结果要恰当解释(比较间应具有相对照比较的关系)率的标准化目的在于统一内部构成,使资料间具有可比性,以便进行合理的比较,比较时应注意:三、率的抽样误差与总体率的估计率的抽样误差与标准误总体率的区间估计(一)率的抽样误差与标准误率的抽样误差是指由抽样造成的样本率(p)与总体率(π)之间的差别在抽样研究中,抽样误差是不可避免的,但可以估计其大小。反映率的抽样误差大小的指标是率的标准误。例:某地随机抽取800名中小学生,作蛔虫感染检查,结果发现蛔虫感染者350名,得出感染率43.75%,求感染率的标准误。n=800,p=43.75%=0.4375代入公式=0.0175=1.75%(二)总体率的可信区间由于样本率与总体率之间存在着抽样误差根据样本率来推算总体率所在的范围查表法(略)正态近似法当样本含量n足够大,且样本率P和(1-p)均不太小如np或n(1-p)均≥5时,样本率的分布近似正态分布 总体率(π)的95%可信区间:p±1.96Sp四、率的假设检验卡方检验的基本概念常用于分类变量资料的统计推断。该检验以2分布(chisquaredistribution)为理论依据。2分布是一种连续型随机变量的概率分布。检验的用途  用于分类变量(计数)资料的统计推断。检验两个(或多个)率或构成比之间差别是否有差异。 检验的基本思想    -理论频数与实际频数的吻合程度值反映了实际频数A与理论频数T的相对吻合程度。若检验假设H0成立,A与T应该比较接近,会小。若检验假设H0不成立,A与T相差较大,会大。如果得到一个较大的值,应怀疑H0的成立。(一)2x2表 检验例8.1:某药品检验所随机抽去574名成年人,研究某抗生素的耐药性,其中179例未曾使用该抗生素,其耐药率为40.78%;而在395例曾用过该药的人群中,其耐药率为45.57%。问两种人群的耐药率是否一样?用药史不敏感敏感合计耐药率(%)曾服该药180(174.10)215(220.90)39545.57未服该药73(78.90)106(100.10)17940.78合计25332157444.08某抗生素的人群耐药性情况四格表资料的基本形式分组阳性事件发生数阴性事件发生数合计甲aba+b乙cdc+d合计a+c.b+d.a+b+c+d=n目的:推断两个总体率(或构成比)是否相同,两因素间有无相关关系基本公式专用公式适用条件n≥40,T≥5(各格理论频数均≥5)校正公式适用条件n≥40,1≤T<5时例某托儿所男童、女童的蛔虫感染情况如下表。问该所男童和女童的蛔虫感染率有无差别?某托儿所男童、女童的蛔虫感染率(1)建立假设,确定检验水准(2)计算理论频数例甲乙两种疗法治疗前列腺癌的3年生存率(46.09)(50.91)(44.09)(39.91)处理生存死亡合计生存率(%)甲疗法52348660.47乙疗法45509547.37合计978418153.59性别感染人数未感染人数合计感染率(%)男23578028.75女13728515.29合计3612916521.82某托儿所男童、女童的蛔虫感染率(3)计算检验统计量(17.45)(62.55)(18.55)(66.45)(4)确定P值,作出推断结论ν=(行数-1)(列数-1)=(2-1)(2-1)=1以ν=1查χ2界值表,按α=0.05水准,拒绝H0,接受H1,差异有统计学意义,可以认为该托儿所男童和女童的蛔虫感染率不同,男童高于女童。χ2值、P值和统计结论χ2值P值统计结论<χ20.05(ν)>0.05不拒绝H0,差异无统计学意义≥χ20.05(ν)≤0.05拒绝H0,接受H1,差异有统计学意义(二)配对资料 检验(McNemar检验)实验设计形式:配对设计数据类型:定性(计数)资料应用条件:b+c≥40时应用条件:b+c<40时统计量例:现有198份痰标本,每份标本分别用A、B两种培养基培养结核菌独立样本与配对样本的区别例3.11 有28份咽喉涂抹标本,把每份标本一分为二,分别接种在甲、乙两种白喉杆菌培养基上,观察白喉杆菌生长的情况。问两种培养基的阳性检出率是否相等? 配对资料的数据格式随机资料的数据格式(三)行x列表检验2检验不仅能用于由两个样本率来推断两个总体率是否相同,还可以用于检验多个样本率或构成比以推断多个总体率或构成比是否相同。将2检验用于行×列表资料的方法又称为行×列表2检验。行×列表2检验的简化公式为:自由度为:v=(行数-1)(列数-1)多个构成比的比较2=297.56例8.7某研究人员欲研究某中药治疗失眠的效果,将122名患者随机分成三组,分别服用该新药、传统治疗失眠药和安慰剂,并跟踪观察三组患者的治疗情况,试问三种药物的疗效是否一样?多个样本率的比较2=40.05行x列表检验的注意事项建议:用确切概率法小结第四节直线相关与直线回归变量间关系问题:年龄~身高、肺活量~体重、药物剂量与动物死亡率等。第一节   直线相关第二节直线回归第三节等级相关两个关系:互依关系:应变量Y与自变量X间的彼此关系——相关分析依存关系:应变量(dependentvariable)Y随自变量(independentvariable)X变化而变化。——回归分析实例散点图第一节   直线相关回归----变量间的依存关系相关----变量间的互依关系直线相关(linearcorrelation):简单相关(simplecorrelation),用于双变量正态分布资料。图3-9相关系数示意图散点呈椭圆形分布,X、Y同时增减---正相关(positivecorrelation);X、Y此增彼减---负相关(negativecorrelation)。散点在一条直线上,X、Y变化趋势相同----完全正相关;反向变化----完全负相关。(一)直线相关类型图3-9相关系数示意图X、Y变化互不影响----零相关(zerocorrelation)(一)直线相关类型相关系数的概念相关系数(correlationcoefficient),又称积差相关系数(coefficientofproduct–momentcorrelation),或Pearson相关系数(软件中常用此名称)是表明具有直线关系的两变量之间相关的方向和密切程度的统计指标。r——样本相关系数r无单位,-1≤r≥1。r值为正——正相关,为负——负相关;(与回归系数b的符号相同)|r|=1---完全相关,|r|=0---零相关。(二)相关系数的计算及意义1.相关系数的计算(三)相关系数的假设检验r≠0原因:①由于抽样误差引起,ρ=0②存在相关关系,ρ≠0公式,υ=n-2Sr----相关系数的标准误区别:六、直线回归与相关的区别与联系1.资料:②X、Y服从双变量正态分布①Y正态随机变量,X为选定变量回归2.应用:回归——由一个变量值推算另一个变量值相关——只反映两变量间互依关系相关3.回归系数有单位,相关系数无单位联系:第二节   直线回归函数关系:确定。例如圆周长与半径:y=2πr。回归关系:不确定。例如血压和年龄的关系,称为直线回归(linearregression)。依存关系:应变量Y随自变量X变化而变化。——回归分析目的:建立直线回归方程(linearregressionequation)(一)直线回归方程一般表达式:a:截距(intercept),直线与Y轴交点的纵坐标。b:斜率(slope),回归系数(regressioncoefficient)。意义:X每改变一个单位,Y平均改变b个单位。b>0,Y随X的增大而增大(减少而减少)——斜上;b<0,Y随X的增大而减小(减少而增加)——斜下;b=0,Y与X无直线关系——水平。|b|越大,表示Y随X变化越快,直线越陡峭。回归方程参数的计算最小二乘法原则(leastsquaremethod):使各散点到直线的纵向距离的平方和最小。即使最小。因为直线一定经过“均数”点散点图编号母X脐YX2Y2XY11.213.901.464115.21004.719021.304.501.690020.25005.850031.394.201.932117.64005.838041.424.832.016423.32896.858651.474.162.160917.30566.115261.564.932.433624.30497.690871.684.322.822418.66247.257681.724.992.958424.90018.582891.984.703.920422.09009.3060102.105.204.410027.040010.9200合计15.8345.7325.8083210.731973.1380SXSYSX2SY2SXY回归参数计算的实例(二)回归系数的假设检验b≠0原因:①由于抽样误差引起,总体回归系数β=0②存在回归关系,总体回归系数β≠0公式,υ=n-2Sb为回归系数的标准误SY.X为Y的剩余标准差——扣除X的影响后Y的变异程度。t检验五、回归方程的应用1.预测(forecast)(给定X值,估计Y)2.控制(给定Y值范围,求X值范围)2.直线回归与相关的应用注意事项(1)作直线相关与回归分析要有实际意义(2)在作相关与回归分析前应先绘制散点图(3)相关关系不一定是因果关系,也可能是伴随关系(4)回归方程有一定的适用范围第三节   等级相关适用资料:⑴不服从双变量正态分布⑵总体分布类型未知⑶原始数据用等级表示等级相关系数rs(即SpearmanCorrelationCoefficient)——反映两变量间相关的密切程度与方向。表7-3等级相关系数计算表综合评分存活天数 编号(1)X(2)秩次U(3)Y(4)秩次V(5)d(6)=(3)-(5)d2(7)=(6)21234567798091907087922365147>453016242825147623541-5-342-40625916416036合计106 注意:相同秩次较多时应校正rs。Spearman等级相关系数的另一种计算方法①分别将X与Y从小到大编秩,若遇相同值取平均秩次;②然后按前面介绍的Pearson相关系数的计算方法求解当相同秩次较多时,计算反而更简单,且结果与校正结果相同。(谢谢!)
本文档为【医学统计基本方法-医学课件】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
知识改变命运的轨迹
Java开发工程师
格式:ppt
大小:3MB
软件:PowerPoint
页数:216
分类:成人教育
上传时间:2023-06-26
浏览量:7