研究生统计学讲义第5讲第5章方差分析

研究生统计学讲义第5讲第5章方差分析第5章方差分析analysisofvariance，ANOVA方差分析目的是利用变异的关系来判别多组资料的总体平均值是否有差别。基本思想是：先假设（H0）各总体均数全相等；将总变异SS总，按设计和资料分析的需要分为两个或多个组成部分，其自由度也相应地分为几个部分，以随机误差为基础，按F分布的规律作统计推断。方差分析首先要进行F检验，统计量为F，我们先介绍其统计量的分布─F分布。定义：如果随机变量X1、X2分别服从自由度为df1，df2的2分布，则称随机变量预备知识服从自由度为df1,df2的F分布(F-distr...

第5章方差分析analysisofvariance，ANOVA方差分析目的是利用变异的关系来判别多组资料的总体平均值是否有差别。基本思想是：先假设（H0）各总体均数全相等；将总变异SS总，按设计和资料分析的需要分为两个或多个组成部分，其自由度也相应地分为几个部分，以随机误差为基础，按F分布的规律作统计推断。方差分析首先要进行F检验，统计量为F，我们先介绍其统计量的分布─F分布。定义：如果随机变量X1、X2分别服从自由度为df1，df2的2分布，则称随机变量预备知识服从自由度为df1,df2的F分布(F-distribution)。F0.05(5,10)=3.33,P(F>3.33)=0.05;P(F<3.33)=0.95；查附表6，界值F0.01(3，5)=12.1，df1=3，df2=5时，P(F>12.1)=0.01，P(F<12.1)=0.99查附表6,F0.01(3，5)=12.1,df1=3,df2=5时,P(F>12.1)=0.01,P(F<12.1)=0.99;查附表6,F0.025(7，2)=39.36，df1=7，df2=2时，P(F>39.36)=0.025,P(F<39.36)=0.975。因一般都按组成统计量F的分子大于分母计算F值。所以附表6中F界值都大于1。方便方差分析时用。F分布具有倒数性质：例如，查附表6，F0.05(2，5)=5.7861，F界值表中没有列出F0.95(5，2)，利用F分布的倒数性质可得F0.95(5，2)=1/F0.05(2，5)=1/5.7861=0.1728。下面的性质是F分布用于方差分析和两样本比较时的方差齐性检验的重要依据：如果分别从两个正态总体N(μ1,σ1)和N(μ2,σ2)中，随机抽取样本含量为n1，n2的两个样本，算出样本均数和方差分别为，s21和，s22，则统计量服从自由度为df1=n1－1，df2=n2－1的F分布。(5.2)第二节方差分析的思路1.方差分析的分析思路是将全部观察值之间的变异即总变异(SS总)按设计和资料以及分析需要分为两个组成部分，以随机误差为基础，计算F值，按F分布的规律作统计推断。下面我们以完全随机设计资料为例，进一步说明方差分析的基本思想。例5.1研究单味中药对小白鼠细胞免疫机能的影响，把39只小白鼠随机分为四组，雌雄尽量各半，用药15天后，进行E-玫瑰花结形成率（E-SFC）测定，结果如表表6-1不同中药对小鼠E-SFC(%)的影响本例属于完全随机设计资料，从表5-1资料可以看到三种性质不同的变异（用离均差平方和表示变异）：(1)总变异(totalvariation)：显然SS总还与总例数N(=∑nj)的多少有关，确切地说与总的自由度df总(df总=N－1)有关。(2)组内变异(withingroupvariation)：四个样本组各组内部E-SFE值也大小不等，这种变异称为组内变异。它反映了E-SFC的随机误差(包括个体差异以及观测误差)，其大小可用四样本内部每个观察值xij与自已所在样本组均数之差的平方和(记为SS组内)来表示，显然SS组内的大小还与各样本例数nj的多少有关，确切地说与自由度df组内(df组内=Σnj-k)有关，所以计算组内方差，称为组内均方(withingroupmeansquare，记为MS组内，MS组内=SS组内/df组内=[Σ(nj-1)sj2]/(Σnj-k)。(3)组间变异(betweengroupsvariation)：四组间E-SFC值的样本均数也大小不等，这种变异称为组间变异，它反映了不同处理(中药)的影响，也包括了随机误差。其大小可用各组均数分别与总均数之差的平方和(记为SS组间)来表示，同样，组间变异SS组间的大小还与其自由度df组间(df组间=k-1)有关，所以计算组间方差，称为组间均方(betweengroupsmeansquare，记为MS组间)，MS组间=SS组间/df组间=SS总=SS组间+SS组内，且df总=df组间+df组内H0:μ1=μ2=μ3=μ4，F＝MS组间/MS组内>1F要大于1多少才有统计意义呢？可查F界值表(见附表6)得P值，按P值的大小作出推断结论。2.方差分析的应用条件(1)各样本是相互独立的随机样本。(2)正态性(normality)，各样本来自正态分布总体。方差分析的这一应用条件是对样本含量较小时的资料而言，对于样本含量较大的资料来说，则样本不论来自什么总体，方差分析都是强有力的分析方法。因为当各组的样本含量较大时，样本均数近似正态分布。(3)各比较组总体方差相等(σ12=σ22=…=σk2)，称为方差齐性（homogeneityofvariance）。方差分析的这一应用条件主要是对完全随机设计资料而言，注意：无重复数据的方差分析，如配伍设计、交叉设计、正交设计的方差分析，因每个单元格子中只有一个观察数据，不需考虑正态性和方差齐性的要求。3.方差分析的优点方差分析的优点有：①不受对比的组数之限制；②可同时分析多个因素的作用；③可分析因素间的交互作用。第二节完全随机设计资料的多个样本均数比较一、完全随机设计资料的方差分析单因素方差分析(one-wayANOVA)H0:μ1=μ2=……=μn，H1:μ1,μ2,…,μn不等或不全等；α=0.05。单因素方差分析（完全随机设计多个样本均数比较的方差分析）检验统计量为F值：F＝MS组间/MS组内(6.6)如果Fα，在α水平上不拒绝H0，认为多个总体均数间差别无统计学意义，如果F≥Fα，则P≤α，在α水平上拒绝H0，认为多个总体均数间差别有统计学意义，但并不意味着任何两总体均数有差别，只能说至少有两组有差别，可能有的组间没有差别，要了解哪些组间有差别，哪些组间没有差别，需要进一步作多个样本均数间的两两比较。二、多重比较多重比较(multiplecomparison)即多个样本均数间的两两比较，由于涉及的对比组数大于2，若仍用t检验作每两个对比组比较的结论，会使犯第一类错误的概率α增大，即可能把本来无差别的两个总体均数判为有差别。例如有4个样本均数间的两两比较有Ｃ42=4！/［2！(4-2)！］＝6种情况，即可有6次对比，若每次比较的检验水准α=0.05，则每次比较不犯第一类错误的概率为0.95，按概率的乘法定理，6次比较均不犯第一类错误的概率为(1-0.05)6，这时，总的检验犯第一类错误的概率为1-0.956＝0.2649，比0.05大多了。例5.2曾经有人观察甲、乙两种性激素对成四种中药纤维细胞生长的影响，以安慰剂为对照，三组样本含量均为10，结果是甲组为36±4，乙组为39±3，安慰剂组为40±4。按检验水准α=0.05，使用t检验作两两比较，结论：甲组与乙组组比较t=1.897，P>0.05，差异无统计学意义；乙组与安慰剂组比较，t=0.632，P>0.05，差异无统计学意义；甲组与安慰剂组比较，t=2.236，P≈0.04，差异有统计学意义。显然在逻辑上是矛盾的。本例方差分析的F=2.96；根据组间自由度df组间＝k-1＝3-1＝2，组内自由度df组内=N-k=30-3=27，F界值F0.05(2,27)=3.35，F0.05，所以，正确的结果应当是三组之间差异并无统计学意义。多个样本均数比较一般有两种情况：一种是在研究设计阶段未预先考虑或未预料到，经数据结果的提示后，才决定用多个均数间的两两比较，常见于探索性研究，这种情况下，往往涉及到任意两个均数的比较。另一种是在设计阶段就根据研究目的或专业知识而决定的某些均数间的两两比较，常见于事先有明确假设的证实性实验研究，例如多个处理组分别与一个对照组的比较，处理后不同时间分别与处理前的比较等。多个实验组分别与一个对照组比较常用Dunnett法。每两个均数的比较常用最小显著差值（LSD）、SNK（Student-Newman-Keuls）法，又称q检验；也常用Tukey法、Bonferroni校正法、Duncan的多重极差检验。Bonferroni校正法的思想是考虑到若以m代表t检验次数,每次使用α水平进行比较,m次比较均不犯Ⅰ类错误的概率为:(1－α)m总的检验犯第一类错误的概率为:1－(1－α)mα值很小的时，1－(1－α)m≈m×α以Pmin代表m次t检验中的最小P值，以P校正代表校正P值，当P校正≈m×Pmin时，总的检验水准近似是α。所以，当总检验水准为α时，进行多组间两两比较须坚持P校正=m×Pmin≤α作为判断具有统计学意义的界值；换言之,只有m次t检验中的才推断差异在总检验水准为α下具有统计学意义，这就是Bonferroni标准，利用Bonferroni标准进行多组比较的方法，称为Bonferroni校正法。例5.3已知表5-1资料满足方差分析的应用条件，试分析四种用药情况对小白鼠细胞免疫机能的影响是否相同。本例资料一个研究因素，满足方差分析的应用条件，比较各组总体均数相等用单因素方差分析法。H0:μ1=μ2=μ3=μ4即各总体均数相等,H1:各总体均数不全不等;α=0.05输出结果第三节配伍组设计资料的方差分析及多重比较配伍组设计的多个样本均数比较，符合方差分析条件时，可用无重复数据的两因素方差分析(Two-wayANOVA)。两因素是指主要的处理因素和配伍因素。配伍组设计试验的结果按处理和配伍两个因素纵横排列构成多行多列资料，每个格子中仅有一个数据，故称无重复数据。例5.4为了控制年龄因素对治愈某病所需时间的影响，采用了配伍组设计，选定5个年龄组，每组3个病人，随机分配到不同的处理组中去，资料如表6-2，试分析三种疗法治愈某病所需时间是是否相等。一、配伍组设计资料的方差分析处理组H0：μ1=μ2=μ3，即不同疗法治愈天数的总体均数相等；H1：不同疗法治愈天数的总体均数有不等或全不相等。α=0.05配伍组H0：不同年龄治愈天数的总体均数相等；H1：不同年龄的治愈天数的总体均数有不等或全不等。α=0.05Analyze,→GeneralLinearModels,→UnivariateTestsofBetween-SubjectsEffectsDependentVariable:治愈天数MultipleComparisons二、完全随机设计与配伍设计方差分析的比较例5.2和例5.1不同的是多增加了“配伍组”。测定结果的变异除了不同处理(疗法)组的变异和随机误差外，还存在配伍组(不同年龄)变异，记为SS配伍，所以，配伍组设计的方差分析中，可将总变异分为三部分，即SS总=SS处理+SS配伍+SS误差。自由度也相应分为三部分，即df总=df处理+df配伍+df误差。分别检验处理组间变异、配伍组间变异有无统计的意义。配伍组设计与分析的目的是为了减少误差。若配伍组间变异无统计的意义，则将配伍与误差合并为组内，为完全随机设计试验的方差分析。表5-3完全随机设计与配伍设计方差分析的比较。在MS处理恒定时，完全随机设计与配伍组设计方差分析的效率分别取于MS组内与MS误差的大小，而均方MS的大小是由离均差平方和SS和自由度df来的，从离均差平方和SS来看，完全随机设计的SS组内大于配伍设计的SS误差，这可能使MS组内大于MS误差，这就是通常所说“多组比较时，完全随机设计的效率小于配伍设计”的主要原因。但是，从自由度df来看，df组内-df误差=k(n-1)-(k-1)(n-1)=n-1，完全随机设计的df组内比配伍设计的df误差大。自由度df增大带来两个问题：1.在SS组内不变时，使MS组内减小，而MS处理恒定时使F值增大；2.自由度df增大时，F界值缩小，从而P值较大，所以，从自由度df来看，完全随机设计方差分析的效率可能大于配伍设计。综上所述，多组比较时，如果可选择完全随机设计与配伍设计时，应当从离均差平方和与自由度两方面综合考虑。可以通过预试验或根据文献资料，预估配伍因素结果影响较大，配伍组差异可能有显著意义时，才选择配伍设计。凡不具备配伍条件，估计配伍组差异小者，应选用完全随机设计。P79第五节析因设计方差分析例5.6某中医院用中药复方治疗高胆固醇症，将12例高胆固醇病人随机分为4组治疗：第一组用一般疗法；第二组在一般疗法外加用A药；第三组用一般疗法外加B药；第四组在一般疗法外加A药和B药。一个月后观察胆固醇降低数(mg%) 记录如表5-5，试检验A、B药是否有降胆固醇作用？两药有无交互作用？表5-52×2析因设计不同用药降胆固醇量（mg%）A药B药不用用不用647880564442用283123162518A、B两药各有用和不用两个水平，符合2×2析因设计，可以用2×2析因设计的方差分析检验A药与B药是否有作用以及二者之间是否有交互作用药物间：H0：A、B两种药物疗效相同；H1：A、B两种药物疗效不同。α=0.05交互作用间：H0：A、B两种药物无交互作用；H1：A、B两种药物有交互作用。α=0.05图5-10例5.6的方差分析结果P81第七节组内分组资料的方差分析组内分组设计(hierarchicalclassificationdesign)或称层次分组设计，亦称为系统分组设计或嵌套设计(nesteddesign)。它是将受试对象按甲因素分为若干大组，每个大组再按乙因素分为若干小组，每个小组再按丙因素分为若干亚小组，…，如此依照不同因素将受试对象进行分组，再分组。这种设计的前提是每一受试对象具备一再分组的各种因素。组内分组设计依分层因素的多少来分类，如只按甲因素分为若干大组，每个大组再按乙因素分为若干小组，属于两因素分组(两层次分组)；如果还按丙因素再将每个小组分为若干亚小组，则属于三因素分组(三层次分组)；余类推。最常用的是两层次分组，两层次分组设计中，划分大组的依据是侧重研究的因素，划分亚组的依据是次要因素。两层次分组设计资料方差分析的基本思想是：假设(H0)各大组的总体均数相等，而且同大组内各亚组的总体均数相等。将总变异(离均差平方和SS总)按变异来源分为大组的离均差平方和SS大组，亚组的离均差平方和SS小组.及误差的离均差平方和SS误，并对各项离均差平方和计算自由度，计算各项的方差MS，进而算出F值，按F分布的规律，查F界值表得P，按所取检验水准α作出推断结论。常见的两层次分组方差分析法计算公式为：SS误=SS总－SS大组－SS小组；df误=df总-df大组-df小；MS=SS/df(6.11)F大组=MS大组／MS小组，F小组=MS小组／MS误差(6.12)例5.8研究Ⅰ，Ⅱ，Ⅲ三个不同产地的中药当归不同部位(当归头为1号部位，当归身为2号部位，当归尾为3号部位)的M物质含量，测定结果见表6-4。本例中药当归M物质含量资料，每个产地又分不同部位，大组为产地，小组为部位，是组内分组的资料，对此资料可作两种分析：表5-6三个不同产地当归不同部位M物质含量(单位：mg/10g)①不同产地的中药当归M物质含量是否相同；②同一产地的中药当归不同部位M物质含量是否相同。这是含分层因素的资料，如使用SPSS11.5统计软件，建立数据文件L5.5.sav如图5-13关于交互作用的解释：交互作用是指一个因素不同水平间的效应受到另一因素影响。若一个因素的不同水平间的效应差因另一个因素水平影响而呈现较大幅度增加，其差别在统计学上有显著意义，可认为两因素有协同交互作用；若一个因素的不同水平间的效应差因另一个因素水平影响而呈现较大幅度下降，其差别在统计学上有显著意义，可认为两因素有拮抗交互作用；若一个因素在另一因素不同水平影响下，其不同水平效应差呈现等幅增加或降低，称为该效应不受另一因素影响，即两因素没有交互作用。在正交试验中可分析多种交互作用，如一级交互作用A×B、二级交互作用A×B×C。中药研究和开发一般是选择没有交互作用的因素。第八节重复测量资料的方差分析1．重复测量资料（repeatedmeasuredata）是针对同一受试对象（如人、动物、设备等）的相同观测指标，在p（p≥2。下同）个不同时间点，或身体上的p个对称部位进行多次测量所得的数据资料。重复测量设计通常要考虑处理因素的分组与重复测量的时间点（或身体上的对称部位等）两个因素。处理因素的分组可多个，不同受试对象随机分配到各组，明确规定重复测量的时间点（或身体上的对称部位等）。每个受试对象的同一个观测指标都具有各规定时间点的测量值（基线为实验前的测量值），这些观察值之间具有相关性，不独立。用于分析观察指标在不同时间点（或身体上的对称部位等）的变化特点。前述交叉设计虽然是同一个受试对象在不同时期的观察结果，但由于不同时期的处理因素已经改变，所以不能认为它们是重复测量设计。需要破坏试验对象的试验，不能进行重复测量设计。自身前后配对设计的计量资料，每个观察对象有两个时间点的观察值，是最简单的重复测量资料，因为同一观察对象治疗前后存在相关性，不能用独立样本t检验（即成组t检验）或独立样本的秩和检验，而可采用配对t检验或符号秩和检验。2．重复测量资料的方差分析在重复测量资料的方差分析模型中，不同处理的重复测量方差分析将变异分解如下：SS受试者间=SS处理间+SS受试者间误差；df受试者间=df处理间+df受试者间误差（式5.13）df受试者间=gn–1,df处理间=g-1,df受试者间误差=g(n-1）(式5-14)不同时间点与处理因素交互作用的方差分析将变异分解如下：SS受试者内＝SS重复测量＝SS不同时间点+SS组内误差。df总＝df重复测量＝df不同时间点+df组内误差（式5.15）df重复测量=gn(p-1),df不同时间点＝p-1,df交互作用＝(n-1)(p-1)，df组内误差＝g(n-1)(p-1)（式5.16）例5.9为比较A、B药在6个月疗程中持续减肥的疗效，将10位身高160cm的女肥胖者随机分成2组，每组各5人，服药前、服药3个月和6个月的体重测量值（kg）如表这是两组观察对象多时间点的重复测量资料，有三个检验假设：①H0：服药前两组平均体重相同。②H0：服药3个月时的两组体重总体均数相等。③H0：服药6个月时的两组体重总体均数相等。都用α=0.05。因同一受试者不同时间点的观察结果有相关，不能用将变异成分分解或消除不独立变异成分的方法进行统计分析，可用重复测量的资料的方差分析法。第九节定量反应结果的样本含量估计1.两样本均数的比较标准差为σ，两均数、比较，双侧检验时，估计每组样本含量n的计算公式为：n=2σ2（uα/2+uβ）2/（-）2（式5.17）例5.10用新药降高血压病人胆固醇，规定用试验组与对照组相比，平均降低20mg/L以上才有推广价值，引用文献中胆固醇的标准差为30mg/L，规定α＝0.05，β＝0.1，估计需观察例数，因－＝20，σ＝30，u0.05/2=1.96，u0.1＝1.282，双侧检验时：n=2σ2（uα/2+uβ）2/（-）2=2×302×（1.96+1.282）2/（20）2=47.29n=2σ2（uα/2+uβ）2/（-）2=2×302×（1.645+1.282）2/（20）2=38.562．治疗前后或配对计量资料的比较每组容量的计算公式为n=[σd（uα/2+uβ）/δ]2（式5.18）式中为每对观察对象差值的标准差，δ为容许误差。例5.11用复方降压片治疗高血压病人，预试验结果，标准差为2.7kPa。要求治疗后比治疗前舒张压平均下降1.3kPa，取α＝0.05，β＝0.1，估计所需病人例数：δ＝1.3，σd＝2.7，u0.05/2＝1.960，u0.01＝1.282，计算得到=45需要病人45名。

                    本文档为【研究生统计学讲义第5讲第5章方差分析】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

研究生统计学讲义第5讲第5章方差分析

你可能还喜欢