医药数理统计 PPT课件

医药数理统计 PPT课件《医药数理统计》教师：吕靖联系方式：电话：邮箱：QQ号：76756940办公室：公教楼123第一章.事件与概率第二章.随机变量的概率与数字特征第三章.实验设计第四章.抽样分布第五章.参数估计第六章.假设检验第八章.线性相关与回归分析第九章.正交设计概率规律统计方法主要内容第七章.方差分析第十章.均匀设计实验设计确定性现象：结果确定不确定性现象：结果不确定自然界与社会生活中的两类现象抛出的物体会掉落到地上明天天气状况买了彩票会中奖抛硬币出现正（反）面事件与概率一次抛掷硬币试验（出现正面朝上）多次抛掷硬币实验（出现正面...

《医药数理统计》教师：吕靖联系方式：电话：邮箱：QQ号：76756940办公室：公教楼123第一章.事件与概率第二章.随机变量的概率与数字特征第三章.实验设计第四章.抽样分布第五章. 参数估计第六章.假设检验第八章.线性相关与回归分析第九章.正交设计概率规律统计方法主要内容第七章.方差分析第十章.均匀设计实验设计确定性现象：结果确定不确定性现象：结果不确定自然界与社会生活中的两类现象抛出的物体会掉落到地上明天天气状况买了彩票会中奖抛硬币出现正（反）面事件与概率一次抛掷硬币试验（出现正面朝上）多次抛掷硬币实验（出现正面朝上的次数）不确定近半数（规律）这种在个别实验中其结果呈现出不确定性，在大量重复试验中其结果又具有统计规律性的现象，称为随机现象。概率论与数理统计是研究和揭示随机现象规律性的一门数学学科。事件与概率第一节随机事件及其运算一、随机事件随机试验：对随机现象的观察（试验）抛一枚硬币，观察抛一颗骰子，观察记录某城市120急救电话台一昼夜接到的呼叫次数观察某一电子元件的寿命将一枚硬币连抛三次，考虑正（反）面出现的情况具有以上三个特点的试验成为随机试验，简称试验（E）。1、可以在相同条件下重复；2、每次试验的结果可能不止一个，并且能事先明确试验的所有可能结果；3、进行一次试验之前不能确定哪一个结果会出现。事件与概率样本空间：试验所有的结果的集合（）抛硬币：｛正面，反面｝抛一颗骰子：｛1，2，3，4，5，6｝记录某城市120急救电话台一昼夜接到的呼叫次数：｛1，2，3，4，……｝观察某一电子元件的寿命：R+将三枚硬币：｛正正正，正正反，正反反，反反反｝随机事件：随机试验的结果（样本空间的子集）（A，B…….）基本事件:不能分解成其它事件的最简单的随机事件.必然事件：每次试验必然发生（）不可能事件：每次试验都不会发生（）二、事件间的关系与运算事件的包含：如果事件A发生必然导致B发生则称事件B包含事件A或称事件A包含于事件B或称A是B的子事件记作BA或AB说明：AB属于A的每一个样本点一定也属于B对任意事件A易知A事件的相等：如果事件A包含事件B事件B也包含事件A则称事件A与B相等(或等价)记作AB说明：相等的两个事件总是同时发生或同时不发生事件与概率事件的并(或和)“事件A与B至少有一个发生”这一事件称作事件A与B的并(或和)记作A∪B或AB例.在投掷一枚骰子的试验中记A“点数为奇数”B“点数小于5”则A∪B？事件的交(或积)“事件A和B都发生”这一事件称为事件A与B的交(或积)记作A∩B(或AB)说明：两个事件的并与交可以推广到有限个或可数个事件的并与交例.在投掷一枚骰子的试验中记A“点数为奇数”B“点数小于5”则A∩B{？}事件与概率事件的差“事件A发生而B不发生”这一事件称为事件A与B的差记作AB例.在投掷一枚骰子的试验中记A“点数为奇数”B“点数小于5”则AB{？}互不相容事件若事件A与B不可能同时发生也就是说AB是不可能事件即AB则称事件A与B是互不相容事件事件与概率完备事件组：设A1A2An是两两互不相容的事件并且和为，称A1A2An是一个完备事件组例.考察某一位同学在一次数学考试中的成绩分别用ABCDPF表示下列各事件(括号中表示成绩所处的范围)A——优秀([90100])D——及格([6070))B——良好([8090))P——通过([60100])C——中等([7080))F——未通过([060))则：ABCDF是两两不相容事件P与F是互为对立的事件即有PFABCD均为P的子事件且有PA∪B∪C∪D对立事件：“事件A不发生”这一事件称为事件A的对立事件记作A如：在投掷一枚骰子的试验中“点数小于3”和“点数大于4”这两个事件是互不相容事件说明：在一次试验中如果A发生则A一定不发生如果A不发生则A一定发生因而有AAA∪A问：对立事件与互不相容事件之间的关系？事件与概率三、随机事件的运算律1关于求和运算(1)A∪BB∪A(交换律)(2)(A∪B)∪CA∪(B∪C)A∪B∪C(结合律)2关于求交运算(1)A∩BB∩A(交换律)(2)(A∩B)∩CA∩(B∩C)A∩B∩C(结合律)3关于求和与求交运算的混合(1)A∩(B∪C)(A∩B)∪(A∩C)(第一分配律)(2)A∪(B∩C)(A∪B)∩(A∪C)(第二分配律)4关于求对立事件的运算5德摩根律事件与概率频率稳定值概率概率的统计定义频率：在相同条件下进行n次试验，事件Ａ发生的次数m称为事件Ａ发生的频数。称为Ａ发生的频率。记作定义：当n足够大时，频率的稳定值p（注意概率与频率的区别）性质：第二节事件的概率注：概率是一个随机事件所固有的属性，与试验次数以及每一次试验结果无关。频率的性质事件发生的频繁程度事件发生的可能性的大小概率的统计定义事件与概率一、概率的定义概率的古典定义前提：试验样本空间只包含有限个元素；每个基本事件发生等可能性。定义：已知样本空间中基本事件总数为n，若事件A包含k个基本事件，则有例：将一枚硬币抛三次，求（1）事件A=｛恰有一次出现正面｝（2）事件B=｛至少有一次出现正面｝？例：某学习小组有10名同学，其中7名男生，3名女生，从中任选3人去参加社会活动，则3人全为男生的概率为？补充：排列与组合排列定义：从m个元素中，取出n（n≤m）个元素按一定顺序排成一列。记为组合定义：从n个元素中，任取k个为一组，得出的不同的组数，称为组合数。记作1.互斥事件加法定理（有限可加性）若事件A、B互斥，则有P（A+B）=P（A）+P（B）推广：若为两两互斥事件，则例.药房有包装相同的六味地黄丸100盒，其中5盒为去年产品，95盒为今年产品。现随机发出4盒，求：有1盒或2盒陈药的概率。2.一般加法定理对任意两事件A、B，有P(A+B)=P(A)+P(B)－P(AB)推广：对任意三事件A、B、C，有P(A+B+C)=P(A)+P(B)+P(C)－P(AB)－P(AC)－P(BC)+P(ABC)3.减法定理对任意的A、B，有P(A-B)=P(A)－P(AB)二、概率的运算4.条件概率与乘法定理条件概率：在事件B已经发生的条件下，A发生的概率称为A的条件概率，记性质：一般情况下，例.袋中有2个白球，8个黑球，现让两个人去抽球（无放回）。若已知第一个人抽到白球，则第二个人也抽到白球的概率是多少？乘法定理：推广公式：4.独立事件及其乘法定理独立事件：若或或则称时间A、B相互独立。定理：若A与B，A与，与B，与中有一对相互独立，则另外三对也相互独立。推广：若任意三事件A、B、C两两独立，且P（ABC）=P(A)P(B)P(C),则称A、B、C相互独立。多事件相互独立多事件两两独立例如：抛一枚硬币两次,记A={第一次为正面},B={第二次为反面},C={两次都为同一面}。分析知，A、B、C两两独立，但不相互独立。独立事件的乘法定理：若相互独立，则注意：具有非零概率的两事件，互斥就不独立，独立就不互斥。例.若每人血清中有肝炎病毒的概率为0.4%，今混合100人的血清，求混合血清无肝炎病毒的概率。1.全概率公式：若构成互斥完备群，则对任意事件B，有全概率公式的意义：在较复杂情况下直接计算P(B)不易，借助于一个完备事件组，将复杂事件分解成若干个互不相容的简单事件的和，再利用概率的加法公式求出复杂事件概率。例12.设药房的某种药品由三个不同的厂家生产。其中第一家药厂生产的药品占1/2，第二、三家分别占1/4，已知第一、二家药厂生产的药品有2%的次品，第三家药品有4%的次品。试求：现从药房任取一份，问拿到次品的概率？第四节全概率公式和逆概率公式实际工作中还会遇到与全概率问题相逆的问题。如例12改成：设药房的某种药品由三个不同的厂家生产。其中第一家药厂生产的药品占1/2，第二、三家分别占1/4，已知第一、二家药厂生产的药品有2%的次品，第三家药品有4%的次品。试求：拿到的药品是次品时，该次品由各家药厂生产的可能性为多大？2.逆概率公式（贝叶斯公式）：设是互斥完备群，则对任意事件B，有随机变量的概率分布与数字特征第一节随机变量与离散型随机变量的概率分布引入随机变量使得随机事件可用随机变量的关系式表示，从而使对随机现象研究进一步深入、更数学化。1.随机变量对于随机试验，若其试验结果可用一个取值带有随机性的变量来表示，且变量取这些可能值的概率是确定的，则称这种变量是随机变量。注意：随机变量常用X,Y,Z表示，而表示随机变量所取的值通常用x,y,z表示。例如，从某一学校随机选一学生，测量他的身高。我们可把可能的身高看作随机变量X，然后提出关于X的各种问题。如P(X>1.7)=？P(X≤1.5)=?P(1.50，则称X服从参数为λ的泊松分布，记为X~P(λ)。许多稀有事件都服从或近似服从泊松分布。λ=np。例5.已知某地区人群中患某种病的概率为0.001，试求在检查的5000人中至少有2人患此病的概率。解：由于n=5000较大,p=0.001较小,取λ=np=5,设X=患此病人数,则X∼P（5）若精确计算,则X∼B（5000,0.001）第3节连续型随机变量的概率分布1.连续型随机变量的概率密度若对于随机变量X的分布函数F(x)，存在非负函数f(x),使得对于任意实数x,有：则称X为连续型随机变量，其中被积函数f(x)称为X的概率密度函数（简称概率密度）性质：⑴f(x)≥0；⑵⑶对于任意实数a，b（a0)为常数，则称X服从参数为,2的正态分布（或高斯分布）,记为X～N(,2).特点：⑴曲线f(x)呈钟形，关于直线x=μ对称，在(-∞,μ]上递增，在[μ,+∞)上递减。⑵在x=μ处，f(x)取最大值在x=μ±σ处有拐点，且以x轴水平渐近线。⑶当σ固定时，μ改变，则f(x)图形的形状不变，只改变其位置，μ确定图形的中心位置,称位置参数,μ增大，曲线向右移。⑷当μ固定时，σ越小图形越陡峭,σ确定图形峰的陡峭形状,故称形状参数。标准正态分布参数μ=0，σ=1的正态分布为标准正态分布，记为X~N(0,1)。标准正态分布的重要性在于，任何一个正态分布都可以通过线性变换转化为标准正态分布。它的依据是下面的定理：根据定理,只要将标准正态分布的分布函数制成表，就可以解决一般正态分布的概率计算问题。正态分布是自然界及工程技术中最常见的分布之一，大量的随机现象都是服从或近似服从正态分布的．正态分布是概率论中最重要的分布。均匀分布、对数正态分布等分布不做要求。第4节随机变量的数字特征随机变量数字特征，分两类：⑴表示集中程度、平均水平数学期望、分位数、中位数、众数等；⑵表示离散程度、变异大小方差、标准差、变异系数等。1.均数（数学期望）定义1：设离散型随机变量X的分布律为P{X=xi}=pi,k=1,2,3...，则规定X的均数定义2：设连续型随机变量X的概率密度函数f(x)，则规定X的均数为性质：(1)E(c)=c,c为常数(2)E(cX)=c*E(x)(3)E(X±Y)=E(X)±E(Y)(4)E(XY)=EX*EY，X与Y独立常见分布的数学期望二项分布：泊松分布：正态分布：E(X)=μ2.方差和标准差方差：设X是一个随机变量，则称E[(X-EX)2]为X的方差,记作DX，为标准差。注：随机变量的方差反映了它的取值与其数学期望的偏离程度，它是衡量取值离散程度的一个尺度。对于离散型随机变量：对于连续型随机变量：性质：(1)D(c)=0，c为常数(2)D(cX)=c2*D(X)(3)D(X±Y)=DX+DY，X与Y相互独立常见分布的方差二项分布：泊松分布：正态分布：例7：设X~P(2)，则下列结论中正确的是（）A.EX=0.5,DX=0.5B.EX=0.5,DX=0.25C.EX=2,DX=4D.EX=2,DX=2例8：相互独立的随机变量X和Y的方差分别为4和2，则随机变量3X-2Y的方差是？3.变异系数比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。第5节三种重要分布的渐进关系（略）当n→∞，二项分布B(k;n,p)以泊松分布P(k;λ)为极限分布；当n→∞，二项分布B(k;n,p)以正态分布N(np,npq)为极限分布；当n→∞，泊松分布P(k;λ)以正态分布N(λ;λ)为极限分布。例：第3讲随机抽样、抽样分布和总体的参数估计第1节随机抽样1.总体与样本总体：研究对象的全体，组成总体的每个单元称为个体。样本：在一个总体X中抽取n个个体X1，X2…Xn，这n个个体组成的集合称为总体X的一个样本。样本中含有个体的数目称为样本容量，也称样本的大小。简单随机抽样是指在抽取样本单位时，总体的每一个可能的样本被抽中的概率相同。简单随机样本样本X1，X2…Xn相互独立且与总体X有相同的分布函数，这样的样本称为简单随机样本。第2节样本的数字特征统计量：设X1,X2…Xn为总体X的一个样本，g(X1，X2…Xn)为一个样本函数，如果g中不含有任何未知参数，则称g为一个统计量。特点：(1)统计量是样本中n个随机变量X1,X2,…,Xn的函数，它是完全由样本决定的量，仍是一个随机变量。(2)统计量不包含任何未知参数。例如：几种常见统计量样本均数样本方差、标准差、变异系数（相对标准差）注意：分母为n-1。由于样本方差中的均数是样本的，是总体的一部分，其离差平方和一定变小，所以若以n为分母，S2一般比总体方差小（有偏估计）。而分母改为n-1后，经数学证明，S2总在总体方差周围波动（无偏估计），另外，S2的自由度正好是n-1。样本的标准误SD与SE的区别：SD是描述个体观察值变异程度的大小，样本标准差越小，样本均数对一组样本观察值的代表性就越好；SE是描述样本均数变异程度和抽样误差的大小，样本标准误越小，用样本均数估计总体均数可靠性就越高。在实际中，一般用样本标准差与样本均数结合，用于描述样本观察值的分布范围；样本标准误与样本均数结合，用于估计总体均数可能出现的范围。第3节抽样分布统计量是样本随机变量的函数，也是一个随机变量，因而也有自己的概率分布，这种统计量的分布叫做抽样分布。以下介绍几种在已知总体为正态分布条件下，常见统计量的抽样分布。1.样本均数的u分布这说明样本均数的期望与总体的期望相等，而方差为总体方差的1/n倍。可见，用样本均值估计总体均值无系统偏差，且n越大越精确。样本均值分布的应用:其标准化随机变量u主要用于单正态总体、方差已知、小样本条件下数学期望的u检验。2.2分布(卡方分布)设X1,X2,…,Xn相互独立,都服从N(0,1),则称随机变量：所服从的分布为自由度为n的2分布，记为2～2(n)。自由度：指统计量中独立变量的个数。计算公式为df=n-k，n为样本容量，k为约束条件个数。如统计量，变量独立无约束条件，所以自由度为n。而样本方差，其中有n个变量，但这说明变量间有一个约束条件，所以其自由度为n-1.性质：(1)一种非对称分布。当n较大时，曲线近似对称，趋于正态分布。(2)一个以自由度n为参数的分布族，自由度n决定了分布的形状，对于不同的n有不同的分布。(3)均值为n，方差为2n。定理：若X1，X2…Xn为正态总体的一个样本，则有3.t分布设X～N(0,1),Y～2(n),且X与Y相互独立，则称随机变量所服从的分布为自由度为n的t分布，记为t～t(n)。性质：(1)t分布是对称分布，与标准正态分布相比，t分布的中心部分较低，2个尾部较高。(2)均值为0,方差为n/(n-2)。(3)当样本容量n较小时，t分布的方差大于1；当n逐渐增大时，t分布的方差就接近1，t分布也就趋近于标准正态分布。t分布是统计学中十分重要的分布，应用最为广泛，其应用的依据是下面2个定理：(1)设X1，X2…Xn为正态总体的一个样本，则(2)设X1，X2…Xn1和Y1，Y2…Yn2分别是从同方差的总体和中所抽取的样本，它们是相互独立，则其中，S1和S2分别是这两个样本的标准差。4.F分布设X~2(n1),Y～2(n2),X与Y相互独立，则称统计量为服从自由度n1和n2的F分布，记为F～F(n1,n2)。n1为分子随机变量X的自由度,称为分子自由度，n2为分母随机变量Y的自由度，称为分母自由度。性质:(1)非对称偏左侧的分布；当n较大时，曲线近似对称，趋于正态分布。(2)是以自由度n1和n2为参数的分布族，不同自由度决定了F分布的形状。概率分布的拟合及其应用不做要求。第4节总体的参数估计统计推断：用样本的信息去推断总体的信息。参数估计：用样本统计量去估计总体参数的大小。假设检验：用样本统计量大小去推断总体参数是否有差异。1.参数点估计（略）直接用样本统计量大小代替总体参数。同一总体参数可用多个统计量来估计，衡量其好坏的指标有三个：无偏性、有效性、一致性。（易出选择题或填空题）缺陷：(1)点估计值不一定是参数的真值，即使与真值相等也无法肯定这种相等（总体参数本身是未知的）。(2)点估计值只是未知参数的一个近似值，没有给出它与真值之间的误差范围（可靠程度），把握不大。实例：估计全省18岁女孩的平均身高。若根据实际样本，通过点估计法可能得到女孩的平均身高估计值为162cm。而实际上，女孩的平均身高可能大于或小于162cm。若能给出一区间，能以较大概率相信这个区间包含身高的真值，将会更有价值。2、区间估计在给定可靠程度1-α下，用样本值通过合适统计量，估计总体参数θ所在区间的方法。置信区间与置信度设θ是总体的未知参数，若由样本X1,X2,…Xn确定的两个统计量:对给定α(0<α<1),满足则称是θ在置信度(置信水平、置信概率)1-α下的置信区间(CI)。注意：置信区间的长度反映了估计的精度，长度越小，估计的精度越高。置信度则反映了估计的可靠程度，置信度越大，估计的可靠性越大。置信度与精确度是一对矛盾，如何处理？两者矛盾时，应在保证可靠度条件下尽可能提高精度。3.正态总体期望值的区间估计σ已知设X1,X2,…,Xn是取自正态总体N(μ,σ2)的样本，且σ2已知，求参数μ的置信度为1-α的置信区间。解：(1)选μ的点估计(2)取函数(3)对给定的置信度1-α，查正态分布表得Uα/2，(4)变形所以μ在置信度1-α的置信区间为：简记为α常取值0.05，而例1.设正态总体X～N(μ,1)，从中抽取样本容量为16的样本,且样本均数为5.20，求μ的置信度为95%和99%的置信区间。解:由题意易得n=16,σ=1（总体方差已知）当1-α=0.95时，α=0.05；查表得u0.05/2=1.96当1-α=0.99时，α=0.01,查表得，u0.01/2=2.58则置信度为95%的置信区间为既为（4.71,5.69）。同样计算方法可得99%的置信区间为（4.56,5.85）。可以看到，99%的置信区间要比95%的置信区间宽，虽然可靠性更强，但是精确度更低。σ未知设X1,…,Xn是取自N(μ,σ2)的样本，且σ2未知，求参数μ的置信度为1-α的置信区间。思考：应选择何种分布函数？解：(1)选μ的点估计(2)取函数(3)对给定的置信度1-α，(4)所以μ在置信度1-α的置信区间为：简记为例2.随机抽取6只猫，静脉注射麻醉后，收集支气管内分泌物,分泌量为4.8,7.92,1.2,12.72,9.6,13.68，若分泌量服从正态分布，求该批猫支气管内平均分泌量的95%的置信区间。解：n=6,df=5,总体方差未知。当1-α=0.95时,α=0.05,查表得t0.05/2(5)=2.57195%的置信区间为，既为(3.33,13.31)。注意：在大样本下，tα/2(n-1)≈uα/2，即t分布近似于标准正态分布，这时,μ的置信水平1-α的置信区间为大样本：>50正态总体总体均数之差的区间估计、正态总体方差的区间估计（略）。离散型总体参数的区间估计不作要求。第4讲总体参数的假设检验第1节假设检验的基本思想问题的提出从吸烟人群和非吸烟人群中各抽取n=100的样本，分别记为A样本和B样本。A样本收缩压为150mmHg，B样本为130mmHg。原因有两种可能：(1)两个总体均数不相同(2)抽样误差（两个总体均数相同）假设检验的基本思想(1)反证法(2)小概率原理：认为小概率事件在一次抽样中是不可能发生的。先假定一个假设H0：μ1=μ2成立，如果由此导出一个不合理现象的发生（即出现一个小概率事件），就拒绝这个假设；如果没有导出不合理的现象发生，就不能拒绝这个假设。假设检验的基本步骤(1)建立假设H0：µ1=µ2（原假设）H1：µ1≠µ2（备择假设）注意：假设是针对总体，而不是样本(2)确定检验水准显著性水准，判定差别有无统计学意义的概率水准，确定了小概率事件的标准。通常取α=0.05。P≤α----小概率事件(3)选定检验方法，计算检验统计量根据研究目的、资料类型选用合适的检验方法；统计量都是在H0成立的前提下算出来的！(4)确定P值根据检验统计量确定P值。P值：H0成立的概率如果P≤0.05，即H0成立的概率小于0.05，可以认为H0成立是小概率事件，发生的可能性很小，就有理由怀疑H0不成立！(5)做出推断结论推断的结论＝统计学结论＋专业结论P＞0.05，按α=0.05检验水准，不拒绝H0，差异无统计学意义，还不能认为……不同或不等。P≤0.05，按α=0.05检验水准，拒绝H0，接受H1，差异有统计学意义，可以认为……不同或不等。下结论时，对H0只能说拒绝/不拒绝；对H1只能说接受！不拒绝H0≠接受H0第2节单个正态总体的参数检验σ2已知时正态总体均值的u检验设总体X～N(μ,σ2)，X1,X2,…,Xn为抽自总体X的样本，方差σ2已知，则例1.某药厂正常情况下生产的某药膏含甘草酸量X～N（4.45，0.1082）.现随机抽查了5支药膏,其含甘草酸量分别为：4.404.254.214.334.46，若方差不变，问此时药膏的平均含甘草酸量μ是否有显著变化？（=0.05）解：H0：μ=μ0，H1：μ≠μ0；α=0.05根据显著水平=0.05，查正态分布双侧临界值，得u0.05/2=1.96|u|=2.485>u0.05/2，所以拒绝H0，接受H1。可以认为此药膏的平均含甘草酸量有显著性变化。σ2未知时正态总体均值的u检验设总体X～N(μ,σ2)，X1,X2,…,Xn为抽自总体X的样本，方差σ2未知，则例2.正常人的脉搏平均为72（次/min）,现测得20例慢性四乙基铅中毒患者的脉搏(次/min)的均值是63.50，标准差是5.60，若四乙基铅中毒患者的脉搏服从正态分布，问四乙基铅中毒患者的脉搏是否与正常人不同？（=0.05）解：H0：μ=μ0，H1：μ≠μ0α=0.05查t分布临界值表得：|t|=6.788>2.093，所以拒绝H0，接受H1可认为四乙基铅中毒者的脉搏与正常人不同。第3节两个正态总体的参数检验1.两个正态总体的方差齐性检验（略）2.配对比较两个正态总体均数的检验（略）3.成组比较两个正态总体均数的检验（略）第4节方差分析在多组总体均数比较时如采用t检验会增大犯第一类错误概率。如三组之间的两两t检验，三组之间的两两t检验做完三次t检验，总的显著性水平变为1-(1-0.05)3=0.14,要大于设定的α=0.05。而方差分析是将三组数据放在一起做一次比较，犯一类错误的概率仍为α=0.05。基本概念试验指标：衡量试验结果好坏的标准。因素：在试验过程中，影响试验结果的条件。水平：因素在试验中可能处的状态。总体1.N(μ1，σ12）-----------样本1（n1，，S1）总体2.N(μ2，σ22）-----------样本2（n2，，S2）总体3.N(μ3，σ32）-----------样本3（n3，，S3）已知：σ12=σ22=σ32，问：μ1=μ2=μ3？总离差平方和（SS），所有观察值之间的差异组内离差平方和（SSe），在因素的同一水平(同一个总体)内，样本的各观察值之间的差异组间利差平方和（SSA），在因素的不同水平(不同总体)下，各水平的均值之间的差异组间变异（不同药物效应引起+随机误差引起）总变异组内变异（随机误差引起）如不同药物的作用相同（H0：均值相等），则：F=组间变异/组内变异→=1在H0条件下，F虽不会正好等于1（抽样误差），但应当和1相差不大。F越大，其概率越小，当F↑以致其对应的概率P<0.05，则可认为不同药物的作用是不相同的。即样本均数之间的差异有统计学意义。方差分析的基本步骤(1)提出假设H0：三种药物对小白鼠镇咳作用相同H1：三种药物镇咳作用不完全相同(2)确定检验水准α=0.05(3)计算统计量SSe的自由度为N-k，即40-3=37，组内方差Se2=SSe/(N-k)SSA的自由度为k-1，即3-1=2，组间方差SA2=SSA/(k-1)统计量F=组间方差SA2/组内方差Se2，将结果整理为方差分析表(4)确定P值(5)作出推断结论在α=0.05水平上，拒绝H0，接受H1，认为三种药物平均推迟咳嗽时间不全相同。方差齐是方差分析的前提条件之一，因此先进行方差齐性检验（略）。方差分析中如果拒绝HO，接受H1，仅能认为多个水平间均数不全相等，但是哪些水平间差异显著，哪些不显著，方差分析不能作结论。因此需要进行两两间多重比较的检验法（略）。两因素试验的方差分析不作要求。第5节离散型变量总体参数的假设检验单个总体率的假设检验（略）两个总体率的假设检验（略）第6节列联表中独立性检验2×2列联表（四格表）中的独立性检验原理及步骤(1)建立假设H0：两种药物治疗消化道溃疡的疗效相同H1：两种药物治疗消化道溃疡的疗效不同(2)确立检验水准α=0.05(3)计算统计量在H0成立的前提下，假设π1=π2=PC（合计率），计算理论频数T两种药物治疗消化道溃疡4周后疗效处理愈合未愈合合计愈合率(%)洛赛克64(E11)21(E12)8575.29雷尼替丁51(E21)33(E22)8460.71合计1155416968.05合计愈合率=115/169，合计未愈合率=54/169，各个格子理论频数应为：E11=85*115/169，E12=85*54/169，E21=84*115/169，E22=84*54/169统计学家Pearson提出对R×C列联表使用统计量它服从自由度为f的2分布，其中f=(R-1)*(C-1)。(4)确定P值。20.05,1=3.84，得P<0.05。(5)做出推断结论按=0.05水准，拒绝H0，接受H1，差异有统计学意义。可以认为洛赛克的愈合率高于雷尼替丁。配对四格表的独立性检验、四格表的确切概率法不做要求。R×C列联表（四格表）中的独立性检验（略）参照单位法Ridit分析注意：等级资料应采用Ridit分析，不能采用2检验。用置信区间作显著性检验不作要求。第5讲相关与回归在某一现象（过程）中变量间的关系可能是确定性关系，也可能是非确定关系。就两个变量而言，如果对于一个变量的可能取值，另一个变量都有完全确定的值与之对应，则称这两个变量之间存在着函数关系。然而，像人的年龄与血压，身高与体重之间，显然不是函数关系。因为对于年龄相同的一个人群其血压有高有低乃是一个随机变量。我们称这类非确定性关系为相关关系。相关与回归分析的基本内容就是运用数学手段，在大量统计资料中找出这种相关性，并作定量分析。第1节相关散点图简单直观研究两变量间相关关系的方法，是将试验或观察得到的n对（x，y）的样本数据：（x1，y1）、（x2，y2）、…、（xn，yn），作为平面直角坐标系上点的坐标，将它们在方格坐标纸上描出，得到散点图，直观地说明直线相关的性质。相关系数总体相关系数如果变量X,Y的方差DX,DY存在且EX=μx，EY=μy，则定义为总体相关系数，分子称为X和Y的协方差。ρ具有以下性质：(1)-1≤ρ≤1(2)如果X和Y存在着线性相关关系，则|ρ|=1(3)如果X和Y独立，则ρ=0。注：性质(3)不可逆，当ρ=0时，应称X和Y是不线性相关的。样本相关系数设(x1,y1),(x2,y2),…,(xn,yn)是成对出现的变量X和Y的n对样本值，则定义为X和Y的样本相关系数，简称相关系数，其中r与ρ性质相同，是ρ的点估计。相关系数没有单位，取值范围为－1≤r≤1。r的符号表示相关方向，r＞0称为正相关，r＜0称为负相关。r的绝对值表示两个变量间直线关系的密切程度，r的绝对值为1表示完全相关。相关系数的绝对值接近1，表示两个变量间的直线关系愈密切。相关系数愈接近0，直线关系愈不密切。r＝0称为零相关，是指非线性相关或无相关，并不一定表示两个变量间不存在其他关系。相关系数的假设检验判断x和y是否线性相关，需要检验r是否来自ρ＝0的总体，称为相关系数的假设检验。总体相关系数ρ＝0，表示总体中两变量x和y无直线相关关系。因ρ是一个客观存在的理论值，一般无法获得，在实际问题中，常用r推断变量x和y有无直线相关关系。当r≠0时，因为存在抽样误差，不能认为ρ≠0，所以，判断x和y是否线性相关，需要检验r是否来自ρ＝0的总体.方法1：可直接用r作检验统计量，用自由度df＝n－2查相关系数r界值表，若│r│≥临界值rα，则P≤α，可按α检验水准拒绝H0，认为x与y之间有直线相关关系，ρ≠0。反之，若│r│＜rα，则P＞α，不能按α检验水准拒绝H0，从而认为x、y之间无直线相关关系。方法2：在H0：ρ＝0假设下，可用t检验判断样本相关系数r是否来自ρ＝0的总体，即t＝服从自由度df＝n－2的t分布。第2节线性回归方程一元线性模型对普通变量X的值x1,x2,…,xn，设随机变量Y相应的观察值为y1,y2,…,yn且诸点(x1,y1),(x2,y2),…,(xn,yn)排布成一条直线或接近一条直线，则可假定Y与X之间有如下关系：Y=a+bx+ε，其中，a，b为不依赖于X的位置参数，ε为随机误差且ε~N(0,σ2)。由正态分布的性质有Y~N(a+bx,σ2)。在X取某固定值x的前提下，Y的值并不固定，而是形成一个分布，称为X等于x时的条件分布。显然，条件分布的均数μy为一确定值，并且随着X的取值x不同而不同，所以我们可以把μy看成是x的函数μy=a+bx，这个方程就称为Y关于X的回归方程，X叫回归变量，b为回归系数。为方便起见，将μy记为（为y的预测值），于是=a+bx。线性回归方程回归分析就是要确定变量a和b的大小，可采用最小二乘法。设给定n个点(x1,y1),(x2,y2),…,(xn,yn)，那么，对于平面上任意一条直线L：y=a+bx；用数量[yi-(a+bxi)]2来刻划散点到直线L的远近程度。显然，这个量是a,b的二元函数，记为Q(a,b)=[yi-(a+bxi)]2。问题归结为求Q(a,b)的极小值。根据多元微分学中的极值原理，有：注：相关系数r与回归系数b的联系。故回归系数b乘以X和Y变量的标准差之比结果为相关系数r。即b*σx/σy=r例1：在线性相关的条件下，自变量X的均方差（标准差）为2，因变量Y的均方差（标准差）为5，而相关系数为0.8时，其回归系数为（）A.8B.0.32C.2D.12.5两者的取值范围不一样。回归方程的显著性检验前面只说明了寻找回归直线的方法，有该法可知任何一堆毫无相关的散点，都可找到最“接近”的一条直线，显然有些直线毫无实用价值。因此，必须引入一个数量性指标来描述两个变量线性关系的密切程度。选取统计量其中：U称为回归平方和，反映了总的变异中由于线性关系而引起的变化Q称为残差平方和，是由随机误差引起，Q越小越好。数学上可以证明，在假设H0:b=0下，统计量F服从自由度为1,n-2的F分布，当F>Fa时，则拒绝H0，即认为X与Y之间有显著的线性关系。第3节预测与控制建立了有统计学意义的回归方程以后，X变量=x0时，Y变量为a+bx0，这个值是估计值，为提高可靠性，可以在进行区间估计，包括预测和控制（由x0推算y0称为预测，由y0推算x0称为控制）。（略）多元线性回归与非线性回归不做要求。第4节半数有效量(ED50)和半数致死量(LD50)估计概率单位法（略）序贯法不做要求。第6讲正交试验设计对于单因素或两因素试验，因其因素少，试验的设计、实施与分析比较简单。但在实际工作中，常常需要同时考察3个或3个以上的试验因素，若进行全面试验，则试验的规模将很大，往往因试验条件的限制而难于实施。正交试验设计就是安排多因素试验、寻求最优水平组合的一种高效率试验设计方法。第1节正交表与交互作用基本原理正交试验设计是利用正交表来安排与分析多因素试验的一种设计方法。它是由试验因素的全部水平组合中，挑选部分有代表性的水平组合进行试验的，通过对这部分试验结果的分析了解全面试验的情况，找出最优的水平组合。例如，要考察乙醇浓度、溶剂用量和浸渍速度对姜黄素提取收率的影响。每个因素设置3个水平进行试验。A因素是乙醇浓度，设A1、A2、A33个水平；B是溶剂用量，设B1、B2、B33个水平；C因素为浸渍速度，设C1、C2、C33个水平。这是一个3因素3水平的试验，各因素的水平之间全部可能组合有27种。全面试验：可以分析各因素的效应，交互作用，也可选出最优水平组合。但全面试验包含的水平组合数较多，工作量大，在有些情况下无法完成。若试验的主要目的是寻求最优水平组合，则可利用正交表来设计安排试验。正交试验设计的基本特点是：用部分试验来代替全面试验，通过对部分试验结果的分析，了解全面试验的情况。本例，3个因素的选优区可以用一个立方体表示（图1），3个因素各取3个水平，把立方体划分成27个格点，反映在图上就是立方体内的27个“.”。若27个网格点都试验，就是全面试验，其试验方案如表1所示。正交设计就是从选优区全面试验点（水平组合）中挑选出有代表性的部分试验点（水平组合）来进行试验。图1中标有试验号的九个“(·)”，就是利用正交表L9(34)从27个试验点中挑选出来的9个试验点。即：(1)A1B1C1(2)A2B1C2(3)A3B1C3(4)A1B2C2(5)A2B2C3(6)A3B2C1(7)A1B3C3(8)A2B3C1(9)A3B3C2上述选择，保证了A因素的每个水平与B因素、C因素的各个水平在试验中各搭配一次。从图1中可以看到，9个试验点在选优区中分布是均衡的，在立方体的每个平面上，都恰是3个试验点；在立方体的每条线上也恰有一个试验点。9个试验点均衡地分布于整个立方体内，有很强的代表性，能够比较全面地反映选优区内的基本情况。正交表L8(27)，其中“L”代表正交表；L右下角的数字“8”表示有8行，用这张正交表安排试验包含8个处理(水平组合)；括号内的底数“2”表示因素的水平数，括号内2的指数“7”表示有7列，用这张正交表最多可以安排7个2水平因素。正交表的正交性（1）任一列中，各水平都出现，且出现的次数相等；（2）任两列之间各种不同水平的所有可能组合都出现，且对出现的次数相等；交互作用在多因素试验中，不仅因素对指标有影响，而且因素之间的联合搭配也对指标产生影响。因素间的联合搭配对试验指标产生的影响作用称为交互作用。第2节用正交表安排试验（不考虑交互作用）实例：为提高穿心莲内酯的提取收率，根据实践经验，对工艺中4个因素各取两个水平进行考察。（1）明确试验目的，确定试验指标对本试验而言，试验目的是为了提高穿心莲内酯的收率，所以试验指标为收率。（2）选因素、定水平，列因素水平表对本试验分析，影响穿心莲内酯收率的因素很多，经全面考虑，最后确定乙醇浓度、溶剂用量、浸渍温度和浸渍时间作为本试验的试验因素，分别记作A、B、C和D，进行四因素正交试验，各因素均取两个水平，因素水平表如下。（3）选择合适的正交表正交表的选择原则是在能够安排下试验因素和交互作用的前提下，尽可能选用较小的正交表，以减少试验次数。此例有4个2水平因素，可以选用L8(27)或L12(211)；因本试验仅考察四个因素对液化率的影响效果，不考察因素间的交互作用，故宜选用较小的L8（27）正交表。（4）表头设计是指把试验因素和要考察的交互作用分别安排到正交表的各列中去的过程。在不考察交互作用时，各因素可随机安排在各列上；若考察交互作用，就应按所选正交表的交互作用列表安排各因素与交互作用，以防止设计“混杂”。本例不考察交互作用，可将乙醇浓度(A)、溶剂用量(B)、浸渍温度(C)、浸渍时间(D）随机安排在L8(27)的列上。（5）编制试验方案，按方案进行试验，记录试验结果。把正交表中安排各因素的列（不包含欲考察的交互作用列）中的每个水平数字换成该因素的实际水平值，便形成了正交试验方案。说明：试验号并非试验顺序，为了排除误差干扰，试验中可随机进行；安排试验方案时，部分因素的水平可采用随机安排。（6）试验结果的数据分析直观分析正交试验结果的分析，要解决如下三个问题：一是确定因素各水平的优劣，二是分析因素的主次，三是确定最佳试验方案。因素主次：因素极差越大，说明因素的水平改变对试验结果影响也越大，表明该因素对试验指标的影响越重要。所以，因素的主次顺序为：CBDA。最佳试验方案：A1B1C2D2第3节用正交表安排试验（考虑交互作用）实例：前面的例子中，如果除了考察A,B,C,D4个因素外，还要考察交互作用A×B,A×C,B×C，试寻找最佳工艺条件。对有交互作用的试验，表头设计时因素不能任意安排，必须选择正交表的交互作用附表并按照此表把因素和交互作用安排在合适的列上，不能使不同的因素或交互作用同处一列，以避免造成混杂。一般先安排涉及交互作用多的因素，然后安排涉及交互作用少的，最后安排不涉及交互作用的。本例中应选择L8(27)的交互作用附表，如下：A×C,B×C的R值很小，可以认为是误差引起的。A×B的值很大，超过了A、B的单独作用，这是必须考虑A和B水平的最优搭配。可列出下面的二元表：A和B的4种搭配中，A2B1收率最高，于是，当有交互作用存在时，最佳试验方案应为A2B1C2D2。这个试验方案在所安排的8次试验中是没有的，这说明用正交表安排试验，虽然只做了全面试验的一部分，但也不会漏掉好的试验方案。试验结果的方差分析不作要求。例：用L8（27）表安排试验，如果考虑到3个因素A,B,C和它们的交互作用A×B,A×C,B×C，则因素C应该排在那一列（）A.3B.4C.6D.7【答案】B【解析】依据L8（27）的交互作用附表，第1、2列应安排A、B因素，第3列应安排A×B,因素C安排在第4列。祝同学们学习愉快！

                    本文档为【医药数理统计 PPT课件】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：￥30.0 已有0 人下载

立即下载

医药数理统计 PPT课件

你可能还喜欢