首页 第六章直线相关与回归

第六章直线相关与回归

举报
开通vip

第六章直线相关与回归null第六章 直线相关与回归第六章 直线相关与回归上海交通大学医学院 生物统计学教研室 张莉娜医学统计学学习目标学习目标掌握相关系数的含义、计算方法和应用 掌握一元线性回归的基本原理和参数的最小二乘估计方法 掌握回归方程有关的显著性检验 了解回归方程的比较和回归方程预测方面应用null前面描述性统计及假设检验只涉及到一个变量,如体重 、血压下降值等,而客观事物在发展过程中相互联系、相互影响,因而在临床研究中常常要研究两个或两个以上变量间的关系。 分析两个变量间的关系常用回归及相关分析的统计方法。 回归分析适用于...

第六章直线相关与回归
null第六章 直线相关与回归第六章 直线相关与回归上海交通大学医学院 生物统计学教研室 张莉娜医学统计学学习目标学习目标掌握相关系数的含义、计算方法和应用 掌握一元线性回归的基本原理和参数的最小二乘估计方法 掌握回归方程有关的显著性检验 了解回归方程的比较和回归方程预测方面应用null前面描述性统计及假设检验只涉及到一个变量,如体重 、血压下降值等,而客观事物在发展过程中相互联系、相互影响,因而在临床研究中常常要研究两个或两个以上变量间的关系。 分析两个变量间的关系常用回归及相关分析的统计方法。 回归分析适用于分析变量间的因果关系;用一个自变量的值来估计另一个应变量的值。 相关分析用于分析两变量间相互联系的密切程度及相关方向。概述第一节 相关关系第一节 相关关系事物之间的关系 → 变量间的关系 职业种类和收入之间的关系:job → income 治疗手段和治愈率之间的关系等等:treat → effect (这些都是二元的关系) 变量间的关系: 函数关系:完全确定性的关系 圆的周长与半径之间的关系:C = 2 R 相关关系:不存在完全确定性关系,不能用精确 数学 公式 小学单位换算公式大全免费下载公式下载行测公式大全下载excel公式下载逻辑回归公式下载 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 示 父亲身高与子女身高之间的关系:H ←→h变量间的函数关系变量间的函数关系设有两个变量 x 和 y ,变量 y 随变量 x 而变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量 是一一对应的确定关系 各观测点落在一条线上 y = f (x)C = 2 R变量间的相关关系变量x y间关系不能用函数关系精确表达 变量 y 的取值不能由另一个变量 x 唯一确定 当变量 x 取某个值时,变量 y 的取值可能有几个 各观测点分布在直线周围 变量间的相关关系H父 ←→h子y =? f (x)相关关系的度量相关关系的度量Pearson相关系数:线性相关系数或简称相关系数。它一般用字母 r 表示(总体相关系数为 ) 样本相关系数计算公式 Spearman 秩相关系数:它和Pearson相关系数定义有些类似,只不过在定义中把点的坐标换成各自样本的秩。它一般用字母 rs表示参见教材P230相关系数取值及其意义相关系数取值及其意义 r 的取值范围: -1~1 |r|=1,为完全相关: r = 0,不存在线性相关关系 -1 < r <0,为负相关 0 < r < 1,为正相关 |r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切rr =1,为完全正相关 r =-1,为完全负相关变量相关关系的类型变量相关关系的类型r = 0r = 1r = -10< r < 1-1 < r <0平行关系因果关系r = 0相关关系的图示相关关系的图示r = 0r = 1r = -10< r < 1-1 < r <0r = 0null第二节 相关系数相关分析的目的在于通过相关系数 r 来描述和度量两变量线性联系的程度和方向 样本相关系数不等于零,并不表示总体相关系数不等于零,还要作统计学显著性检验null 相关系数的计算x1和x2的离均差积和x的离均差平方和P108-109null 相关系数的显著性检验 (采用 t 检验) 样本相关系数的 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 误查t界值表,得P值nullP108例6.1 极谱法和碘量法测定水中溶解氧的含量,两法的测得值是否有相关性? → 两种方法测得值具有相关性线性相关的应用的注意事项线性相关的应用的注意事项1 有效范围: 仅限于原资料中X变量和Y变量的实测范围,超出此范围就不一定保持现有的直线相关关系。 2 合并问题: 对两个样本合并成一个样本进行相关分析,可能使两个都无相关性的样本合并后有相关性,也可能使两个有相关性的样本合并后无相关性。 无相关数据合并后有相关性有相关数据合并后无相关性null3.正确解释: 相关分析只是以相关系数来描述两个变量间线性相关的程度和方向,并不阐明事物间存在联系的本质,也不是两事物间存在联系的证据。 要阐明两事物间的本质联系,必须凭专业知识从理论上加以论证 把两个毫无关系的事物放在一起作相关分析是毫无意义的。同样,作回归分析也要有实际意义 相关分析的应用的注意事项变量相关关系的类型变量相关关系的类型r = 0r = 1r = -10< r < 1-1 < r <0平行关系因果关系r = 0null 第三节 直线回归方程目的:回归分析找出确定变量x与y之间依存关系的数学关系式即(直线)回归方程,利用方程由自变量(因)来预测、控制因变量(果)。 任务:从一组样本数据出发,揭示出呈因果关系的相关变量间的联系形式,建立回归方程:y为应变量(dependent variable) x为自变量(independent variable) a为截距(intercept):x等于0时相应的y的均数估计值 b为回归系数(regression coefficient):x每改变一个单位, 随之y平均改变b个单位。 E( y ) = α+  xnully =5.0+1.5x =4.22+0.20x体重心脏横径null 设有n对(x, y)的观察值,为了直观地看出x和y间的变化趋势,可将每一对 观 测 值 在 平 面直角坐标系描点,作出散点图(直观、定性) 如果散点的分布呈直线趋势,则可设法求出直线方程(根据观测值将内在关系定量地表达出来) 通常用最小二乘法:各点与该直线的纵向距离的平方和为最小 用最小二乘法拟合的直线来代表x与y之间的关系,此直线与实际数据的误差比其他任何直线相应的误差都要小nullxy(xn , yn)(x1 , y1)(x2 , y2)( xi , yi ) P最小二乘法 …公式(6.3) …公式(6.4)先由(6.3)式求得b,再由(6.4)式求得a,就得出直线回归程:null回归系数的统计学检验从样本资料中算得的回归系数b,也有抽样误差,因此需作统计学显著性检验,检验其是否是回归系数为零的总体中抽得的。 H0:β= 0 H1:β≠0。 当拒绝H0时,认为总体回归系数不为零,亦即x与y间存在线性关系,一元直线回归方程有统计学意义。 统计学检验可有两种方法: t 检验法:回归系数的显著性检验 方差分析法:回归方程的显著性检验在一元线性回归中二者等价回归系数的显著性检验回归系数的显著性检验样本统计量 的抽样分布null t 检验法样本回归系数的标准误剩余标准差 表示应变量y在扣除自变量x的线性影响后的离散程度,反映实际观察值在回归直线周围的分散状况,从另一个角度说明了回归直线的拟合程度。null方差分析法离差平方和的分解离差平方和的分解因变量 y 的取值是不同的,y 取值的这种波动称为变异。变异来源于两个方面 由于自变量 x 的取值不同造成的 除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响 对一个具体的观测值来说,变异的大小可以通过该实际观测值与其均值之差 来表示null回归平方和:误差平方和:总离差平方和:三个平方和的意义三个平方和的意义SS总= ,ν=n-1 y 的离均差平方和 (total sum of squares), 未考虑x与y的回归关系时的总变异。 SS回= ,ν=1 为回归平方和 (regression sum of squares),由于 x 与 y 的直线关系而使 y 变异减小的部分,即总变异中,由于x值的不同而导致 的不同,是可以用 x 解释的变异部分。SS回越大,回归效果越好。 SS误= , ν=n-2 亦称剩余平方和 (residual sum of squares), SS剩。考虑回归之后y的随机误差,是x 对y 的线性影响之外的一切因素对 y 的变异,即总变异中无法用x解释的部分。 SS误即SS剩越小,回归效果越好。 null总的自由度:n-1 (总例数减1) 回归自由度:1 (自变量个数) 误差自由度:n-2 (总自由度-回归自由度) 查方差分析用的F界值表,得P值df1=1, df2=n-2nullP110 例6.2 研究正常男性年龄与运动后最大心率的关系,求直线回归方程。 决定系数 r 2决定系数 r 21. 回归平方和占总离差平方和的比例。 意义:应变量y变异被自变量x所能解释的部分的大小。 反映回归直线的拟合程度,即回归方程估测可靠程度的高低。 取值范围在 [ 0 , 1 ] 之间。 r2 1,说明回归方程拟合的越好;r20,说明回归方程拟合的越差。 决定系数等于相关系数r的平方,即r2 = (r)2null 1. 回归分析要有实际意义,要从专业理论对两种现象间的内在联系有所认识。 2.在进行直线回归前应绘制散点图,有直线趋势时,才适宜作直线回归分析。散点图还能提示资料有无异常点。 3.直线回归方程的适用范围一般以自变量的取值范围为限,避免任意外延。直线回归的应用的注意事项null直线回归与相关的关系同一资料: 对同一组资料作回归和相关分析,相关系数r与回归系数b的正负号一致,而且r与b的假设检验完全等价: tb=tr 回归解释相关:决定系数=(相关系数)2当SS总固定不变, SS回∝r 2 ;回归平方和是由于引入了相关变量而使总平方和减少的部分。r 2 越接近1,说明相关关系实际意义越大。null回归分析的正确应用回归分析的正确应用回归系数是有单位的,不能根据 b 的大小判断回归关系的密切程度。 应用条件(LINE): (1) 线性(linear):X-Y (2) 独立(independent):各观察值之间独立 (3) 给定X时,Y正态分布(normal):残差 (4) 等方差(equal variance):方差齐性给定X时,Y是正态分布、等方差示意图给定X时,Y是正态分布、等方差示意图给定X时,Y是正态分布、不等方差示意图给定X时,Y是正态分布、不等方差示意图利用回归方程进行估计和预测(了解)利用回归方程进行估计和预测(了解)根据自变量 x 的取值估计或预测因变量 y的取值(给定值x0 ,根据回归方程得到因变量 y 的一个估计值) 估计或预测的类型 点估计 y 的平均值的点估计 y 的个别值的点估计 在点估计条件下,平均值的点估计和个别值的的点估计是一样的(但在区间估计中则不同)利用回归方程进行估计和预测 (区间估计)利用回归方程进行估计和预测 (区间估计)点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计 对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间 区间估计有两种类型 区间估计 y 的平均值的置信区间估计 y 的个别值的预测区间估计影响区间宽度的因素影响区间宽度的因素1. 置信水平 (1 - ) 区间宽度随置信水平的增大而增大 2. 数据的离散程度 (s) 区间宽度随离散程度的增大而增大 3. 样本容量 区间宽度随样本容量的增大而减小 4. 用于预测的 xp与x的差异程度 区间宽度随 xp与x 的差异程度的增大而增大置信区间、预测区间、回归方程置信区间、预测区间、回归方程yx null第四节 直线相关与回归的 SAS程序SAS的CORR过程可用于求变量之间的线性相关系数及偏相关系数。 SAS的REG过程可用于各种线性回归分析,包括多元回归(见第七章),逐步回归和最优子集回归(见第八章)等。SAS程序SAS程序1. Proc plot; 2. plot x1*x2=‘*’; 3. run; 1. proc corr ; * pearson为默认选项; 2. var x2 ; 3. with x1 ; 4. * var x2 x1 ; * 可选:代替line2-3; 5. run; 1. proc reg; * corr 选项将输出两两相关矩阵; 2. model y=x ; 3. * plot y*x =‘*’; * 可选,输出散点图 4. run ;null小结null第五节 过定点的直线回归(了解) 医学研究中在拟合直线时,除了要求与观察点尽量接近外,还常常要求必须经过某定点(m,n)。 例如在光电比色、荧光分析、火焰光度测定以及同位素测定等实验方法绘制标准直线时就常有这样的要求。 此定点也可以是(m,0),(0,n)或(0,0)等,尤以(0,0)为最常见。 计算公式和实例见第116页。第六节 两个直线回归方程的比较(了解)第六节 两个直线回归方程的比较(了解) 在实际工作中,常要比较两条回归直线的是否不同,回归系数和截距是直线回归的重要参数估计,因而就是分别比较这两个参数是否不同。 如果回归系数不同,则意味着是两条不同的直线,无须再比较截距,如果回归系数相同,则表明这两条直线是平行的,下一步就需要比较截距,若截距是不同的,则意味照着他们是不同的直线回归方程,若截距是相同的,则说明两个直线回归方程描述的是同一条直线,由于抽样误差,而得到不同的参数估计,此时,可以将两条直线回归的方程的数据合起来,计算共同的回归系数和截距。 因而对于直线回归方程的比较,首先是要比较回归系数,然后再决定是否要比较截距。第六节 两个直线回归方程的比较(了解)第六节 两个直线回归方程的比较(了解) 例6.4 下表为用直接记录法和闭合胶囊法测定兔耳收缩压和动脉收缩压关系的测定记录。试分别求用两法测定的兔耳收缩压推算动脉收缩压的回归方程式,并检验两回归方程有无差异?null ──────────────────────────────── 直接记录法 闭合胶囊法 耳收缩压x1 动脉收缩压y1 耳收缩压x2 动脉收缩压y2 ──────────────────────────────── 68 76 101 78 68 84 101 82 82 92 110 98 88 98 114 97 90 98 116 93 94 106 112 112 ...... …… 160 161 174 151 170 160 ────────────────────────────────表6.6 用两种方法测定免耳收缩压(mmHg) 和动脉收缩压(mmHg)的测定记录第六节 两个直线回归方程的比较(了解)第六节 两个直线回归方程的比较(了解)1 使用回归建立各自的回归方程 2 建立假设检验 (1)建立回归系数的假设检验: H0: 或两条回归直线平行。 H1: 或两条回归直线不平行。 (2)建立截距假设检验 : H0: 或两条回归直线的截距相等。 H1: 或两条回归直线的截距不相等。nulldata b; do group=1 to 2; input n@@; do i=1 to n; input x y @@; output; end; end; cards; 18 68 76 68 84 82 92 88 98 90 98 94 106 95 108 96 110 98 105 102 112 110 116 112 117 114 120 114 120 115 124 118 125 150 160 160 161 19 101 78 101 82 110 98 114 97 116 93 112 112 115 108 116 108 117 106 121 116 123 110 134 116 134 119 136 120 136 126 142 123 170 152 174 151 170 160 ; run;nullproc sort data=b;by group;run; proc reg data=b; by group; model y=x; plot y*x='*'; run; proc glm data=b; class group; model y=x group x*group; run; proc glm data=b; class group; model y=x group; run;回归模型的类型回归模型的类型扩展扩展一元线性回归 多元线性回归 Logistic回归 Cox回归
本文档为【第六章直线相关与回归】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_480799
暂无简介~
格式:ppt
大小:487KB
软件:PowerPoint
页数:0
分类:
上传时间:2013-07-06
浏览量:20