首页 7 第九章 直线相关与直线回归

7 第九章 直线相关与直线回归

举报
开通vip

7 第九章 直线相关与直线回归双变量的两种选取方法 双变量的两种选取方法 1、一个变量是选定的(可以精确地测量或严格控制),称为选定变量x,另一个变量是随机的(有不可控制的偶然因素影响),称为随机变量y。例如:儿童的年龄是选定变量,身高则是随机变量。选定变量x值处存在着随机变量y值的总体,常常是x值处y服从正态分布; 2、x、y都是随机变量,则存在着一个双变量(x、y)总体。如果在任意的x值处y服从正态分布,在任意的y值处x服从正态分布,则x、y称为双变量正态分布。例如:某一个儿童年龄组的身高与体重是双变量正态分布。 双变量研究中存在的两种关系...

7 第九章  直线相关与直线回归
双变量的两种选取方法 双变量的两种选取方法 1、一个变量是选定的(可以精确地测量或严格控制),称为选定变量x,另一个变量是随机的(有不可控制的偶然因素影响),称为随机变量y。例如:儿童的年龄是选定变量,身高则是随机变量。选定变量x值处存在着随机变量y值的总体,常常是x值处y服从正态分布; 2、x、y都是随机变量,则存在着一个双变量(x、y)总体。如果在任意的x值处y服从正态分布,在任意的y值处x服从正态分布,则x、y称为双变量正态分布。例如:某一个儿童年龄组的身高与体重是双变量正态分布。 双变量研究中存在的两种关系 1、相互关系(互依关系) 两个变量是平等的,可令任一变量为x,另一变量为y,来研究两个变量的彼此关系或彼此影响,可采用直线相关分析。一般来说,直线相关分析只适用于双变量正态分布资料; 2、因果关系(依存关系) 两个变量是不平等的,一个为自变量x,另一个为因变量y,来研究x对y的作用或y对x的依赖,可采用直线回归分析。一般来说,直线回归分析可适用于上述两种变量的选取。 第一节 直线相关分析 直线相关 (linear correlation) 当一个变量x由小到大变化,另一个变量y亦相应地由小到大或由大到小变化,两个变量的散点图呈直线趋势,那么,两个变量间存在直线关系。这种直线关系,或分析这种直线关系的理论或方法,统称为直线相关。两变量间直线相关的密切程度和方向,用直线相关系数来 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 示。 大白鼠进食量和增加体重的关系 进食量 增加体重 (x) (y) x2 y2 xy (1) (2) (3) (4) (5) (6) 1 820 165 672400 27225 135300 2 780 158 608400 24964 123240 3 720 130 518400 16900 93600 : : : : : : 8 679 145 461041 21025 98455 9 639 120 408321 14400 76680 10 820 158 672400 24964 129560 合计 7736 1543 6060476 242319 1210508 直线相关分析的步骤 1、散点图(相关图):观察各个散点有无直线趋 势,若有直线趋势,可进行直线相关分析。 2、计算五个基本数字 Σx Σx2 Σy Σy2 Σxy 3、求相关系数r r=Σ(x-x)(y-y)/√Σ(x-x)2Σ(y-y)2 4、相关系数r的假设检验 ⑴查表法 ⑵t检验 t=|r-0|/Sr Sr=√(1-r2)/(n-2) 5、根据专业知识作出结论。 相关系数的计算 相关系数及其意义 (correlation coefficient) 1.定义:相关系数是描述呈双变量正态分布的两个变量直线相关的密切程度和方向的指标。 2.符号:样本相关系数用r表示,总体相关系数用ρ表示,没有单位,取值范围从-1到+1。 3.意义:在r值有显著性意义的条件下, |r|值愈接近1 ,两个变量的关系愈密切; |r|值愈接近0,两个变量的关系愈不密切。r>0为正相关(positive correlation),表示y随x增加而增加;r<0为负相关(negative correlation),表示y随x增加而减少。当n>100时,|r|≥0.7称为高度相关;0.7>|r|≥0.4称为中度相关; |r|<0.4称为低度相关。 相关系数 (correlation coefficient) 相关系数是描述呈双变量正态分布的两个变量直线相关的密切程度和方向的指标,样本相关系数用r表示,总体相关系数用ρ表示, r值没有单位,取值范围从-1到+1之间。在r值有显著性意义的前提条件下,|r|值愈接近1 ,两个变量的关系愈密切; |r|值愈接近0,两个变量的关系愈不密切。r值为正称为正相关(positive correlation),表示因变量y随自变量x增加而增加;r值为负称为负相关(negative correlation),表示因变量y随自变量x增加而减少。当n>100时,|r|≥0.7称为高度相关;0.7>|r|≥0.4称为中度相关; |r|<0.4称为低度相关。 相关系数的假设检验 上例中的相关系数r等于0.9395,似乎说明10只大白鼠进食量(g)和增加体重(g)之间存在相关关系。但是,这10只大白鼠只是总体中的一个样本,由此得到的相关系数会存在抽样误差。因为,总体相关系数()为零时,由于抽样误差,从总体抽出的10只,其r可能不等于零。所以,要判断该样本的r是否有意义,需与总体相关系数=0进行比较,看两者的差别有无统计学意义。这就要对r进行假设检验,判断r不等于零是由于抽样误差所致,还是两个变量之间确实存在相关关系。 相关系数r 的t 检验 样本相关系数r≠0的原因: ① 由于抽样误差引起,总体相关系数ρ=0 ② 存在相关关系,总体相关系数ρ≠0 方法: 总体相关系数ρ的可信区间 1、相关系数变换为Z 值,使之近似呈正态分布 2、Z 值的标准误SZ 3、Z 值的可信区间 Z 值的95%可信区间:Z±1.96SZ Z 值的99%可信区间:Z±2.58SZ 4、Z 值的可信区间转换为总体相关系数ρ的可 信区间,分别将Z 值可信区间的上下限转换 为ρ值可信区间的上下限 直线相关分析中应注意的问题 1、两个变量间毫无实际意义时不要作直线相关分析; 2、两个变量间呈线性关系时,要根据专业知识分辨是伴随关系还是因果关系,从而确定作直线相关分析或作直线回归分析; 3、相关分析要求资料x、y两变量都是来自正态总体的随机变量,x和y可以互换位置,不分自变量和因变量; 4、不要把r的显著性水平误解为相关的密切程度。小样本相关系数r经假设检验只能推断两变量间有无直线相关存在。只有当大样本(n>100)时,|r|≥0.7称为高度相关;0.7 >|r|≥0.4称为中度相关,|r|<0.4称为低度相关。 第二节 直线回归分析 直线回归 (linear regression) 直线回归是处理两变量(其中至少一个是随机变量)间线性依存关系的一种统计方法。根据各对观察值可求得一直线方程,以说明两变量间依存关系的数量关系。图中,各观察点并不完全在一条直线上,与数学上完全确定的函数关系不同,这种直线方程具有某种不确定性,称为直线回归方程。 直线回归 (linear regression) 1.定义:直线回归又称简单回归(simple regression),是用于研究两个连续性变量X和Y之间线性依存变化的数量关系。其中X为自变量(independent variable),Y为依赖于X的因变量(dependent variable),也称为反应变量(response variable)。两变量之间有数量依存关系,但非一一对应的函数关系。如年龄与身高、年龄与体重的关系,由于多种因素的影响,它们之间不是严格的函数关系,不能用函数方程表达,为了区别于数学上两变量间的函数方程,称这种关系式为直线回归方程,这种关系为直线回归。 2.直线回归分析的任务:找出最适合的直线回归方程,以确定一条最接近于各实测点的直线,来描述两个变量之间的回归关系。 直线回归分析的步骤 1、散点图(相关图):观察各个散点有无直线趋势,若有直线趋势,可进行直线回归分析。 2、计算五个基本数字: Σx Σx2 Σy Σy2 Σxy 3、求直线回归方程: ŷ=a+bx b=Σ(x-x)(y-y)/Σ(x-x)2 a=y-bx 4、回归系数的假设检验 ⑴查表法 ⑵ t检验 t=|b-0|/Sb 5、根据专业知识作出结论。 直线回归参数的含义 a称为回归直线在纵轴上的截距(intercept)。 a>0,表示直线与纵轴的交点在原点的上方; a<0,则交点在原点的下方; a=0,则回归直线通过原点; b称为回归系数(regression coefficient),即直 线的斜率(slope)。 b>0,表示y随x增大而增大; b<0,表示y随x增大而减小; b=0,表示直线与轴平行,即y与x无直线关系。 回归参数a和b的计算 根据数学上的最小二乘法原理,使直线上各估计值 与实测值Y 之差的平方和 最小(即各实测点至回归直线的纵向距离平方和为最小),可推导出a和b 的计算公式: 回归系数及其意义 ( regression coefficient) 1.定义:回归系数又称为直线回归方程的斜率(slope)或坡度,表示因变量y依赖于自变量x的直线变化的数量关系。 2.符号:样本回归系数用b表示,总体回归系数用β表示,回归系数含有单位。 3.意义:在b有显著性意义的前提条件下,表示x每增加一个单位时,y平均增加(当b>0时)或平均减少(当b<0时)b个单位。 回归系数 (regression coefficient) 回归系数又称为直线回归方程的斜率(slope)或坡度,表示因变量y依赖于自变量x的直线变化的数量关系。样本回归系数用b表示,总体回归系数用β表示,回归系数含有单位。在b有显著性意义的前提条件下,表示x每增加一个单位时,y平均增加(当b>0时)或平均减少(当b<0时)b个单位。 与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。所以,需要对样本的回归系数b进行假设检验,以判断b是否从总体回归系数β为零的总体中抽得。为了判断抽样误差的影响,需对回归系数进行假设检验。总体回归系数一般用β表示。 样本回归系数的假设检验 样本回归系数b≠0的原因: ① 由于抽样误差引起,总体回归系数β=0 ② 存在回归关系,总体回归系数β≠0 检验方法: ① t检验 ② 查表法 回归系数b的t检验 直线回归方程的建立 回归直线的描绘 根据求得的回归方程,可以在自变量X 的实测范围内任取两个值,代入方程中,求得相应的两个Y 值,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。回归直线一定经过(0,a ),( )。这两点可以用来核对直线绘制是否正确。 总体回归系数β的可信区间 1.标准估计误差(固定x时,y的标准 差) Sy.x=√Σ(y-ŷ )2/(n-2) 2.样本回归系数b的标准误 Sb= Sy.x /√Σ(x-x)2 3.总体回归系数β的可信区间 β的95%可信区间:b±t0.05(n-2)Sb β的99%可信区间:b±t0.01(n-2)Sb 直线回归分析的用途 1.回归系数b有显著性意义的前提条件下,利用直线回归方程描述应变量y依赖自变量x变化而变化的数量关系。 例如:儿童体重依赖年龄变化而变化的数量关系; 2.根据容易测定的变量值估计难以测定的变量值。 例如:以人的体重估计人的体表面积; 3.利用直线回归方程进行预测预报,由已知变量(预报因子x)预测将来的未知变量(预报量y)。 例如:由父母的身高预测子女将来的身高; 4.利用直线回归方程进行统计控制,即利用回归方程进行逆估计。 例如:把车流量(x)与汽车排出的某种毒物(y)建立直线回归方程,若要求y在一定的波动范围内(卫生标准以下)可通过控制x的取值来实现; 直线回归分析中应注意的问题 1、两个事物间毫无实际意义时不要作直线回归分析; 2、回归分析前首先绘制散点图,观察两变量间散点有无线性趋势,有无异常点、高杠杆点或强影响点存在; 3、考虑建立直线回归模型的基本假定,满足线性(linear)、独立(independent)、正态(normal)、方差相等(equal variance)4个条件; 4、 x选定,y服从正态分布的双变量,作直线回归分析称Ⅰ型回归,如标准曲线;x、y服从双变量正态分布的资料,作直线回归分析称Ⅱ型回归; 5、双变量正态分布资料作直线回归分析,由x推算y,或由y推算x,所得回归系数b及回归方程不同,因此,自变量x和应变量y应根据专业知识来确定; 6、绘制的回归直线应在x的实测值范围内或实际可用的范围内使用,不能任意将直线延长,因为直线延长后不一定呈直线关系。 决定系数的意义 决定系数:相关系数的平方,用r2表示,它反 映应变量y的总变异中,可用回归关系解释的比例。 直线回归与直线相关的区别 1.意义 :相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。 2、在资料要求上:直线回归适用于y服从正态分布,x是可以精确测量和严格控制的变量,称为Ⅰ型回归;也适用于x、y服从双变量正态分布资料,可以计算两个回归方程,称为Ⅱ型回归;直线相关分析只适用于x、y服从双变量正态分布资料; 3.在应用上:说明两变量间依存关系的数量关系时采用直线回归,说明两变量间的相互关系时采用直线相关。实际工作中,应根据专业知识来确定是作直线相关分析(相互关系)还是作直线回归分析(因果关系)。 4.研究性质:相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。 5.相关系数r与回归系数b的解释上:b和r的绝对值没有直线联系,b有单位,而r无单位。 r的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。b的绝对值越大,回归直线越陡,说明当X变化一个单位时,Y的平均变化就越大。反之也是一样。 直线回归与直线相关的联系 1. 方向一致:对一组数据若同时计算r与b,它们的正负号是一致的 2. 假设检验等价:对同一样本,r和b的假设检验得到的t值相等,故同一组数据的r和b的假设检验是等价的,可用查表法进行r的假设检验来代替b的假设检验。若x.y服从双变量正态分布,一般是先作直线相关分析,需要时再作直线回归分析。 3.用回归解释相关:r的平方称为决定系数。 复习思考题、作业题 1.双变量资料的两种类型和两种关系? 2.相关系数的意义及其计算方法? 3.直线相关分析时的注意事项? 4.回归系数的意义及其计算方法? 5.直线回归分析的主要用途? 6.直线回归分析的注意事项? 7.直线相关和直线回归分析的区别和联系? 8. 直线相关和直线回归分析时,为什么要对 r和b进行假设检验?
本文档为【7 第九章 直线相关与直线回归】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_482480
暂无简介~
格式:doc
大小:70KB
软件:Word
页数:9
分类:其他高等教育
上传时间:2010-10-20
浏览量:71