首页 数据关联的探索PPT参考课件

数据关联的探索PPT参考课件

举报
开通vip

数据关联的探索PPT参考课件数据关联的探索**目录第一节:数据的关联第二节:散点图第三节:相关第四节:回归现象第五节:相关与回归的陷阱01020304050607第六节:分类变量的相关第七节:关联与因果*重点难点 散点图的应用 正确描述不同类型数据的相关关系 直线回归的正确应用 回归方程的建立、解释与评价 关联和因果的判断*第一节数据的关联*1.在研究学习努力程度与学习成绩的关联时,这里涉及的两个变量分别为学习努力程度和学习成绩,我们需要考虑几个问题:(1)学习努力程度与学习成绩是否存在关联,是什么关联方向,关联强度多大。(2)努力学习能在多...

数据关联的探索PPT参考课件
数据关联的探索**目录第一节:数据的关联第二节:散点图第三节:相关第四节:回归现象第五节:相关与回归的陷阱01020304050607第六节:分类变量的相关第七节:关联与因果*重点难点 散点图的应用 正确描述不同类型数据的相关关系 直线回归的正确应用 回归方程的建立、解释与 评价 LEC评价法下载LEC评价法下载评价量规免费下载学院评价表文档下载学院评价表文档下载 关联和因果的判断*第一节数据的关联*1.在研究学习努力程度与学习成绩的关联时,这里涉及的两个变量分别为学习努力程度和学习成绩,我们需要考虑几个问题:(1)学习努力程度与学习成绩是否存在关联,是什么关联方向,关联强度多大。(2)努力学习能在多大程度上提高学习成绩。(3)两者的关联可能受到其他一些因素的影响或干扰,比如学校的教学质量。第一节数据的关联*2.统计学上定量描述两变量的关联时需考虑:(1)两变量是否真的存在关联。(2)两变量的关联方向和关联强度。(3)两变量间的数量依存关系。(4)两变量的关联关系中是否受到其他因素的影响和干扰。第一节数据的关联*第二节散点图*1.制作散点图利用平面坐标显示两个定量变量之间的关系,其中一个变量对应横轴,另一个变量对应纵轴,根据每个观测单位的两个变量值可确定该点的坐标。例1脱氧雪腐镰刀菌烯醇(deoxynivalenol,DON)是粮食中常见的一类污染性真菌毒素。为了探索粮食中DON含量与患者骨关节炎得分(osteoarthritispoints,OAP)的关系,在主食面粉和大米的地区测量患者骨关节炎得分,并测量主食样品中DON含量(μg/g),数据见下表,绘制散点图。(一)图的解释第二节散点图*(一)图的解释第二节散点图38名大骨节病患者OAP(分)与粮食中DON含量(μg/g)* 患者编号 DON含量 OAP 患者编号 DON含量 OAP 患者编号 DON含量 OAP 1 0.00 14.15 14 187.89 7.20 27 289.54 11.18 2 0.00 11.13 15 74.78 9.27 28 306.31 19.10 3 0.00 7.25 16 74.67 14.10 29 327.23 11.15 4 0.00 5.19 17 86.09 9.26 30 358.32 11.13 5 0.00 4.15 18 75.89 2.20 31 389.22 19.12 6 0.00 3.29 19 116.33 5.27 32 419.35 20.05 7 0.00 2.26 20 128.58 5.26 33 426.85 21.33 8 0.00 0.01 21 178.42 9.19 34 426.90 19.18 9 28.76 3.27 22 177.38 13.24 35 458.04 17.09 10 48.54 3.34 23 204.63 16.15 36 468.34 20.01 11 57.94 4.28 24 215.99 14.16 37 577.52 24.24 12 69.18 7.20 25 206.90 0.03 38 588.95 19.06 13 225.41 14.16 26 247.29 5.17 — — —(一)图的解释第二节散点图患者OAP和粮食中DON含量的散点图*2.评价散点图(1)观察图的总体趋势和明显偏离该趋势的观测单位。(2)通过散点图的总体趋势来呈现关联的形式、方向和密切程度。(一)图的解释第二节散点图*第二节散点图(一)图的解释3.散点图解释(1)散点呈现线性趋势。(2)两变量同时增大或减小,即呈正相关。患者OAP和粮食中DON含量带直线的散点图*第三节相关*(一)直线相关系数第三节相关。*大骨节病中OAP和DON含量的相关系数的计算如下:(一)直线相关系数第三节相关*(一)直线相关系数第三节相关**(一)直线相关系数第三节相关不同r值的线性关系示意图**(一)直线相关系数第三节相关*(二)秩相关系数第三节相关**例2缺铁性贫血是儿童常见营养性疾病之一,其高发在6个月至2岁。现研究农村地区贫血状况,关注某村21例6个月~1.5岁患儿的血红蛋白含量与贫血体征的关系,其中贫血体征分为:阴性(-)、出现(+)、中度(++)、重度(+++),具体数据见下表,现对二者做相关 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 。(二)秩相关系数第三节相关贫血患儿的血红蛋白含量(g/L)和贫血体征* 患儿编号 血红蛋白含量x 秩次p 贫血体征y 秩次q 患儿编号 血红蛋白含量x 秩次p 贫血体征y 秩次q (1) (2) (3) (4) (5) (1) (2) (3) (4) (5) 1 50 1 +++ 20.5 12 85 9.5 ++ 16.5 2 58 3 ++ 16.5 13 66 5 + 11.5 3 61 4 + 11.5 14 103 15 - 5 4 73 8 - 5 15 52 2 +++ 20.5 5 88 11 ++ 16.5 16 93 13 - 5 6 91 12 ++ 16.5 17 67 6 + 11.5 7 111 16 - 5 18 118 17 - 5 8 123 18 - 5 19 85 9.5 ++ 16.5 9 135 20 - 5 20 129 19 - 5 10 138 21 - 5 21 72 7 + 11.5 11 96 14 ++ 16.5 合计 ― 231 ― 231*(二)秩相关系数第三节相关最后,需要特别注意的是,相关不区分解释变量和反应变量。**第四节回归现象*(一)回归直线的拟合第四节回归现象*(一)回归直线的拟合第四节回归现象*(一)回归直线的拟合第四节回归现象*例2续已知例2数据中38个对象骨关节炎得分OAP(y)和粮食中DON含量(x)的均数和 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 差及两变量之间的相关系数,通过最小二乘法得到的回归直线的斜率为(一)回归直线的拟合第四节回归现象截距最后得到回归直线的方程为*3.注意事项(1)理清相关系数和斜率之间的关系,从计算公式、数量关系和实际意义等方面。(2)回归中需要明确区分反应变量和解释变量。(一)回归直线的拟合第四节回归现象*(二)回归方程的解释和残差第四节回归现象*(二)回归方程的解释和残差第四节回归现象*图所示是书中例2-1和例2-4数据回归分析后的散点图,可见左图数据点无规律散布于0水平线周围,说明拟合效果尚可,而右图散点呈现U型散布,说明拟合效果不佳。(二)回归方程的解释和残差第四节回归现象例2-1和例2-4散点图*3.注意事项(1)最小二乘法回归直线的斜率和截距取决于测量值的单位,不能仅凭它们的大小判断其影响大小。(2)用回归直线进行预测时,需注意回归直线概括了整体趋势,给出的预测值也是对整体趋势的一个预测,并不一定完全准确。(二)回归方程的解释和残差第四节回归现象*(三)决定系数与相关第四节回归现象*第五节相关与回归的陷阱*(一)离群点与强影响点第五节相关与回归的陷阱*(二)观测值范围第五节相关与回归的陷阱* 有些时候通过散点图,我们发现两变量间存在某种趋势,但是这种趋势不是线性的。这时可以采用数据转换将非线性数据转换后得到线性关联。(三)非线性关联第五节相关与回归的陷阱*例3某环境检测部门测得某地距污染源的距离和中心线上大气中氰化物平均浓度(在不同时点测量各点的氰化物浓度并计算各点平均值),数据如表所示。排放源下风向中心线上的平均浓度随距离的增大而减小,最高值在中心线50米附近。用恰当的回归方程反映中心线上氰化物平均浓度随距污染源的距离变化而变化的关系。(三)非线性关联第五节相关与回归的陷阱某地距污染源的距离(m)和中心线上大气氰化物平均浓度(mg/m3)数据* 点编号 距污染源距离 氰化物平均浓度 点编号 距污染源距离 氰化物平均浓度 1 50 0.681 12 188 0.254 2 63 0.559 13 200 0.177 3 75 0.489 14 213 0.163 4 88 0.472 15 225 0.133 5 100 0.453 16 250 0.112 6 113 0.443 17 275 0.120 7 125 0.352 18 300 0.097 8 138 0.301 19 325 0.088 9 150 0.269 20 350 0.057 10 163 0.258 21 375 0.043 11 175 0.231 22 400 0.033(三)非线性关联第五节相关与回归的陷阱中心线上大气氰化物平均浓度与距污染源距离的散点图(A)和残差图(B)*(三)非线性关联第五节相关与回归的陷阱 在图(A)中我们可以观察到随距污染源距离增加,中心线上的大气氰化物平均浓度的改变速度越来越小,图(B)为相应的残差图,其结构所描述的是简单直线关系的残差形态,图(B)整体上呈曲线并表现出一定的规律,所以判断直线回归不适合此据。 这里将原始值进行对数转换(logtransformation)后,替代原始值进行分析,如下图。中心线上大气氰化物平均浓度与距污染源距离对数值的关系* 探索两变量间的关联性时,单独分析发现存在关联或无关联,但以变量的某种属性进行分层分析即引入第三变量分层时,再分析原来两个变量的关系,原有的关联会在某些层内发生某些变化甚至方向相反,这个第三变量就是潜在影响变量。(四)潜在影响变量第五节相关与回归的陷阱*例2续根据大骨节病发生情况将地区分为:东部(开始监测时病情很平稳,在17年的监测过程中没有大的变化),中部(开始监测时病情较严重而活跃,但在监测过程中持续下降,其间无明显反弹)和西部病区(甘肃、陕西、青海和西藏地区,其特征为病情严重而活跃),进一步可探讨东中西三个地区的粮食中DON含量的关系(数据见下表),增加区域信息后的数据如下:(四)潜在影响变量第五节相关与回归的陷阱*(四)潜在影响变量第五节相关与回归的陷阱38名大骨节病患者OAP(分)与粮食中DON含量(μg/g)* 患者编号 地区 DON含量 OAP 患者编号 地区 DON含量 OAP 患者编号 地区 DON含量 OAP 1 东 0.00 14.15 15 中 74.78 9.27 26 西 247.29 5.17 2 东 0.00 11.13 16 中 74.67 14.10 27 西 289.54 11.18 3 东 0.00 7.25 17 中 86.09 9.26 28 西 306.31 19.10 4 东 0.00 5.19 18 中 75.89 2.20 29 西 327.23 11.15 5 东 0.00 4.15 19 中 116.33 5.27 30 西 358.32 11.13 6 东 0.00 3.29 20 中 128.58 5.26 31 西 389.22 19.12 7 东 0.00 2.26 21 中 178.42 9.19 32 西 419.35 20.05 8 东 0.00 0.01 22 中 177.38 13.24 33 西 426.85 21.33 9 东 28.76 3.27 23 中 204.63 16.15 34 西 426.90 19.18 10 东 48.54 3.34 24 中 215.99 14.16 35 西 458.04 17.09 11 东 57.94 4.28 25 中 206.90 0.03 36 西 468.34 20.01 12 东 69.18 7.20         37 西 577.52 24.24 13 东 225.41 14.16         38 西 588.95 19.06 14 东 187.89 7.20                由图看出中部地区和西部地区总趋势为上升趋势,但是东部地区的关联则不明显,且观察点集中在OAP和粮食中DON含量都较低的区域。(四)潜在影响变量第五节相关与回归的陷阱不同地区患者OAP和粮食中DON含量的散点图* 平均数的相关潜在影响变量基于大量个体平均值的相关强度通常要高于基于相同变量的个体数据之间的相关强度。因此,在进行分析时应谨慎对待,以免导致结果偏差。(五)平均数的相关第五节相关与回归的陷阱*第六节分类变量的相关*例4为了解某市2岁~6岁儿童维生素D的营养状况,对该市3582名2岁~6岁儿童血清25(OH)-D水平进行检测,具体数据见交叉表。适用于两变量均为分类变量时。(一)交叉表的制作第六节分类变量的相关某市不同性别2~6岁儿童维生素D的营养状况* 是否缺乏维生素D 男 女 合计 是 342 552 894 否 1380 1308 2688 合计 1722 1860 35821.条件分布在设定一个变量取值的条件下,计算另一个变量取值的分布,所得到的分布就是条件分布(conditionaldistribution)。(二)条件分布与关联第六节分类变量的相关男童中维生素D缺乏情况的条件分布*   是 否 比例 0.1986(342/1722) 0.8014(1380/1722)2.关联(1)下表为例4中女童维生素D缺乏情况的条件分布。(2)比较前表和下表可以得到性别和维生素D缺乏情况的关系,即女童的维生素D缺乏比例高于男童(0.2968>0.1986)。(二)条件分布与关联第六节分类变量的相关女童中维生素D缺乏情况的条件分布*   是 否 比例 0.2968 0.70321.数据整理将所得数据整理为交叉表,并计算相应的联合分布和边缘分布,如下表。(三)Pearson列联系数第六节分类变量的相关2×2交叉表的一般形式及分布* 变量x 变量y 合计 y1 y2 x1 x2 合计(三)Pearson列联系数第六节分类变量的相关*例4续利用例4儿童维生素D缺乏的例子计算不同性别和是否缺乏维生素D的列联系数。首先,男性缺乏维生素D的理论频数的计算如下:然后依次计算(三)Pearson列联系数第六节分类变量的相关列联系数* 与定量变量一样,分类变量进行相关性分析时要注意潜在的影响变量,单独分析两变量和按潜在影响变量分层后再分析两变量,原有的关联会在某些层内发生变化,有时甚至方向发生反转,例如辛普森悖论(Simpson’sparadox)。(四)分类变量相关分析的陷阱第六节分类变量的相关*第七节关联与因果* 下图描述了几种常见的关联。虚线双箭头表示存在关联,实线箭头表示有因果关系。(一)关联中因果、共变与混杂微软雅黑,40号字,单倍行距第七节关联与因果常见关联模式*(一)关联中因果、共变与混杂第七节关联与因果**(一)关联中因果、共变与混杂第七节关联与因果** 因果确定最直接有效的方法是实验,但是人群研究涉及伦理,实验往往不可行。 运用统计分析方法说明因果关联存在争议,但在满足某些条件时,仍可提示因果关系,如吸烟与肺癌关联的经典例子。(二)因果的确定第七节关联与因果*小结*小结*小结*********
本文档为【数据关联的探索PPT参考课件】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: ¥12.0 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
WJDTX
暂无简介~
格式:ppt
大小:15MB
软件:PowerPoint
页数:0
分类:医药类考试
上传时间:2019-04-19
浏览量:35