首页 两水平方差成分模型与线性回归模型关系的探讨

两水平方差成分模型与线性回归模型关系的探讨

举报
开通vip

两水平方差成分模型与线性回归模型关系的探讨 两水平方差成分模型与线性回归模型关系的探讨 华西医科大学卫生统计学教研室 (成都 610041)  李晓松  倪宗瓒   【提  要】 目的  探讨对于具有两个水平层次结构的数据拟合方差成份模型与线性回归模型的关系。方法  通过 三类传统线性回归模型与两水平方差成份模型参数估计的对比 ,分析其内在联系。结果  线性回归模型参数估计以及估 计的稳定性与自变量在水平 2 单位间和水平 2 单位内的变异大小有关 ,线性因归模型与方差成分模型参数估计及其稳定 性的关系与水平 2 残差方差或单位内相关系数大小有关。结论 ...

两水平方差成分模型与线性回归模型关系的探讨
两水平方差成分模型与线性回归模型关系的探讨 华西医科大学卫生统计学教研室 (成都 610041)  李晓松  倪宗瓒   【提  要】 目的  探讨对于具有两个水平层次结构的数据拟合方差成份模型与线性回归模型的关系。 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载  通过 三类传统线性回归模型与两水平方差成份模型参数估计的对比 , 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 其内在联系。结果  线性回归模型参数估计以及估 计的稳定性与自变量在水平 2 单位间和水平 2 单位内的变异大小有关 ,线性因归模型与方差成分模型参数估计及其稳定 性的关系与水平 2 残差方差或单位内相关系数大小有关。结论  当数据具有层次结构特征时 ,三类线性回归模型均存在 问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 ,方差成分模型可将线性回归模型的单一随机误差项分解到与数据层次结构相对应的各水平上 ,并估计水平 2 单位 的随机效应。 【关键词】 层次结构数据  方差成分模型  线性回归模型  单位内相关系数   多水平统计模型 ( m ultilevel statistical models) 是 英、美等发达国家教育学界 80 年代中后期发展起来的 一门多元统计分析新技术 ,可有效处理传统多元统计 方法难以分析的具有层次结构特征的数据 ( hierarchi2 cally st ruct ured data) ,是目前国际上统计学研究中一 个新兴而重要的领域〔1〕。在临床医学 ,预防医学以及 其它学科领域存在大量层次结构数据 ,因而多水平模 型在这些领域具有广阔的应用前景。两水平方差成分 模型是多水平模型中最基本的模型 ,而传统的线性回 归模型仍是处理不具层次结构特征数据的有力工具。 对两水平方差成分模型与各类传统线性回归模型之间 内在联系的探讨 ,有助于对数据结构和多水平模型的 认识和正确应用。 基本模型 现假定一具有两水平层次结构特征的数据 ,水平 2 单位为相应总体的随机样本。模型中有一个解释变 量 , y ij 、x ij均为水平 1 变量 ,且β1 在水平 2 单位间不 存在变异。以符号 T x x 、Tyy 、T xy分别 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 示 x 、y 以及 x 与 y 的总的离均差平方和、积和 ; A x x 、A yy 、A xy分别表 示 x 、y 以及 x 与 y 的水平 2 单位间离均差平方和、积 和 ; W x x 、W yy 、W xy分别表示 x 、y 以及 x 与 y 的水平 2 单位内离均差平方和、积和。 对于上述数据 ,我们可建立以下四类模型 :水平 1 的合并模型、水平 2 的聚集模型、水平 2 单位的固定效 应模型以及两水平方差成份模型。 11 水平 1 的合并模型 以水平 1 单位为分析的基本单位 ,即将水平 1 单 位合并在一起 ,忽略水平 2 单位对反应变量的效应。 模型可表达为 : y ij = β(1)0 +β(1)1 x ij + e (1)ij  e (1)ij ~ N (0 ,σ2e (1) )   j = 1 ,2 , ⋯, m 示水平 2 单位 , i = 1 ,2 , ⋯, n j 示水 平 1 单位。括弧中的数字示模型编号 ,这里示模型 1 , 以下同此。 根据最小二乘法原理 ,可得到模型参数及其方差 的估计 : β^(1)1 = T xy/ T x x = ( A xy + W xy) / ( A x x + W x x) V ar (β^(1)1 = σ2e (1) / T x x   21 水平 2 的聚集模型 将水平 1 单位的特征包括反应变量和解释变量聚 集为相应的水平 2 单位的特征 ,即计算各水平 2 单位 所属的所有水平 1 单位的某种统计量如均数 ,以水平 2 单位为分析的基本单位。模型及其参数估计为 :…y j = β(1)0 +β(2)1 …x j + €e (2)j , €e (2)j ~ N (0 ,σ2e (2) ) β^(2)1 = A xy/ A x x V ar (β^(2)1 = σ2e (2) / A x x   31 水平 2 单位的固定效应模型 对每个水平 2 单位拟合固定参数βoj ,并假定一个 普通的水平 2 单位内残差方差σ2e (3) ,该模型拟合 m 条平行的回归线。模型及其参数估计为 : y ij = β(3)0 j +β(3)1 x ij + e (3)ij  e (3)ij ~ N (σ2e (3) ) β^(3)1 = W xy/ W x x V ar (β^(3)1 ) = σ2e (3) / W x x   41 两水平方差成分模型 基本的模型结构与模型假设为 : ·41·  中国卫生统计 1999 年 2 月第 16 卷第 1 期 y ij = β(4)0 j +β(4)1 x ij + eij   β(4)0 j 为随机变量 ,假定 :β(4)0 j =β(4)0 + u0 j 代入式 (4) 有 : y ij =β(4)0 j +β(4)1 x ij + u0 j + eij 这里 , u0 j亦为随机变量 : u0 j ~ N (0 ,σ2u)   水平 1 残差 eij即线性回归模型中通常的残差项 , eij~ N (0 ,σ2e) 。 与传统线性回归模型不同的是 ,两水平方差成分 模型具有两个残差项 ,它属模型随机部分的结构。 固定参数的估计为 : β^(4)0 β^(4)1 领 域   阔的 应 = ( XTV - 1 X) - 1 XTV - 1 Y  XT = 1 , ⋯⋯⋯1 ,1 , ⋯⋯⋯1 , ⋯⋯⋯1 , ⋯⋯⋯1 x11 , ⋯, x1 , n1 , x21 , ⋯, x2 , n2 , xm1 , ⋯, xm , nm x = 1 T x T x y YT = ( Y11 , ⋯, Y1 , n1 , Y21 , ⋯, Y2 , n2 , Ym1 , ⋯, Ym , nm) V 为向量 Y 的协方差阵 ,这为分块对角阵 ,每个 块对应于一个水平 2 单位 : V = Ým j = 1 {σ2eI ( nj) +σ 2 uJ ( nj) } = Ýmj = 1{σ2eJ ( nj) +σ2uJ ( nj ×1) I (1) J (1 ×nj) } 根据线性代数原理 ,可得到 V 的逆阵为 : V - 1 = Ým j = 1 σ- 2e { I ( nj) - σ 2 u (σ2e + n jσ2u) - 1 J ( nj) }   因此 X TV - 1 X =σ- 2e 〔ΣjΣi x ij - Σj n 2 j…x 2jσ2u (σ2e + n jσ2u) - 1〕=σ- 2e 〔W x x +Σj W j…x 2j〕 式中 : W j = n jσ2e σ2e + n jσ2u 相似地 : X TV - 1 Y =σ- 2e 〔W xy +Σj W j…x j…y j〕 因此 : β^(4)0 β^(4)1 = ΣW j   ΣW j…x j ΣW j…x j  W x x +ΣW j…x 2j 归 线   及其 参- 1 ΣW j…y j W xy +ΣW j…x j…y j 3 β^(4)1 = ( W xy + A 3xy) / ( W x x + A 3x x) V ar (β^(4)1 ) = (σ2u +σ2e) / ( W x x + A 3x x) A 3x x =Σj W j ( …x j - …x 3 ) 2 , A 3xy =Σj W j ( …x j - …x 3 ) ( …y j - …y 3 )…x 3 =ΣW j…x j/ΣW j , …y j =ΣW…y 3j / ΣW j 式中 , A 3x x和 A 3xy为加权的离均差平方和与积和 , 权重即为 W j 。 讨   论 11 线性回归模型参数估计间的联系 现定义一指标 R2x 反映 x 在水平 2 单位间变异占 总变异的比例 ,则 R2x = A x x / T x x ,0 Φ R2x x Φ1。进一步 可导出 :β^(1)1 = R2xβ^(2)1 + (1 - R2x )β^(3)1 。可见。β^(1)1 的 估计介于β^(2)1 和β^(3)1 之间 :如果 A x x →0 ,那么 R2x → 0 ,β^(1)1 →β^(3)1 ,因 V ar (β^(2)1 ) =σ2e (2) / A x x ,故β^(2)1 的估 计不稳定 ;如果 W x x →0 ,那么 R2x →1 ,β^(1)1 →β^(2)1 ,因 V ar (β^(3)1 ) =σ2e (3) / W x x ,故β^(3)1 的估计不稳定。 21 两水平方差成分模型与线性回归模型参数估计 的联系 由上述推导可见 ,两水平方差成分模型与传统线性 回归模型参数估计的联系与区别关键在于权重 W j 。 ①如果σ2u = 0 ,则 W j = nj ,β^(4)1 =β^(1)1 = Txy/ Txx , V ar (β^(4)1 ) =σ2e/ Txx = V ar (β^(1)1 ) ,在这种情形下 ,水平 2 单位对反应变量无效应或效应相同 ,方差成分模型等价 于水平 1 合并模型 ;如果σ2u 相对于σ2e 增加 ,则 W j 趋近 于 0 , A 3xx和 A 3xy亦趋近于 0 ,β^(4)1 →^β(3)1 = W xyW xx , V ar (β^(4)1 ) →(σ2u +σ2e) / W xx ,在这种情形下 ,参数估计不 依赖于水平 2 单位的间信息 ,方差成份模型的参数估计 趋近于水平 2 单位固定效应模型 ;此外 ,从前面参数估 计的表达式还可看出 ,水平 2 单位内的信息 W xx和 W xy 对于模型固定参数的估计总是重要的。因此 ,未用到水 平 1 单位信息的方法如水平 2 聚集模型在统计上是无 效的 ( inef f icient)〔1〕。 ②我们从另一个角度进一步考察这一问题。两水 平方差成分模型反应变量的方差为 : V ar ( y ij | β0 ,β1 , x ij) = V ar ( uoj + eij) = σ2u +σ2e   同一水平 2 单位所属的两个水平 1 单位 (用 i1 , i2 表示) 间的协方差为 : Cov ( u0 j + ei1 j , u0 j + ei2 j) = Cov ( u0 j , u0 j) = σ 2 u   相关则为 : ρ = Cov ( u0 j + ei1 j , u0 j + ei2 j) V ar ( u0 j + ei1 j) V ar ( u0 j + ei2 j) = σ2u σ2u +σ2e   ρ即“单位内相关系数”( i nt ra2unit correlation) , 反映了同一水平 2 单位内水平 1 单位的相似性或聚集 性 ,测量了水平 2 单位间变异在总变异中所占的比 例〔2〕。可以发现 , W j 与ρ具有一定联系 :σ2u = 0 ,ρ= 0 ,意味着数据不存在层次结构特征 ,此时 W j = n j ;σ2u 相对于σ2e 增加 ,ρ趋近于 1 ,意味着数据层次结构特征 明显 ,则 W j 趋近于 0 ,这与前面推论的情形是一致的。 ·51· Chinese Journal of Health Statistics ,February 1999 ,Vol. 16 ,No. 1 此外 ,一种极端的情形是 ,每个水平 2 单位中只有一个 水平 1 单位即 n j = 1 ,此时仍可估计水平 2 残差方差 σ2u ,且ρ与 W j 满足下式 :ρ= (σ2u/σ2e) W j ,σ2u/σ2e 即方 差成分比。 如果数据具有层次结构特征 ,那么 ,除非 x 完全 解释了 y 在水平 2 单位内的相似性或聚集性 ,否则 y 的残差相关 ,此时 ,三类线性回归模型都是不适宜的 , 且当残差存在复杂变异时 ,线性回归模型更难以探讨 与之相关的因素。实际上 ,线性回归模型中单一的随 机误差项包含了数据层次结构中高水平单位 (如水平 2 单位) 的随机效应与误差 ,多水平统计模型则将这种 随机效应与误差分解到与数据层次结构相对的各水平 上 ,并提供了拟合各水平复杂误差结构的可能性。 (致谢伦敦大学多水平模型课题组杨珉研究员提供的帮助) Research into the relationship between the 2 level variance com2 ponent model and the linear regression models. L i Xiaosong , N i Zongz an. Depart ment of Health S tatistics , West China U niversith of Medical Sciences ( Chengdu 610041)   【Abstract】 Objective  to explore the relationship between the variance component model and the linear regression models in fitting 2 level hierarchically2structured data. Methods  by comparative analysis for the parameter estimates between three linear regression mdels and 2 level vari2 ance component moddel. Results  the parameter estimates and it’s stabili2 ty of linear regression models is associated with the variation of explanatory variable between and within level 2units ,and the relationship of parameter estimates and it’s stability between linear regression models and variance component model is associated with level 2 residual variance or intatra2unit correlation. Conclusion  the three linear regression models are inappropri2 ate whten data are hierarchically structured ,and both the single random er2 ror term of linear regression model can be decomposed into corresponding levels of hierarchical structure ,and the randowm effects of level 2 units can be estimated by variance component model. Key words  hierachically2structured data variance component model linear regression models intra2unit correlation 参  考  文  献 11 Goldstein , H. Multilevel Statistical Models. London : Edward Arnold. 1995 21 杨珉. 多元分析的发展———多水平模型简介. 中国卫生统计. 1994 ;11 (5) :32 ·资料· 1996 年卫生部门平均每所县及县以上医院业务收入情况 合计 门诊收入 小计 挂号费 检查费 其他 住院收入 小计 床位费 治疗费 检查费 其他 药品收入 小计 住院收入门诊收入  医院总计 综 合 医 院 卫生部属 省、自治区、直辖市属 直辖市区、省辖市、地区 (自治盟)属 省辖市区、地辖市属 县 (旗)属  医院总计 中 医 医 院 卫生部属 省、自治区、直辖市属 直辖市区、省辖市、地区 (自治盟)属 省辖市区、地辖市属 县 (旗)属 1855173 271160 12113 107102 152145 509108 58169 191101 79150 180133 942102 505176 436126 16074172 2243169 93169 6911471458153 3874103 398163 1364122 518156 1592162 86158 4254156 4403191 8469131 1212154 53103 490103 669148 2305183 229137 826161 386143 863142 4535176 2372115 2163162 3639101 514187 22179 203153 288155 1032193 127114 378174 178146 348159 1776168 947101 829167 1252153 200148 9134 77161 113153 223150 38130 134117 42150 117153 618102 323162 294140 739188 109160 419 45186 58178 205190 24136 80102 29114 72138 385145 225159 159186 581197 90148 6112 29151 54185 102181 15115 39108 14125 34133 353137 126174 226163 8545150 945183 118183 324133 502167 1340167 187133 505183 237117 410134 5405100 2104150 3300150 3586140 405190 33137 170165 201188 659144 97175 240138 127160 193171 2317129 865131 1451198 1255191 193119 13115 48165 131139 238132 371143 98152 27120 75146 736126 255108 481118 591125 104125 5199 34156 64117 104113 13196 40102 12155 37160 352134 119142 232142 267102 45112 2195 15192 26125 43151 6157 15112 6124 15158 163148 61109 102138   资料来源 :1996 年全国卫生统计年报资料 ·61·  中国卫生统计 1999 年 2 月第 16 卷第 1 期
本文档为【两水平方差成分模型与线性回归模型关系的探讨】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_344992
暂无简介~
格式:pdf
大小:159KB
软件:PDF阅读器
页数:3
分类:理学
上传时间:2011-11-07
浏览量:11