首页 多层模型在社会科学领域的应用

多层模型在社会科学领域的应用

多层模型在社会科学领域的应用多层模型在社会科学领域的应用杨菊华 �摘 � 要� � 文章介绍了多层模型在社会科学领域的应用,并比较多层模型与普通模型的分析结果。结果显示,普通模型过高地估计自变量对因变量的作用及影响程度; 相反,多层模型调节数据的聚类性质,其参数估计更精确,得出的结论更符合实际。 �关键词� � 多层线性模型 � 固定效果 � 随机效果 �作 � 者� � 杨菊华 � 中国人民大学人口与发展研究中心,副教授。近年来,随着具有等级结构数据的出现,多层模型技术应运而生。该技术是单层模型(尤其是ANOVA )技术的...

多层模型在社会科学领域的应用杨菊华 �摘 � 要� � 文章介绍了多层模型在社会科学领域的应用,并比较多层模型与普通模型的分析结果。结果显示,普通模型过高地估计自变量对因变量的作用及影响程度; 相反,多层模型调节数据的聚类性质,其参数估计更精确,得出的结论更符合实际。 �关键词� � 多层线性模型 � 固定效果 � 随机效果 �作 � 者� � 杨菊华 � 中国人民大学人口与发展研究中心,副教授。近年来,随着具有等级结构数据的出现,多层模型技术应运而生。该技术是单层模型(尤其是ANOVA )技术的发展。它克服了单层模型技术在分析多层结构数据时的不足,使个体因素对因变量的影响从群体因素中分解出来成为可能,从而获得可靠的假定检验和参数估计;它还允许研究者回答一系列的具有实际意义而传统模型技术和数据无法回答的问题。由于经济的限制,大规模的社会调查往往采用分步骤、多层次的设计方案采集样本 ,使社会科学数据具有多层结构特点。如果采用传统的统计方法对这类数据进行分析的话,高层(如社区)数据往往被当作低层(如个人)数据处理。因此,从技术理论的角度上看,具有多层结构的数据要求采用多层模型。本文旨在介绍多层线性模型在社会科学领域的应用,并通过实例分析,比较多层模型与传统模型的分析结果,了解二者的异同。一、多层线性模型的技术原理多层模型的基本原理在于,它可以将因变量中的变异分解成两部分:一部分归之于寓于同一群体的个体差异 (即�群内变异�) ; 另一部分归之于不同群体之间的个体差异 (即� 群间变异�)。通过分解变异,多层模型区分群体效果和个体效果,揭示群体与个体变量之间的关系。 (一) 无条件平均模型假如一个数据具有家庭(个体,第一层)和社区(群体,第二层)两层结构:家庭寓于社区中。因变量为连续变量,需要采用线性模型。首先进行无条件平均模型回归分析。因该模型不含任何自变量,也被称为空模型。其完整方程式为: y ij = �00+ �0 j + �ij ( 1) 其中, y ij代表居住于 j 社区 i 家庭的结果。�00代表总平均值或总截距, �0 j是固定参数,是未被观察到或无法观察到的社区层次的随机变量,代表 j 社区的截距到总截距的距离。该变量为同一社区内所有家庭所共有(因此,家庭结果相互关联 )。正是由于随机变量 �0 j的存在, 该方程式才成为多层模型。下标 j 表示每个社区拥有各自的截距,是区分多层模型与普通模型( y= a+ �0 x 1+ �i )的标志。�ij 是家庭层次的随机变量,即分布于 j 社区的 i 家庭到该社区截 �44� 距的偏离。当一个指标带有下标 i j 时,该指标在同一社区内因家庭而异;当一个指标仅有下标 j 时,该指标因社区而异。公式( 1) 若成立必须满足: ( 1 ) �0 j 和 �ij 分布于不同层次, 相互独立, 互不影响, 即 cov( �0 j ; �ij ) = 0; ( 2) �0 j和�ij呈正态分布,平均值均为 0,变异值分别为 t02和 �02。 t02代表群间变异, �0 2 代表群内(个体)变异; ( 3) �02 在所有社区都是相等的;而 t0 2却不必相同。随机变量的变异成分( t02和 �02)是模型的随机参数。公式( 1)将个体层次结果( y i j )表现为两个连接模型:第一层是家庭,其结果被表达为社区截距( �0j )和家庭随机偏差 ( �ij )之和。第二层是社区,其截距被表达为总平均值( �00 )和到该平均值的随机偏离(�0j )。该模型的分析结果提供以下三方面信息: ( 1)群间变异对因变量变异的显著性。如果 �0j 的变异成分( t02 )显著不等于 0,则因变量随群而异,需要使用多层模型。( 2)群体特征对因变量影响的大小。多层模型将因变量的变异分解为群内变异和群间变异,从而使我们得以计算群体因素对因变量作用的大小。两个随机参数的变异成分( t02和 �02 )之和构成总变异。比较 t02和总变异即可了解群体(和个体)因素的相对重要性。如果用群体特征解释因变量所有变异的话,那么, �02 等于 0,表明因变量不因同一群体的个体而异;因变量的所有变异都源于社区。相反,如果社区对因变量没有影响,那么, t02等于 0,表明因变量的变异不因社区而异;其所有变异都源于个体特征。 t0 2和 �02 之间的关系被称为群间关联度系数:�= t0 2 t0 2+ �02 ,该系数衡量群体随机变量的变异在因变量总变异中所占比例,表示群体因素对因变量作用的大小。 t0 2的数值越大, �的数值就越大,社区对因变量的作用也越大。相反, �02 的数值越大, �的数值就越小,家庭特征对因变量的作用就越大。系数的数值处于 0 和 1 之间。比如,如果 �= 0. 5,那么,因变量一半的变异来自社区,另一半的变异来自家庭。在无条件平均模型中,这种关联也是无条件的,没有受到其他因素的制约。( 3)自变量对因变量的解释能力。通过比较 �空模型�和下面将要介绍的非�空模型�随机变量的变异值,我们得以判断自变量对因变量的解释能力。 (二) 随机截距模型现在,我们在模型中加入变量,探讨个体和群体因素对因变量的作用。常用的多层模型包括 ( 1)随机截距模型; ( 2)随机截距和随机斜率模型。前者假定,因变量的截距随群体而异,但各群体的回归斜率是固定的( Rasbash等, 2000: 35) ,因此,不同层次因素之间缺乏互动( Teachman 等, 2002)。后者假定,截距和回归斜率都因群体而异,允许不同层次因素之间的互动。系数的随机化依赖于理论的指导。当个体特征对因变量的作用不因群体而异时,随机截距模型就可以满足多层结构数据的要求。其完整等式为: y i j = (�00 + �01G1j + �10�1i j )+ ( �0 j+ �i j ) ( 2) 公式( 2)比公式( 1)多了个体和群体变量。这是一个简单的二层模型,也称仅有截距模型 ( Yang, 2003)。模型将因变量( y i j )解释为家庭背景和社区环境的函数。�10是 �1i j的系数,代表个体因素对因变量的影响,但其作用不因群体而异; �01是群体系数,为 G1 j的直接函数。�i j 的变异值( �0 2)表示因变量在群内变异的大小,而该变异没有被模型中包含的个体和群体因素所解释; �0j的变异值( t0j 2)表示因变量在群间变异的大小,而该变异未能被模型中包含的群体特征所解释。随机变量变异值的大小使我们得以估算社区环境对家庭结果影响的大小。在随机截距模型中,群间关联度系数 �也是有条件的。除了衡量群体变异在因变量总变 �45� 多层模型在社会科学领域的应用 � 异中所占比例外,它还表明,在其他条件同等的情况下,个体之间因变量的关联度。比如,如果一个孩子患有营养不良,另一个具有类似家庭和社区特征的孩子也可能患营养不良。在随机截距模型中,群间随机变量( �0j2 )的变异值( t0j 2 )与空模型中同类值( t02 )的含义不同。如果群体因素对因变量具有任何解释能力的话,那么,随机截距模型中 t0 j 2的数值会小于空模型中 t02的数值,因为因变量中一部分可解释的变异成分被群体因素所解释。仅仅比较两个模型中随机变量的变异值就可以计算出群体因素对因变量的解释能力。计算公式为: R2 = t0 2 - t0j 2 t0 2 ( 3) 在多层(线性)模型中, R2 的数值与普通线性模型中 R2 的数值有所不同,它仅指因变量中可以被解释的部分( Singer, 1998; Snijders等, 1999)。不过,我们将看到,这两个数值是非常接近的。 (三) 随机截距和随机斜率模型在一些情况下,个体因素对因变量的影响可能因群体而异。允许群体拥有不同截距和不同斜率的模型被称为随机截距和随机斜率模型。其完整等式为: y i j = (�00+ �01G1j + �10�1ij + �11G1 j�1i j )+ ( �0 j+ �1j �ij + �i j ) ( 4) 在公式( 4)中,第一个括号代表固定效果,由总截距、群体特征、个体特征及这两个层次因素之间的互动变量所组成。�为回归系数。其中, �11是一个新的固定参数,表示不同层次因素之间的互动(即个体因素因群体而异) ;第二个括号中的 �1j是一个新的随机参数,表示随机斜率。二者均为区别该模型与� 仅有截距模型�的标志。同样,我们假设 �0 j和�1j的残差与�ij 相互独立;二者呈联合的多元正态分布;协方差矩阵不等于 0(即 �0 j和�1j可以相互关联)。�1j的变异( t1j 2)表示个体因素对因变量的影响在群间的变异,而该变异未能被模型中所包含的群体特征所解释。如果 �0j的变异( t0 j 2 )和 �1 j的变异( t1j 2)都等于 0,则因变量的平均水平或个体特征对因变量的影响不因群体而异,所有的群间变异都被个体因素所把握,没有残余变异。因此,该模型被简化为传统的 OLS 模型。如果 t1j 2等于 0,但 t0j 2不等于 0,那么,虽然截距随群体而异,但个体效果不因群体而异。如果 t0j 2和 t1j 2都大于 0,则截距和斜率均因群体而异。二、多层模型分析演示笔者使用 2000年�中国健康和营养调查� ( CH NS)数据 � ,演示多层模型。由美国北卡罗莱那大学和中国预防科学研究院联合组织,调查在黑龙江、辽宁、山东、河南、江苏、湖北、湖南、广西和贵州 9省份进行。CHNS 是一纵向追踪调查,这里仅使用 2000年的调查数据。本期调查共访问了 215个居民区或村庄(通称社区) ,每个社区大约访问 20 个家庭户,共 4 152 个家庭。该调查数据包含社区、家庭和个人层次资料。因变量为家庭经济地位,衡量为耐用消费品的拥有量;分析对象为家庭。以连续方式衡量的因变量需要采用线性模型。自变量包括社区因素和家庭因素(见表 1)。鉴于以下原因,本文采用多层模型。第一,由于 CHNS 数据包括社区和家庭资料,同一社区不同家庭的经济地位可能相互关联,违背了样本之间必须独立的统计学原则。第二,从理论上看,家庭经济地位无疑会受到社区条件的制约;换言之,社区可能是因变量变异的一个重要 �46� � 中国人口科学 � 2006 年第 3 期 � 参见: w ww . cpc. unc. edu/ pro jects/ china。来源。第三,下面介绍的无条件平均模型(即诊断模型)的分析结果也显示,因变量的变异的确因社区而异。因此,数据的性质、理论和初步分析结果都表明,需要采用多层模型:家庭为第一层,社区为第二层;第一层寓于第二层中。表 1 � 变量的定义和描述性统计 � � 变 � 量定 � 义均值( % ) 标准偏差家庭经济地位家庭耐用消费品的拥有量, 包括电饭锅、电风扇、电话、 5. 54 3. 21 电视机等, 从 1~ 12 社区特征 � 都市化程度 � � 市 1= 该社区为城市社区; 0= 不是 15. 03 � � 郊区 1= 该社区为郊区社区; 0= 不是 17. 64 � � 镇 1= 该社区为镇社区; 0= 不是 16. 58 � � 村庄 1= 该社区为村庄社区; 0= 不是 50. 75 � 社区发展水平 � � 农业劳动人口比例社区从事农业劳动人口比例, 从 0~ 100 0. 40 0. 32 � � 外出劳动力比例社区内离开家庭 3 个月以上人口比例 24. 33 22. 25 � � 平均受教育水平社区平均受教育水平(由家长的受教育年限集合而成) 7. 16 2. 19 � 省份或地区 � � 黑龙江 1= 黑龙江; 0= 不是 10. 85 � � 辽宁 1= 辽宁; 0= 不是 11. 04 � � 山东 1= 山东; 0= 不是 10. 76 � � 河南 1= 河南; 0= 不是 10. 81 � � 江苏 1= 江苏; 0= 不是 11. 20 � � 湖北 1= 湖北; 0= 不是 11. 11 � � 湖南 1= 湖南; 0= 不是 11. 20 � � 广西 1= 广西; 0= 不是 11. 61 � � 贵州 1= 贵州; 0= 不是 11. 43 家庭特征 � 家长特征 � � 年龄从 20~ 85岁 50. 00 13. 34 � � 女性 1= 女性家长; 0= 不是 15. 39 � � 汉族 1= 汉族; 0= 不是 86. 28 � � 教育家长的受教育年限, 从 0~ 18 年 7. 15 4. 13 � � 农民 1= 从事农业; 0= 不是 45. 91 � 子女特征 � � 没有孩子 1= 没有孩子; 0= 有 22. 60 � � 有 0~ 6 岁孩子 1= 有 0~ 6 岁孩子; 0= 没有 4. 99 � � 有 7~ 15 岁孩子 1= 有 7~ 15岁孩子 ; 0= 没有 18. 40 � � 有 16~ 19 岁孩子 1= 有 16~ 19 岁孩子; 0= 没有 13. 83 � � 有 20 岁以上的儿子 1= 有 20 岁以上男孩; 0= 没有 10. 60 � � 有 20 岁以上的女儿 1= 有 20 岁以上女孩; 0= 没有 29. 58 � � 资料来源: 2000 年� 中国健康和营养调查�。本文使用 SAS(第九版)软件演示多层模型,先后包括无条件平均模型、随机截距模型、随机截距和随机斜率模型及普通的OLS模型。重点解释随机变量、比较普通模型与多层模型结果的异同。 (一) 无条件平均模型从模型分析结果看,家庭经济地位因社区和家庭而异(见表 2)。因变量在社区的变异( t02的系数为 4. 94,标准误为 0. 46)十分显著,表明居于同一社区不同家庭的经济地位相互关联。采用多层模型技术、在模型中纳入社区随机变量将改善模型的适合性,获得精确的参数估计。 �47� 多层模型在社会科学领域的应用 � 表 2� 城乡家庭经济地位无条件平均模型分析结果参 � 数模型 1系数标准误截距 5. 57 0. 28 随机效果 � 社区之间变异(群间变异) ( t02 ) 4. 94 0. 46� 家庭之间变异(群内变异) ( �0 2 ) 5. 40 0. 12 群间关联度系数(�) 0. 48 社区样本量 214 家庭样本量 4152 � � 注: P< 0. 001。 � � 资料来源: 2000 年� 中国健康和营养调查�。 � � 同时,社区间关联度系数( �) 为 0. 48 (根据 �= t0 2 t0 2+ �02计算)。该数值表示,因变量 48%的可变性来自社区 (即群间变异) , 52%的变异来自家庭 (即群内变异)。因此,社区和家庭因素对因变量具有类似作用,社区对因变量的影响至关重要。这些数值构成基点,可以与下面模型产生的同类数值进行比较,从而了解社区和家庭因素对因变量的解释能力。 � � (二) 随机截距模型现在,我们将家庭和社区变量纳入模型中,探讨它们对因变量的影响 (见表 3 模型 2)。该模型假定,家庭经济地位的变异都源于社区,以下笔者就社区因素对因变量的累加作用进行分析。如表 3所示,社区变量与家庭经济状况显著相关。在其他条件相同的情况下,都市化程度越高,家庭经济地位越好。该发现证实了现有的相关研究成果,为中国城乡差别的存在提供了进一步证据。此外,社区农业劳动人口比例越高、外出人口越多,家庭耐用消费品的数量越少。相反,社区平均受教育水平高,则增加家庭财富。此外,省际差异也十分明显,与江苏省家庭相比,其他各省家庭经济地位都显著偏低。经济发展程度与家庭经济地位呈正关联,经济越发达,城乡差别越小。就随机参数而言,社区随机变量的变异值( t0 j 2)大大减小,从无条件平均模型中的 4. 94降低到该模型的 0. 89,而家庭层次随机变量的变异值 ( �02)仅从原来的 5. 40下降为 4. 51。通过比较随机截距模型(表 3的模型 2)和无条件平均模型(表 2的模型 1)中随机变量的变异值(分别为 t02和 t0 j 2 ) ,并利用公式( 3) ,我们算出社区和家庭因素对因变量变异的解释能力:模型中的社区变量大约解释因变量在社区层次变异的 82%。相反,模型中的家庭变量大约仅解释因变量在家庭层次变异的 16%。因此,模型中包括的社区层次变量对因变量的解释能力远远高于模型中包含的家长特征。然而,社区和家庭层次随机变量的变异值还十分显著,表明家庭经济地位依然因社区而异,模型遗漏了一些重要的社区和家庭(尤其是后者)因素。 (三)随机截距和随机斜率模型如果研究兴趣仅在于纠正由于聚类而引起的样本的不独立性、分析群内和群间变异,并假定低层因素对因变量的影响在各高层单位之间是恒定的话,那么,随机截距模型就够了。但是,我们不能忽视低层因素与高层因素互动的可能性。随机截距和随机斜率模型可以解决该问题。在选择哪个低层因素的斜率因社区而异、因哪些社区特征而异时(即在确定哪些低层因素与哪些高层因素互动时) ,应该由理论和研究的问题来决定。出于演示的目的,这里使用� 家长的教育程度�。该模型不仅分析截距的变异性,而且还分析�家长受教育程度�斜率的可变性 (结果见表 3的模型 3)。 �48� � 中国人口科学 � 2006 年第 3 期表 3 � 城乡家庭经济地位多层模型或普通 OLS 模型分析结果模型 2 (随机截距模型) 模型 3 (随机截距和随机斜率模型) 模型 4 ( OLS 模型) 系数标准误系数标准误系数标准误社区特征 � 都市化程度(市为对照组) � � 郊区 - 0. 58* 0. 29 - 0. 50 0. 30 - 0. 50*** 0. 15 � � 镇 - 1. 16*** 0. 26 - 1. 12*** 0. 27 - 1. 17*** 0. 13 � � 村庄 - 1. 71*** 0. 31 - 1. 66*** 0. 31 - 1. 61*** 0. 16 � 社区发展水平 � � 农业劳动人口比例 - 0. 02*** 0. 00 - 0. 03*** 0. 00 - 0. 02*** 0. 00 � � 外出劳动力比例 - 0. 01* 0. 00 - 0. 01 0. 00 - 0. 01*** 0. 00 � � 平均受教育水平 0. 14** 0. 04 0. 14** 0. 04 0. 14*** 0. 02 � 省份或地区(江苏省为对照组) � � 黑龙江 - 1. 18*** 0. 32 - 1. 11*** 0. 33 - 1. 12*** 0. 16 � � 辽宁 - 1. 27*** 0. 32 - 1. 22*** 0. 32 - 1. 21*** 0. 16 � � 山东 - 0. 84* 0. 32 - 0. 86** 0. 32 - 0. 76*** 0. 16 � � 河南 - 1. 30*** 0. 31 - 1. 32*** 0. 31 - 1. 27*** 0. 16 � � 湖北 - 1. 02* 0. 31 - 1. 06*** 0. 31 - 0. 94*** 0. 15 � � 湖南 - 0. 56 0. 31 - 0. 60 0. 31 - 0. 51*** 0. 15 � � 广西 - 0. 77* 0. 31 - 0. 74* 0. 31 - 0. 76*** 0. 15 � � 贵州 - 2. 30*** 0. 32 - 2. 35*** 0. 32 - 2. 20*** 0. 16 家庭特征 � 家长特征 � � 年龄 0. 07*** 0. 02 0. 07** 0. 02 0. 07** 0. 02 � � 年龄平方 0. 00*** 0. 00 0. 00*** 0. 00 0. 00*** 0. 00 � � 女性 0. 04 0. 10 0. 03 0. 10 0. 04 0. 11 � � 汉族 - 0. 03 0. 13 - 0. 02 0. 13 0. 02 0. 12 � � 教育 0. 17*** 0. 01 0. 17*** 0. 01 0. 16*** 0. 01 � � 农民 - 0. 57*** 0. 10 - 0. 57*** 0. 10 - 0. 88*** 0. 10 � 子女特征(没有孩子为对照组) � � 有 0~ 6 岁孩子 0. 04 0. 16 0. 03 0. 16 0. 04 0. 17 � � 有 7~ 15 岁孩子 0. 04 0. 09 0. 04 0. 09 - 0. 02 0. 10 � � 有 16~ 19 岁孩子 0. 08 0. 09 0. 08 0. 09 0. 05 0. 10 � � 有 20 岁以上的儿子 1. 10*** 0. 09 1. 10*** 0. 09 1. 13*** 0. 09 � � 有 20 岁以上的女儿 0. 21* 0. 11 0. 22* 0. 11 0. 33** 0. 11 � 截距 5. 66*** 0. 74 5. 66*** 0. 74 5. 70*** 0. 65 随机效果 � 社区之间变异( t0j 2 ) 0. 89*** 0. 11 0. 94*** 0. 20 � � � 家庭之间变异( �0 2 ) 4. 51*** 0. 10 4. 43*** 0. 10 � � � 协方成分( cov ariance) 0. 02 0. 02 � 随机斜率( t1j 2 ) 0. 01** 0. 00 社区样本量 214 214 � � � � 家庭样本量 4152 4152 自由度 25 经过调节的 R2 0. 48 � � 注: * P< 0. 05, ** P< 0. 01, *** P< 0. 001。资料来源: 2000 年� 中国健康和营养调查�。首先,模型中有必要纳入随机斜率吗? 无条件平均模型的分析结果(本文没有列出)显示, �49� 多层模型在社会科学领域的应用 � 虽然截距和斜率的协方成分的变异并不显著,但随机斜率显著不等于 0( P< 0. 01)。因此,纳入随机斜率可以在一定程度上改善模型的适应性,如果随机斜率和协方成分都不显著的话,只需采用随机截距模型( Suzuki等, 2004)。其次,带有随机斜率的模型的分析结果是否与仅有截距模型的结果不同呢? 模型 2 和模型 3的数值显示,总体而言,无论是系数还是标准误,二者相差不大。纳入随机斜率对家庭层次变量的系数几乎毫无影响。这是因为,模型 2考虑了社区层次截距的变异,而模型 3 是在模型 2的基础上,进一步查认因变量的斜率是否也因社区而异。然而,模型中纳入随机斜率的确改变了部分社区因素对因变量的作用。郊区和外出劳动力比例仅在随机截距模型中对因变量产生显著影响。这表明,当模型允许低层因素与高层因素互动时,高层因素的作用受到削弱 � � � 部分高层因素对因变量的影响实际上是通过低层因素来实现的。与无条件平均模型的相应数值相比,在该模型中,社区随机变量的变异值大大变小,对因变量在社区层次变异的解释能力与模型 2 的几乎完全一致。同时,允许层次之间变量的互动稍微提高了家庭因素对因变量在家庭层次变异的解释能力。 (四)普通模型与多层模型分析结果的比较如果使用传统模型对数据进行分析的话,结果是否会有所不同呢? 下面对数据进行普通的OL S模型(见表 3的模型 4)分析,并与多层模型的分析结果进行比较。如表 3所示,多层模型和普通模型的系数估计大同小异,只是大部分多层模型的系数比普通模型的系数稍大。然而,虽然家庭变量的标准误与普通模型的类似,但所有社区变量的标准误都偏大。这与预期的一样,因为多层模型考虑到社区内样本的聚类性质,而普通模型却忽视了这一现象。正因如此,在重要性检验方面,普通模型和多层模型存在两种差异: ( 1)在普通模型中,几个自变量(郊区、社区外出人口比例和湖南省 )对因变量的影响十分显著,但在多层模型中却不显著。( 2)几个自变量 (社区家长的平均受教育水平、山东省、广西壮族自治区和 20 岁以上的居家女儿)在普通模型中对因变量影响的显著性很高( P< 0. 001) ,但在多层模型中, 其显著程度大大降低( P< 0. 05)。因此,普通 OLS模型技术得出的结论是: ( 1)过高地估计某些自变量对因变量的作用,从而增加犯 I 类错误的可能性( Goldstein, 1995) ,换言之,当实际上自变量对因变量缺乏影响时, 却认为它对因变量产生影响; ( 2)过高地估计某些自变量对因变量的影响程度,错误地提高置信区间。由此可见,忽视样本之间的关联性可能得出不正确的结论。即便样本关联性不大,社区特征也比较类似,并得到精确的衡量,多层模型通过调节数据的聚类性质,使标准误更精确、分析结果更符合实际。最后,我们比较普通模型和多层模型中的 R2。由于多层模型中的 R2 只代表因变量变异中可以被解释的部分,而普通模型中的 R 2 却没有这一限制,从理论上看,二者或许有一定的区别。但事实上,在线性模型中,它们的数值非常接近。模型 4显示, OLS 模型中 R 2 的数值为 0. 48。在多层模型中,因变量在社区层次的变异为 0. 48,而自变量对该变异的解释能力为 82% ,即对因变量总变异的解释能力为 0. 394;同样,因变量在家庭层次的变异为 0. 52,而自变量对该变异的解释能力为 16% ,即对因变量总变异的解释能力为 0. 083。那么,多层模型中自变量对因变量总的解释能力约为 0. 48,与普通模型中 R2 的数值一致。 �50� � 中国人口科学 � 2006 年第 3 期三、总结和讨论将因变量的变异分解为� 群内变异�和� 群间变异�、纠正标准误差是多层模型技术主要的特点和优势。利用该模型技术,可以分析社区和家庭因素对家庭经济地位的影响,探讨因变量的变异、自变量对因变量的影响如何因社区而异。通过将家庭经济地位的变异分解到社区和家庭,得知社区因素和家庭特征对家庭经济地位的影响程度基本一样。多层模型技术区分不同层次因素对因变量的解释能力。比较无条件平均模型和其他模型中随机变量的变异值后得知,社区层次变量可以解释因变量在该层次变异的 80%以上;相反, 模型中包含的家庭层次变量大约仅能解释因变量在该层次变异的 18%。该发现表明,由于数据或(和)理论局限,模型中遗漏了一些对家庭经济地位至关重要的家庭因素。同样,即便社区因素的解释能力很强,但社区层次随机变量的变异值依然十分显著,表明相关研究还需要进一步确认模型中没有纳入的其他重要社区因素。这些结果可以为进一步改善模型、发展理论和完善调查设计提供依据。多层模型技术使用灵活、适用性广。比如,在纵向追踪数据中,由于同一个体的特征在不同调查时间也可能相互关联,违反了样本的独立原则。克服该问题的方法之一就是采用多层模型,将不同的调查时间作为一个独立层次处理。如果一个纵向数据包括社区和家庭特征,就可能需要采用三层模型:社区、家庭和调查时间。这种模型也被称为 � 生长模型� ( Singer, 1998)。此外,多层模型还可以用于具有多层结构数据的二元虚拟变量分析 ( Guo 等, 2000)。虽然本文没有涉及纵向数据和二元分析,但它们的原理和应用与横向数据和线性模型的是一致的。参考文献: 1. Goldstein, H. ( 1995) , Multilev el Statis tical Models . 2nd ed. New York: H alstead Press. 2. Guo , Guang, and Hongx in Zhao( 2000) , Multilevel Modeling for Binary Data. A nnual Review of Sociology 26: 441-462. 3. Rasbash, Jon, W . Brow ne, H . Go ldst ein, M . Yang , I. Plewis, M . H ealy, G. Woodhouse, D. D raper, I. L ang ford, T . Lew is( 2000) , A User� s g uid e to ML w iN ( Ver sion 2. 1) . 4. Singer, Judith D. ( 1998) , U sing SAS P roc M ixed to fit M ultilevel Models, H iera rchical Models, and Indiv idual G rowth Models. Journal of Educational and Behav ioral S tatistics 24( 4) : 323-355. 5. Snijder s, T om, and Roel Bosker( 1999) , Multilevel Analy s is : A n Introduction to Basic and Ad vanced Multi- l ev el Modeling . Thousand Oaks, CA: Sage. 6. Suzuki, Sawako, and Ching-Fan Sheu( 2004) , U sing PROC MIXED in H ierar chical Linear Models: Examples f rom T wo-and T hree- level Schoo-l effect Analy sis, and Meta-ana lysis Research. http: / / 140. 111. 162. 102/ psy/ PsyF ile/ sas/ paper23. pdf. 7. T eachman, Jay , and Ky le Crow der ( 2002) , Multilevel Models in Family Resear ch: Some Concept ual and M et h- odo lo gical Issues. J ournal of Mar r iage and Family 64: 280-294. 8. Yang, M in( 2003) , A Review o f Random Effects Modeling in SAS( release 8. 2) . htt p: / / multilev el. ioe. ac. uk/ so ftrev/ rev iewsas. pdf. (责任编辑: 朱萍) �51� 多层模型在社会科学领域的应用 � Chinese Journal of Population Science A bimonthly � � � � � � � � � � � � � � N o. 3 � June 1 , 2006 � � � � � � � � � ABSTRACTS The Demographic Factor in China� s Transition Wang Feng � Andr ew Mason � 2 � Tw o and half decades ago, at the star t of China� s economic reforms, over population and rapid population w er e consid- ered crucial obstacles to China� s economic g rowth. Such a concer n over population growth has largely disappeared from the public discourse in recent year s as China� s fertility has dropped to w ell below the replacement lev el. T his ar ticle review s ma- jor demographic changes over the last quarter of century , and evaluates the effect of population change on China� s recent and futur e economic growth. It introduces the concepts and methods of two demographic dividends, and provides results based on Chinese data. The fir st demog raphic dividend resulting from fer tility decline is estimated to hav e contributed to as much as 15 percent of China� s economic grow th betw een 1982 and 2000, but such a div idend w ill soon be exhausted. Rapid popu- lation aging presents another oppo rtunity in the form of the second demogr aphic dividend, but its r ealization depends lar gely on institutional contex ts. M oreover, demogr aphic changes in China not only affect Chinese economy but also r esult in pr o- found social consequences. Analysis of Whole Social Network Properties of Rura-l urban Migrants in China Li Shuz huo and Other s � 19� Using the whole networ k data o f rur a-l urban migrants in Shenzhen city, this paper analyzes network pr operties o f social suppor t netwo rks in terms of instr umental, emotional, and social contact support and social discussion networks about mar- r iage, childbearing, contraception and old-age suppor t issues. Different types of migr ants� social networ ks ar e analyzed at dyads and triads level and pr operties of the whole networ ks are also explored. T he results indicate that dyads, triads and pa- r ameter s of whole netwo rks for social support netw orks are significantly g reater than so cial discussion netw orks. Influenced by gender, ag e and occupation etc. , the pr operties of the whole netw orks of the same type differ among the survey sites, so do those of the differ ent ty pes of netw orks within the same survey site. Health Insurance for China� s Rural Population: Perspective from Target Health Intervention for the Poor H u Suyun � 30� Focusing on the common plight of the poor, the paper reveals that due to the effect of H ar t� s Law, poor people deman- ding for health ser vices are encountering disease- poverty vicious cir cle as w ell as facing three plights in health ser vice such as low affordability, human poverty and institutional obstacles. By compar ing differ ent models, the paper hig hlights the impor- tance of the government ro les in institutional ar rangements and policy intervention in health for the poor . T hen it provides an empir ical study for different regions and different groups in the r ural ar eas, claiming that the rural po or suffer health risks most. While the New Cooper ative M edical System is targeting to decr ease such r isks, its effect on inter vention for the poor is limited. T her efore, this sy stem needs improving in terms of health concepts, health insur ance, health ser vices, and g ov- ernment ro les. Objective Stratification and Subjective Identity Lu Fuy ing � Zhang Zhaoshu � 38� This paper fo cuses on the relations betw een objective social status and subjective identity. T he outcome of survey ind-i cates that despite the coher ence on the whole ther e are tw o distinct relations for different groups. F or people in the middle stratum, the relation between objective status and subjective identity is positiv e, but the relation is significant and tends to the middle level. For people in the upper and lower stratum, their identity is diverg ing, tending to low er and higher levels, respectively. T his paper fur ther ex amines and analyzes the tendencies. Application of Multilevel Modeling Techniques in Social Science Research Yang J uhua � 44� This paper introduces multilevel modeling technique and its applications to the research of social sciences. It also com- pares the analy tical results of multilevel models w ith the OLS results to better under stand the advantag es of multilevel mod- eling technique. Analyzing Factors Influencing the Quality of New-born Population on the Perspective of Hierarchical Linear Model: � the Case of Wuxi City Chen J unhua � Chen Gong � Pang Lihua � 52� �95�

                    本文档为【多层模型在社会科学领域的应用】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

多层模型在社会科学领域的应用

你可能还喜欢