null第十四章 多元线性回归
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
Multivariate linear regression 第十四章 多元线性回归分析
Multivariate linear regression 山东大学公共卫生学院
null 人的体重与身高、胸围
血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史
糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂
射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、 照射的时间一个变量的变化直接与另一组变量的变化有关:如:Multivariate linear regressionMultivariate linear regression概念:多元线性回归分析也称复线性回归分析(multiple linear regression analysis),它研究一组自变量如何直接影响一个因变量。
自变量(independent variable)是指独立自由变量的变量,用向量X表示;因变量(dependent variable)是指非独立的、受其它变量影响的变量,用向量Y表示;由于模型仅涉及一个因变量,所以多元线性回归分析也称单变量线性回归分析(univariate linear regression analysis)null多元回归分析数据格式null一、多元线性回归方程模型nullx1x2ynull应用条件:注意:虽然模型要求因变量是连续数值变量,但对自变量的类型不限。若自变量是分类变量,特别是无序分类变量,要转化为亚变量才能分析。对于自变量是分类变量的情形,需要用广义线性回归模型分析。二、多元线性回归分析的
步骤
新产品开发流程的步骤课题研究的五个步骤成本核算步骤微型课题研究步骤数控铣床操作步骤
二、多元线性回归分析的步骤(一)估计各项参数,建立多元线性回归方程模型
(二)对整个模型进行假设检验,模型有意义的前提下,再分别对各偏回归系数进行假设检验。
(三)计算相应指标,对模型的拟合效果进行评价。null(一)模型的参数估计null27名糖尿病患者的血清总胆固醇(x1)、甘油三酯(x2)、空腹胰岛素(x3)、糖化血红蛋白(x4)、空腹血糖(y)的测量值列于表中,试建立血糖与其它几项指标关系的多元线性回归方程。 例14.1nullnullnull1、对模型的假设检验—F检验
2、对偏回归系数的假设检验—F检验和t 检验
3、
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
偏化回归系数(二)对模型及偏回归系数的假设检验null1、对模型的假设检验—F检验nullnullSS总=lyy=222.5519;ν总=n-1=26
SS剩余= SS总- SS回归=222.5519-133.7107=88.8412
ν剩余=n-m-1=22
MS回归= SS回归/ν回归; MS剩余= SS剩余/ν剩余;
F= MS回归/ MS剩余1、对模型的假设检验—F检验null1、对模型的假设检验—F检验null2、对偏回归系数的假设检验—F检验和t 检验回归方程成立只能认为总的来说自变量与因变量间存在线性关系,但是否每一个自变量都与因变量间存在线性关系,须对其偏回归系数进行假设检验。① 方差分析法
② t 检验法null① 偏回归系数的假设检验--方差分析法null① 偏回归系数的假设检验--方差分析法null Parameter Standard Standardized
Variable DF Estimate Error t Value Pr > |t| Estimate
变量 自由度 偏回归系数 标准误 t值 P值 标准化回归系数
Intercept 22 5.94327 2.82859 2.10 0.0473 0
X1 22 0.14245 0.36565 0.39 0.7006 0.07758
X2 22 0.35147 0.20420 1.72 0.0993 0.30931
X3 22 -0.27059 0.12139 -2.23 0.0363 -0.33948
X4 22 0.63820 0.24326 2.62 0.0155 0.39774②偏回归系数的假设检验— t 检验null指定REG过程进行多元线性回归分析,拟合y与四个自变量间的多元线性回归方程null整个方程有统计学意义nullnull 3、标准化偏回归系数nullnull评价回归方程回归效果的优劣是回归分析的重要
内容
财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容
之一。
常用评价指标有:
复相关系数、
决定系数、
校正决定系数、
剩余标准差等。 (三)计算相应指标,对模型的拟合效果进行评价1.复相关系数1.复相关系数 复相关系数(R),衡量因变量Y与回归方程内所有自变量线性组合件相关关系的密切程度。
0<=R<=1,没有负值。
R的值越接近1,说明相关关系越密切;越接近0说明相关关系越弱。null2.决定系数nullnull3、剩余标准差null4、校正决定系数null三、逐步回归分析(一)最优子集回归法(一)最优子集回归法求出所有自变量可能组合子集的回归方程的模型(共有2m-1个),按一定准则选择最优模型,常用的准则有:
①校正决定系数(考虑了自变量的个数)
②Cp准则(C即criterion,p为所选模型中变量的个数;Cp接近p+1的模型为最优)
③AIC(Akaike`s Information Criterion)准则;AIC 越小越好
最优子集法的局限性最优子集法的局限性 如果自变量个数为4,则所有的回归有24-1=15个;当自变量数个数为10时,所有可能的回归为 210-1= 1023个;……..;当自变量数个数为50时,所有可能的回归为250-1≈1015个。(二)逐步选择法(二)逐步选择法 1. 前进法(forward selection)
2. 后退法(backward elimination)
3. 逐步回归法(stepwise regression)。它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍则基于对偏回归平方和的F检验(1)前进法(1)前进法 自变量从无到有、从少到多 Y对每一个自变量作直线回归,对回归平方和最大的自变量作F 检验,有意义(P小)则引入。
在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F 检验,…。
局限性:后续变量的引入可能会使先进入方程的自变量变得不重要。(2)后退法(2)后退法 先将全部自变量放入方程,然后逐步剔除 偏回归平方和最小的变量,作F检验及相应的P值,决定它是否剔除(P大) 。
建立新的回归方程。重复上述过程。
局限性:自变量高度相关时,可能得不出正确的结果;开始时剔除的变量即使后来变得有显著性也不能再进入方程 。(3)逐步回归法(3)逐步回归法 双向筛选:引入有意义的变量(前进法),剔除无意义变量(后退法) 小样本检验水准 a 一般定为0.10或0.15,大样本把a值定为0.05。 a值越小表示选取自变量的标准越严。
nullnull用逐步回归法筛选自变量nully=0.35409x2-0.36013x3+0.41334x4第三节 多元线性回归的应用及其注意事项 第三节 多元线性回归的应用及其注意事项 二、 多元线性回归应用时的注意事项 二、 多元线性回归应用时的注意事项 1.样本含量
2.方程“最优”问
题
快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题
3.关于逐步回归
4.多元共线性
5. 异常值识别与强影响分析 nullnullnull
多元共线性是指在进行多元回归分析时,自变量间存在较强的线性相关关系。共线关系的存在,可使得估计系数方差加大,系数估计不稳,结果分析困难。因此在多元回归分析时,特别是当回归结果难以用专业知识解释时,要进行共线性诊断,找出存在共线性且不重要的那些自变量,剔出方程,另行回归分析。
对于存在共线性的资料,可以利用共线性诊断有选择的保留自变量以消除共线性;或者采用岭回归、主成分回归等回归分析方法以避免共线性指标对结果的影响。
4.多元共线性null 多元共线性的表现在实际应用中主要表现为:
(1)模型拟合效果很好,但偏回归系数几乎都无统计学意义;
(2)偏回归系数估计值的方差很大;
(3)偏回归系数估计值不稳定,随着样本含量的增减各偏回归系数发生较大变化或当一个自变量被引入或剔除时其余变量偏回归系数有很大变化;
(4)偏回归系数估计值的大小与符号可能与事先期望的不一致或与经验相悖,结果难以解释
出现以上表现,提示存在多元共线性问题,应进行多元共线性诊断。nullnullnull如果某一自变量只是和截距项存在共线性的话,可以认为不存在共线性。nullnullnullnull