null
多元线性回归
(Multiple Linear
Regression Analysis)
王丽
流行病学与卫生统计学系
多元线性回归
(Multiple Linear
Regression Analysis)
王丽
流行病学与卫生统计学系多变量
分析
定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析
方法
快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载
的提出多变量分析方法的提出null流行病学的一个重要应用是探索病因或危险因素(包括识别和处理混杂因素及效应修饰因素)。
单变量(因素)分析:
分析单一特异性因素引起的健康危害或疾病或其它结局效应
难以处理多因素引起的疾病
null多变量(因素)引起的疾病的病因研究
研究
设计
领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计
阶段:匹配
统计分析阶段
分层分析
多变量分析
null分层分析是将可能对结局产生影响的变量(外源性变量或混杂变量),按其不同属性分层,再在每层内分析主要变量与结局的联系
研究的变量数目(2或3个)较少时,分层分析方法完全适用。
分层分析的例子分层分析的例子 口服避孕药与心肌梗死病例对照研究
━━━━━━━━━━━━━━━━━━
服OC 未服OC 计
──────────────────
MI 39 114 153 cOR = 2.19
对照 24 154 178
计 63 268 331
━━━━━━━━━━━━━━━━━━
如果怀疑年龄有混杂作用,按年龄分层再进行分析。 口服避孕药与心肌梗死病例对照研究 口服避孕药与心肌梗死病例对照研究按年龄分层后的结果
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
< 40岁 ≥ 40岁
━━━━━━━━━━━━━━━━━ ━━━━━━━━━━━━━━
OC(+) OC(-) 计 OC(+) OC(- ) 计
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
MI 21(a1) 26(b1) 47(m11) 18(a2) 88(b2) 106(m12 )
对照 17(c1) 59(d1) 76(m01) 7(c2) 95(d2) 102(m02)
计 38(n11) 85(n01) 123(n1) 25(n12) 183(n02) 208(n2)
OR1 = 2.80 OR2 = 2.78
cOR/OR1 = 0.78 cOR/OR2 = 0.78
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 常用的多变量分析方法常用的多变量分析方法协方差分析
多元线性回归
logistic回归
比例风险回归(Cox回归)
多重(偏)相关分析
主成分分析
因子分析
聚类分析统计学处理方法的选择统计学处理方法的选择两个或以上自变量资料的统计学分析方法
自变量 因变量 统计方法
属性(有混杂) 数值 协方差分析
属性或数值 数值 多元回归
属性或数值 属性(二分) logistic回归
数值或属性 二分(属性) 发生的风险(有截缩)
Cox(比例风险)回归
属性 属性 对数-线性
属性或数值 属性(多分) 判别分析
数值 ─ 因子分析或聚类分析出生体重危险因素研究出生体重危险因素研究ID 编号
LOW 出生低体重(bwt<2500=1,>=2500=0)
AGE 母亲年龄(岁)
LWT 母亲末次月经时的体重
RACE 种族: 1 白种人 2 黄种人 3 黑人
SMOKE 吸烟史: 1 吸烟 0 否
PTL 早产史: 1 有 0 无
HT 妊娠高血压: 1 有 0 无
UI 频繁宫缩: 1 有 0 无
FTV 产前访视次数
BWT 出生体重(克)探讨的问
题
快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题
探讨的问题婴儿的出生低体重(low)是否与母亲的种族(race)有关?
黑人母亲和非黑人母亲的婴儿出生体重是否有显著性差别?
黑人、白人及黄种人母亲,其婴儿的出生体重是否有显著性差别?
母亲的年龄、吸烟史、既往早产史、妊娠高血压史,频繁宫缩史是否分别与婴儿的出生体重有关?
母亲的年龄、吸烟史、既往早产史、妊娠高血压史,频繁宫缩史哪些因素与婴儿的出生体重有关?
在控制了年龄、目前吸烟史、既往早产史、妊娠高血压史,频繁宫缩史之后,婴儿的出生体重是否依旧与种族有关?
亲的年龄、吸烟史、既往早产史、妊娠高血压史,频繁宫缩史哪些因素与婴儿的出生低体重有关?
多变量线性回归分析多变量线性回归分析一、概念一、概念null回归是研究变量与变量之间关系的一种手段,通过回归方程表达变量与变量之间的一种依存关系。
当研究变量之间的线性关系时就是直线回归(linear regression)null如:UCSF大学的妇产科学及生殖研究所收集1980年-1990年在该生殖中心出生的婴儿及其母亲的资料。
母亲的信息:怀孕时的年龄、吸烟史、怀孕前的体重、早产史、是否有妊娠高血压、怀孕期间是否发生频繁宫缩、产前接受的访试次数等。
新生儿的信息:出生时的体重
要回答的问题:用回归方程定量的刻画一个新生儿出生体重(因变量Y)与母亲孕期的多个自变量X1,X2,…….间的线性依存关系
出生体重危险因素研究数据库字段注释出生体重危险因素研究数据库字段注释变量名 字段注释
ID 编号
BWT 出生体重(克)
AGE 母亲年龄(岁)
LWT 母亲末次月经时的体重(磅)
RACE 种族:1白种人 2黄种人 3黑人
SMOKE 吸烟史:1吸烟 0否
PTL 早产史 :1有 0否
HT 妊娠高血压:1有 0否
UI 频繁宫缩:1有 0否
FTV 产前访试次数:1一次 2二次及以上 0无null设有p个自变量X1,X2,…,Xp,一个因变量Y,以及一份由n个个体构成的随机样本(xi1,xi2,…,xip,yi),i=1,2,…,n
a:回归方程常数项
bp:偏回归系数,指其它自变量固定的条件
下,某自变量Xp每改变一个单位时,因
变量Y的平均变化量。
:在给定自变量取值条件下y的均数的一 个点估计。null 新生儿出生体重与母亲怀孕时相关因素的关系:
对每一个新生儿而言:
Yi=b0+b1*agei+b2*smokei+b3*lwti+…
根据所有新生儿及其母亲的观测值,可以得到新生儿出生体重与母亲相关因素的回归方程:
i =b0+b1*agei+b2*smokei+b3*lwti+….
残差:二、线性回归方程
需满足的条件二、线性回归方程
需满足的条件(一) LINE 原则(一) LINE 原则L(linear):
自变量和因变量呈线性关系;
I (independence):
某xi值改变对y的影响与另一xi的水平无关;
y呈独立性,即任一个体的y值对另一个体的y值 不提供任何信息;
N(normality):
xi分别取某定值时得到的一组y值呈正态分布;
E (equal variance):
各y值的方差相等,即各xi取不同值时y的不同分布服从方差齐性,即其方差为常数(二)因变量的选择(二)因变量的选择 因变量必须是定量指标,同时必须满足以上关于线性回归的条件要求,即LINE。
(三)自变量的选择(三)自变量的选择 对于自变量没有强制性要求,但自变量和因变量之间必须是线性关系。
自变量可以为定量指标、定性指标以及等级变量中的任何一种。null 如果自变量为定量指标:
(1)同时自变量与因变量之间为线性关系,则可以直接以原变量的形式进入分析;
(2)如果自变量与因变量之间为非线性关系,则需做适当转换,如x2,log(x),ex等。
自变量为定性或等级指标:
不需要做自变量与因变量的线性关系检验null自变量为定性指标:
为二分类变量,常用0,1或1,2表示。如x为性别指标,0代表女性,1代表男性,回归方程中对应的回归系数b表示男性比女性的y平均多b。
为多分类指标,需要专业判定指标的意义
等级变量:直接带入分析
定性变量:亚变量(dummy)亚(哑)变量的设置亚(哑)变量的设置引入亚(哑)变量的目的在于区分某个变量的不同属性。
当自变量为属性变量,特别是不同属性之间无等级高低之分,为说明不同属性对因变量的影响大小,常需引入亚(哑)变量。
亚变量的设置:例1亚变量的设置:例1一项探讨影响新生儿出生体重的研究:
因变量即结局变量为新生儿出生时的体重;
研究的因素包括母亲怀孕时的年龄、母亲末次月经时的体重、母亲的种族、是否吸烟、是否有过早产史、是否有妊娠高血压、怀孕期间是否发生频繁宫缩、产前接受的访试次数等。亚变量的设置例1:出生体重危险因素研究亚变量的设置例1:出生体重危险因素研究变量名 字段注释
ID 编号
BWT 出生体重(克)
AGE 母亲年龄(岁)
LWT 母亲末次月经时的体重(磅)
RACE 种族:1白种人 2黄种人 3黑人
SMOKE 吸烟史:1吸烟 0否
PTL 早产史 :1有 0否
HT 妊娠高血压:1有 0否
UI 频繁宫缩:1有 0否
FTV 产前访试次数:1一次 2二次及以上 0无亚变量的设置:例1亚变量的设置:例1将种族分成白人、黑人和黄种人3种属性,可引入2(= 3-1)个亚变量,分别表示各种族,选择其中之一(例如,白人)作为参照
────────────────
变量 x1 x2
────────────────
白人 0 0 (参照)
黑人 1 0
黄种人 0 1
────────────────亚变量的设置:例2亚变量的设置:例2Framingham心脏病研究,随访1,406人18年
探讨冠心病发生率与年龄、性别、收缩血压关系的多变量线性回归
如何处理年龄与冠心病发生率的关系?
连续变量?
其他?
亚变量的设置:例2(续)亚变量的设置:例2(续)x1 = 0,x2 = 0,x3 = 0,为40~49岁(参照)
x1 = 1,x2 = 0,x3 = 0,为50~54岁
x2 = 1,x1 = 0,x3 = 0,为55~59岁
x3 = 1,x1 = 0,x2 = 0,为60~62岁
─────────────────
年龄(岁) x1 x2 x3
─────────────────
40~49(参照) 0 0 0
50~54 1 0 0
55~59 0 1 0
60~62 0 0 1
─────────────────亚变量的设置:例2(续)亚变量的设置:例2(续)得到冠心病发生率与年龄、性别、收缩血压关系的多变量线性回归方程如下:
y = 0.0613 + 0.0277×x1 + 0.0826×x2 + 0.0845×x3 + 0.1273×x4 + 0.1680×x5
上式中y = log(冠心病发生率/(1-冠心病发生率))亚变量的设置:例2(续)亚变量的设置:例2(续)有时自变量(如年龄)虽然是连续变量,但按其每改变一个单位(一岁),来估计其对因变量的影响很微弱,如将其划分成大小不同的几种属性,并设立亚变量,则可看出不同属性对因变量的影响大小。
这种指标分解方法的优点是有助于分清究竟哪种属性对所研究疾病危险性的作用较大,也便于研究因素间的交互作用。
三、线性回归基本SAS程序三、线性回归基本SAS程序nullnullPROC REG data=文件名;
调用REG过程并指明对哪个文件执行分析,若省略“data= “ ,则SAS会自动找出在本程序之前最后形成的SAS语句。
nullModel 因变量=自变量/选择项;
每次调用REG过程至少要有一个MODEL语句。
MODEL Y=X; 一个应变量对一个自变量的回归
MODEL Y=X1 X2 X3; 一个应变量对多个自变量的回归
MODEL Y1 Y2=X1 X2 X3; 多个应变量对多个自变量的回归
nullMODEL语句中的选择项之一:
界定有关参数估计值的有关选项:
/STB:要求计算模型中各自变量的
标准
excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载
回归系数;
/CLM:计算出预测值平均数的95%可信区间的
上、下限;
/CLI:计算出各预测值的95%可信区间的上、下限;
多元回归基本SAS程序多元回归基本SAS程序proc reg;
model y=x1 x2/stb;
run;四、几个重要的概念四、几个重要的概念偏回归系数:
标准回归系数:
决定系数:
校正复相关系数:
剩余标准差:偏回归系数(bj)偏回归系数(bj)当方程中其他自变量固定时,Xj每改变一个单位,引起Y的平均变化量,也就是说bj的大小反映了Xj对Y的影响程度。
标准回归系数标准回归系数由于各自变量取值的单位及其离散程度通常不同,所以各量纲不同的回归系数之间不能直接比较大小。为此,需要对偏回归系数进行标准化以消除量纲的影响。
标准回归系数绝对值的大小可用来衡量自变量对应变量Y的贡献大小,以说明各变量在多元回归方程中的重要性。
决定系数(R2)决定系数(R2)R2=SS回/SS总
取值范围在0与1之间,无单位。反映了回归贡献的相对程度,也就是在Y的总变异中回归所能解释的百分比。
主要通过决定系数数值的大小来反映回归或相关的实际效果。
例如:决定系数=0.9587,说明所求的回归方程能够解释的应变量变异占应变量总变异的95.87%
存在的问题:随方程中自变量的增加而加大,即使引入无显著性变量,其值也会略有增加校正决定系数(R2adj)校正决定系数(R2adj)
其中n为拟合模型的观察单位数;
m为方程中所含变量个数
剩余标准差剩余标准差扣除各自变量Xj组合对应变量Y的线性关系影响后所剩下的变异。
回归估计精度的指标
越小回归方程估计误差也越小,估计精度越高。
null剩余标准差一般随方程中自变量的增加而减少
但若引入某些对应变量Y无显著作用的自变量时,由于回归平方和增加很小,剩余平方和减少很小,但剩余自由度却减少,故求得的剩余标准差反而加大。
即方程中增加有显著作用的变量时,R2adj增加,MSE减少;而方程中引入无显著作用变量时,R2adj可能减小,MSE反而加大。
因此,常以R2adj越大,MSE越小作为多元回归方程估计效果评价的指标。
五、线性回归方程的评价五、线性回归方程的评价(一)评价整个方程在α水准下是否有显著性(一)评价整个方程在α水准下是否有显著性在SAS软件中,对多元线性回归方程的假设检验采用方差分析进行
U:回归平方和,反映由于方程中m个自变量与应变量Y间的线性关系,而使应变量Y变异减小的部分;
m为回归自由度,即方程中所含自变量的个数;
Q为剩余平方和,说明除自变量外,其他随机因素对Y变异的影响;
n-m-1为剩余自由度。
null如果整个方程在指定的α水准下有显著性意义时,并不说明方程中每个自变量xj都对yi有显著性影响。还需对各个自变量的偏回归系数逐个进行检验。
但如果整个方程经F检验无显著性,就不必对bj逐个进行检验。(二)评价方程中每个变量的显著性意义(二)评价方程中每个变量的显著性意义即对方程中的各偏回归系数的假设检验。
对每个偏回归系数的检验,在SAS软件中,多元线性回归分析以t检验方法来表达,逐步回归采用F检验。
null另外,在多元线性回归分析中,直接建立y与全部自变量之间的线性回归模型通常是不可取的,在建立回归方程的过程中有必要对变量进行筛选。
在建立回归方程时,要遵循一个原则,即“少而精”。(三)几个重要的评价方程质量的指标(三)几个重要的评价方程质量的指标1. 决定系数(determination coefficient)
2. 校正复相关系数(adjusted multiple correlation coefficient)
3. 剩余标准差(residual standard deviation)
4. 赤池信息准则(Akaike’s Information Criterion,AIC)
5. Cp统计量(Cp statistic)赤池信息准则(AIC)赤池信息准则(AIC)是日本学者赤池于1973年提出的应用于时间序列分析中自回归阶数的确定,多元回归、广义线性回归中自变量的筛选,以及非线性回归模型的比较和选优。
有两种估计方法,一个是用极大似然估计,一个是用最小二乘法,均同时考虑了模型中参数的个数以及样本量的大小,其原则也是越小越好。 Cp统计量 Cp统计量C.L.Mallows(1964)提出了Cp统计量的概念。
选用Cp统计量选择模型的准则是:选择Cp最接近p(表示选择的模型中参数的个数)的那个模型。注意注意在应用这些准则的时候要注意:只有对因变量y的假设条件相同,且估计方法相同时,才能相互比较。如用AIC判断两个拟合方程的好坏,一个是用极大似然估计,一个是用最小二乘法,则不能直接比较。
null在自变量较少时,可以求出所有可能的回归,然后应用上述准则从中选出“最优”回归方程。
如果自变量为m个,则可能的回归方程有2m-1中。六、变量的选择
和最优模型的建立六、变量的选择
和最优模型的建立变量选择的原则变量选择的原则研究假说
最优回归模型
全模型及其各参数估计值均有显著性意义
如效果相似,模型中所包含的变量数越少越好
各个变量在专业上都有实际意义
选择变量的常用方法选择变量的常用方法1、前向回归法/前进法(Forward Selection)
在供选的多个自变量xi中,按其对y的作用大小(即偏回归平方和的大小),由大到小将自变量逐个引入方程
每引入一个自变量即对其作显著性检验,如呈显著性时才正式将其列入方程
直至没有新的、有显著性的自变量可引入方程时为止。
已引入方程的自变量,在引入新的自变量后,无论有无显著性,不再剔出方程。选择变量的常用方法(续)选择变量的常用方法(续)2、后向回归法/后退法(Backward Dimination)
与前进法相反。
即先将供选的多个自变量xi按其对y的作用大小(即偏回归平方和的大小),一起引入方程,然后将各个自变量逐一剔除,并作显著性检验,直至方程中保留的所有变量都有显著性时为止。选择变量的常用方法(续)选择变量的常用方法(续)3、逐步回归方法(Stepwise REG)
在供选的多个自变量xi中按其对y的作用大小(即偏回归平方和的大小),由大到小将自变量逐个引入方程,每引入一个自变量即对其作显著性检验,如有显著性时才正式将其列入方程
而每当引入一个新的自变量后对原方程中的原有的自变量也要重新作显著性检验,将退变为作用无显著性的自变量剔除出方程。
再引入一个新的自变量,再检验,再剔除,如此逐步循环,直至没有新的、有显著性的自变量可引入方程、方程中的所有变量也都呈显著性时为止。选择变量的常用方法(续)选择变量的常用方法(续)4、判定法(Rsquare REG)
它与多元回归法类似,以R2的值的大小来判定某变量入选后对模型贡献大小。R2越大,该变量入选后对模型的贡献也越大。nullMODEL语句中的选择项之:
界定回归模型的选项:
(1) selection=Forward;(前进法)
selection=Backward;(后退法)
selection=stepwise;(逐步回归法)
selection=none;(系统默认值,进行全回归分析)
(2) Details;
include=正整数(如3);(这个选项规定将model指令前几个(如3个)自变量纳入每一回归模型汇总,此选项不能与selection=none的设定联用。
nullMODEL语句中的选择项之:
界定回归模型的选项:
(4) STOP=正整数(如5); (REG程序搜寻出一个含STOP=正整数个数的最佳回归模型后即停止)
(5) SLENTRY= ;(或SLE= ;)
进入模型的显著性水平的设置,其中前进法默认值为0.5,逐步回归法默认值为0.15
(6) SLSTAY= ; (或SLS= ;)
保留在模型中的显著性水平的设置,其中后退法默认值为0.10,逐步回归法默认值为0.15
(7) NOINT;
回归模型中不包含截距。 练习后小结 练习后小结null从以上的练习可看到:
不同的逐步回归方法所得到的结果不同;
不同的界值所得到的结果不同;
方程的优劣与界值的大小无必然联系;
逐步回归所得到的结果不一定是真正最优的;null如果事先已经确定某自变量对因变量结果有重要影响,则该变量必须一直留在方程中,不参加变量的筛选,不管它是否有显著性。变量筛选接受后,再考虑该变量的回归系数是否与实际情况相符。null如果模型与实际情况不符,则需查找原因。
样本量太小或自变量数太多
异常值
自变量间存在共线性等
六、回归系数反常的原因
(此部分不做要求
仅供参考)六、回归系数反常的原因
(此部分不做要求
仅供参考)出现回归系数反常的常见原因出现回归系数反常的常见原因样本量不够,或自变量数太多;
异常值;
自变量的变异太小;
自变量间存在共线性。(一)样本量问题(一)样本量问题有学者认为,作多元回归分析时所需样本量一般是所研究变量数m的10~20倍。
但这一要求在复相关系数(决定系数的平方根)大于0.5时尚可,而对于较小的复相关系数则仍然偏小。(二)异常值及强影响点(二)异常值及强影响点定义:在回归分析应用中,数据常含有一些异常或极端的观察值,即这些观察值与其他数据远远分开,并可产生较大的残差,严重影响了回归函数的拟合。
原因:
真实存在
录入错误
null异常点判别方法:
图示法:散点图、残差图:适用于当模型中所含变量少时。
统计学指标:
学生化残差(studentized residual):当其大于2时,提示所对应的观察值点可能是异常点。
null强影响点判别方法:
库克氏距离(Cook‘D):通常认为其大于0.5时,可认为第I个观察点对回归函数拟合有较强的影响。
null4.MODEL语句中的选择项之:
界定异常值和强影响点的有关参数:
/R:进行预测值的残差分析;
/INFLUENCE:规定对每个观测值进行影响分析,以判断其观测对估计及预测值的影响。(三)共线性问题(三)共线性问题在回归分析中存在多元共线性是一个十分普遍的现象。
自变量之间的任何相关都标志着多元共线性的存在。
null1.共线性的存在所带来的后果:
回归系数估计值不稳定,表现为:
回归参数估计值的标准误很大;
原本非常重要的自变量对回归无统计学意义而不能进入方程;
严重时可使样本回归系数可大可小,可正可负,其专业意义无法解释而出现悖论。
对这些前提条件和数据可靠性从统计方法上进行检查即为回归诊断,同时也必须结合专业考虑。
null2. 共线性判别方法:
2.1 Xj的容许值(TOL)
TOL(j)=1-R2(j)
R2(j)为Xj与其余m-1个回归变量间线性相关的程度,如果Xj与其余m-1个自变量共线性严重,则R2(j)=1,则TOL=0,反之TOL=1。
这个方法简单,但无明确诊断界限,可作为共线性诊断的参考指标。
null2.2 方差膨胀因子(VIF)
VIF=1/1-R2(j)
Ri1,自变量共线性严重,VIF非常大,而容许值接近0(<0.1),该变量不由其它变量说明的部分较小,该自变量与其它自变量关系较密切。
如Ri0,自变量几无共线性,VIF和容许值都接近于1。
VIF>5或10,或容许值<1/5或1/10,存在严重共线性。null2.3特征根系统指标(system of eigenvalues)
2.3.1 特征根(eigenvalue) :
在共线性关系严重时,至少有一个特征根接近于0。因此可用近于0的特征根个数来了解共线关系的数目。
它和VIF以及TOL等指标,主要集中描述的是某回归变量相关的情况。
一个小特征根的出现,表明不只一个或所有的回归系数,都可能受到一定的影响。
null2.3.2 条件指数(condition index)与方差比(variance proportions) :
条件指数是最大特征根与每个特征根之比的平方根,用Φ表示。当Φ>10,即可认为有共线关系存在。
共线性严重存在的诊断界值:条件指数大于等于10,且所对应的方差比大于0.5null解决共线性问题的方法有很多,可以采用岭回归、主成分回归等方法。nullMODEL语句中的选择项之一:
界定共线性的有关参数:
/TOL(tolerance of Xj):要求计算模型中各自变量的容许值;
/VIF(variance inflation factors):计算、输出各自变量的方差膨胀因子;
/COLLIN:对回归模型的自变量(包括回归常数)做共线性分析;
/COLLINNOINT:对回归模型的自变量(不包括回归常数)做共线性分析;应用多变量线性回归分析
注意事项应用多变量线性回归分析
注意事项适用条件:因变量必须是连续变量,自变量既可以是连续变量、又可以是属性变量。
多变量回归分析的应用需符合一定假设:LINE应用多变量线性回归分析
注意事项(续)应用多变量线性回归分析
注意事项(续)应用多变量回归分析时,最重要的是注意:
① 数据是否符合数学模型的假设;
② 是否有代表性;
③ 考虑R2的大小,如R2很小,说明自变量与因变量的相关关系不大,或是拟合的模型欠妥;
④ 变量变化范围太小,回归平方和就小,不易有显著性;
⑤ 变量测量误差太大,易出现异常值;
⑥ 是否样本含量过小?应用多变量线性回归分析
注意事项(续)应用多变量线性回归分析
注意事项(续)如果y与xi之间存在依存关系,且有显著性意义,并不证明其间存在因果关系,必须根据变量的本质,结合专业知识作出正确的因果判断。
xi并非随机变量,xi的取值范围不能超出观察值范围,故回归方程不能随意外推,不适当的外推可导致错误的结论。线性回归观察数据与外推线性回归观察数据与外推应用多变量线性回归分析
注意事项(续)应用多变量线性回归分析
注意事项(续)如各自变量内在相关(自相关)程度较大,bj的误差可能较大,有时使bj不显著,此时宜将内部相关的变量剔除。
如数据呈极大或极小的极端值(或异常值)时,不应随意取舍,应对其影响大小作出诊断后,再决定如何处理。
如自变量入选方程,说明其对y有作用,可以是独立作用,也可能是交互作用。应用多变量线性回归分析
注意事项(续)应用多变量线性回归分析
注意事项(续)剔除或入选自变量时所规定的P值界限不同,所得的回归方程也不相同
哪些自变量应列入方程,除考虑该变量可能对y的估计有作用外,还需考虑获取该变量数据的难易程度、及所需的相对费用大小
线性相关线性相关
两个随机变量间(如年龄和血压)是否存在线性联系;联系的方向(正向或负向)及程度。
两个连续型变量X和Y都随机变动且不分主次,可通过线性相关(linear correlation)分析来刻他们之间可能存在的线性联系的方向与程度。分为正相关、负相关和零相关。
null线性相关分析的注意事项线性相关分析的注意事项进行线性相关分析之前最好先做原始数据的散点图,其目的
变量之间是否存在线性联系;
可初步看出变量分布是否正态;
是否存在异常点(outlier)。
变量取值非随机时不能作相关。如在某些医学问题中,一个变量是随机变动,另一个数值人为选定时不能做相关分析。
例:研究药物的剂量-反应关系,人为选定n种剂量,观察每种剂量下动物的反应。线性相关分析的注意事项线性相关分析的注意事项相关分析中对变量的选择及统计结果的解释要结合专业背景,切不可把任意两个变量拉在一起盲目下结论。
即使专业上有理由作相关,两变量的地位也是平等的,所揭示的可能仅是一种统计学上的关联性,不一定是因果联系。
样本足够大时绝对值较小的样本相关系数也易得到较小的p值,故而结果有统计学意义并不一定反映相关就很密切。nullSAS程序:
proc plot;
plot oxygen*runtime='s';
plot oxygen*weight='*';
plot oxygen*age='#';
run;
proc corr;
var oxygen sbp1;
run;多重相关分析(续)多重相关分析(续)复相关系数(全相关系数)表示变量y与变量xk(k=1,2,3,…k)之间的线性密切程度
复相关系数度量一个变量与多个变量间的线性相关关系
复相关系数是总体相关系数ρ的有偏估计,其取值0~1之间null*