首页 统计回归模型实例[1]

统计回归模型实例[1]

举报
开通vip

统计回归模型实例[1]nullnull统计回归模型实例1 牙膏的销售量 2 软件开发人员的薪金 3 酶促反应 4 投资额与国民生产总值和 物价指数 5 教学评估null回归模型是用统计分析方法建立的最常用的一类模型 数学建模的基本方法机理分析测试分析通过对数据的统计分析,找出与数据拟合最好的模型 不涉及回归分析的数学原理和方法 通过实例讨论如何选择不同类型的模型 对软件得到的结果进行分析,对模型进行改进 由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律...

统计回归模型实例[1]
nullnull统计回归模型实例1 牙膏的销售量 2 软件开发人员的薪金 3 酶促反应 4 投资额与国民生产总值和 物价指数 5 教学评估null回归模型是用统计分析方法建立的最常用的一类模型 数学建模的基本方法机理分析测试分析通过对数据的统计分析,找出与数据拟合最好的模型 不涉及回归分析的数学原理和方法 通过实例讨论如何选择不同类型的模型 对软件得到的结果进行分析,对模型进行改进 由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。 null1 牙膏的销售量 问题建立牙膏销售量与价格、广告投入之间的模型 预测在不同价格和广告费用下的牙膏销售量 收集了30个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价 null基本模型y ~公司牙膏销售量x1~其它厂家与本公司价格差x2~公司广告费用x1, x2~解释变量(回归变量, 自变量) y~被解释变量(因变量) 0, 1 , 2 , 3 ~回归系数 ~随机误差(均值为零的正态分布随机变量)nullMATLAB 统计工具箱 模型求解[b,bint,r,rint,stats]=regress(y,x,alpha) 输入 alpha(置信水平,0.05) b~的估计值 bint~b的置信区间 r ~残差向量y-xb rint~r的置信区间 Stats~ 检验统计量 R2,F, p y~n维数据向量输出 由数据 y,x1,x2估计null结果分析y的90.54%可由模型确定 F远超过F检验的临界值 p远小于=0.05 2的置信区间包含零点(右端点距零点很近) x2对因变量y 的影响不太显著x22项显著 可将x2保留在模型中 模型从整体上看成立null销售量预测 价格差x1=其它厂家价格x3-本公司价格x4估计x3调整x4控制价格差x1=0.2元,投入广告费x2=650万元销售量预测区间为 [7.8230,8.7636](置信度95%)上限用作库存管理的目标值 下限用来把握公司的现金流 若估计x3=3.9,设定x4=3.7,则可以95%的把握知道销售额在 7.83203.7 29(百万元)以上null模型改进x1和x2对y的影响独立 null两模型销售量预测比较区间 [7.8230,8.7636]区间 [7.8953,8.7592] 控制价格差x1=0.2元,投入广告费x2=6.5百万元预测区间长度更短 nullx2=6.5x1=0.2 null交互作用影响的讨论价格差 x1=0.1 价格差 x1=0.3加大广告投入使销售量增加 ( x2大于6百万元)价格差较小时增加的速率更大 null完全二次多项式模型 MATLAB中有命令rstool直接求解null(二)多元二项式回归命令:rstool(x,y,’model’, alpha)nullx1=[-0.0500 0.2500 0.6000 0 0.2500 0.2000 0.1500 0.0500 -0.1500 0.1500 0.0200 0.0100 0.4000 0.4500 0.3500 0.3000 0.5000 0.5000 0.4000 -0.0500 -0.0500 -0.1000 0.2000 0.1000 0.5000 0.6000 -0.0500 0 0.0500 0.5500]; x2=[5.5000 6.7500 7.2500 5.5000 7.0000 6.5000 6.7500 5.2500 5.2500 6.0000 6.5000 6.2500 7.0000 6.9000 6.8000 6.8000 7.1000 7.0000 6.8000 6.5000 6.2500 6.0000 6.5000 7.0000 6.8000 6.8000 6.5000 5.7500 5.8000 6.8000]; y=[7.3800 8.5100 9.5200 7.5000 9.3300 8.2800 8.7500 7.8700 7.1000 8.0000 7.8900 8.1500 9.1000 8.8600 8.9000 8.8700 9.2600 9.0000 8.7500 7.9500 7.6500 7.2700 8.0000 8.5000 8.7500 9.2100 8.2700 7.6700 7.9300 9.2600]; x=[x1',x2']; rstool(x,y,'quadratic')null在Matlab工作区中输入命令: beta 得beta = 31.1478 16.7348 -8.3212 -2.4124 1.5219 0.7338null2 软件开发人员的薪金资历~ 从事专业工作的年数;管理~ 1=管理人员,0=非管理人员;教育~ 1=中学,2=大学,3=更高程度建立模型研究薪金与资历、管理 责任 安全质量包保责任状安全管理目标责任状8安全事故责任追究制幼儿园安全责任状占有损害赔偿请求权 、教育程度的关系分析人事策略的合理性,作为新聘用人员薪金的参考 null分析与假设 y~ 薪金,x1 ~资历(年)x2 = 1~ 管理人员,x2 = 0~ 非管理人员1=中学2=大学3=更高资历每加一年薪金的增长是常数; 管理、教育、资历之间无交互作用 教育线性回归模型 a0, a1, …, a4是待估计的回归系数,是随机误差 null模型求解R2,F, p 模型整体上可用资历增加1年薪金增长546 管理人员薪金多6883 中学程度薪金比更高的少2994 大学程度薪金比更高的多148 a4置信区间包含零点,解释不可靠!null残差分析方法 结果分析残差全为正,或全为负,管理—教育组合处理不当 残差大概分成3个水平, 6种管理—教育组合混在一起,未正确反映 。应在模型中增加管理x2与教育x3, x4的交互项 null进一步的模型增加管理x2与教育x3, x4的交互项R2,F有改进,所有回归系数置信区间都不含零点,模型完全可用 消除了不正常现象 异常数据(33号)应去掉 null去掉异常数据后的结果R2: 0.957  0.999  0.9998 F: 226  554  36701 置信区间长度更短残差图十分正常最终模型的结果可以应用null模型应用 制订6种管理—教育组合人员的“基础”薪金(资历为0)中学:x3=1, x4=0 ;大学:x3=0, x4=1; 更高:x3=0, x4=0 x1= 0; x2 = 1~ 管理,x2 = 0~ 非管理大学程度管理人员比更高程度管理人员的薪金高 大学程度非管理人员比更高程度非管理人员的薪金略低 null对定性因素(如管理、教育),可以引入0-1变量处理,0-1变量的个数应比定性因素的水平少1 评 注残差分析方法可以发现模型的缺陷,引入交互作用项常常能够改善模型 剔除异常数据,有助于得到更好的结果注:也可以直接对6种管理—教育组合引入5个0-1变量 null3 酶促反应 问题研究酶促反应(酶催化反应)中嘌呤霉素对反应速度与底物(反应物)浓度之间关系的影响 建立数学模型,反映该酶促反应的速度与底物浓度以及经嘌呤霉素处理与否之间的关系 设计了两个实验 :酶经过嘌呤霉素处理;酶未经嘌呤霉素处理。实验数据见下表: 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 null基本模型 Michaelis-Menten模型y ~ 酶促反应的速度, x ~底物浓度 1 , 2 ~ 待定系数 底物浓度较小时,反应速度大致与浓度成正比; 底物浓度很大、渐进饱和时,反应速度趋于固定值。酶促反应的基本性质 实验数据null线性化模型 经嘌呤霉素处理后实验数据的估计结果 对1 , 2非线性 null线性化模型结果分析 x较大时,y有较大偏差 1/x较小时有很好的线性趋势,1/x较大时出现很大的起落 参数估计时,x较小(1/x很大)的数据控制了回归参数的确定 null[beta,R,J] = nlinfit (x,y,’model’,beta0) beta的置信区间MATLAB 统计工具箱 输入 x~自变量数据矩阵 y ~因变量数据向量beta ~参数的估计值R ~残差,J ~估计预测误差的Jacobi矩阵 model ~模型的函数M文件名 beta0 ~给定的参数初值 输出 betaci =nlparci(beta,R,J) 非线性模型参数估计function y=f1(beta, x) y=beta(1)*x./(beta(2)+x);x= ; y= ; beta0=[195.8027 0.04841]; [beta,R,J]=nlinfit(x,y,’f1’,beta0); betaci=nlparci(beta,R,J); beta, betaci beta0~线性化模型估计结果 nullx=[0.02 0.02 0.06 0.06 0.11 0.11 0.22 0.22 0.56 0.56 1.10 1.10]; y=[76 47 97 107 123 139 159 152 191 201 207 200]; beta0=[195.8027 0.04841]; [beta,R,J]=nlinfit(x,y,'hx',beta0); betaci=nlparci(beta,R,J); beta,betaci yy=beta(1)*x./(beta(2)+x); plot(x,y,'o',x,yy,'+'),pause nlintool(x,y,'hx',beta)null非线性模型结果分析画面左下方的Export 输出其它统计结果。拖动画面的十字线,得 y的预测值和预测区间剩余 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 差s= 10.9337其它输出命令nlintool 给出交互画面null混合反应模型 x1为底物浓度, x2为一示性变量 x2=1表示经过处理,x2=0表示未经处理 β1是未经处理的最终反应速度 γ1是经处理后最终反应速度的增长值 β2是未经处理的反应的半速度点 γ2是经处理后反应的半速度点的增长值 在同一模型中考虑嘌呤霉素处理的影响null混合模型求解用nlinfit 和 nlintool命令估计结果和预测剩余标准差s= 10.4000 2置信区间包含零点,表明2对因变量y的影响不显著null简化的混合模型 简化的混合模型形式简单,参数置信区间不含零点剩余标准差 s = 10.5851,比一般混合模型略大 估计结果和预测null一般混合模型与简化混合模型预测比较简化混合模型的预测区间较短,更为实用、有效预测区间为预测值  Δnull注:非线性模型拟合程度的评价无法直接利用线性模型的方法,但R2 与s仍然有效。酶促反应 反应速度与底物浓度的关系非线性关系求解线性模型 求解非线性模型嘌呤霉素处理对反应速度与底物浓度关系的影响混合模型 简化模型 null4 投资额与国民生产总值和物价指数 问题建立投资额模型,研究某地区实际投资额与国民生产总值 ( GNP ) 及物价指数 ( PI ) 的关系2.06883073.0424.5201.00001185.9195.0101.95142954.7474.9190.96011077.6166.491.78422631.7401.9180.9145 992.7144.281.63422417.8423.0170.8679 944.0149.371.50422163.9386.6160.8254 873.4133.361.40051918.3324.1150.7906 799.0122.851.32341718.0257.9140.7676 756.0125.741.25791549.2206.1130.7436 691.1113.531.15081434.2228.7120.7277 637.797.421.05751326.4 229.8110.7167 596.7 90.91物价 指数国民生产总值投资额年份 序号物价 指数国民生产总值投资额年份序号根据对未来GNP及PI的估计,预测未来投资额 该地区连续20年的统计数据 null时间序列中同一变量的顺序观测值之间存在自相关以时间为序的数据,称为时间序列 分析许多经济数据在时间上有一定的滞后性 需要诊断并消除数据的自相关性,建立新的模型若采用普通回归模型直接处理,将会出现不良后果 投资额与国民生产总值和物价指数 null基本回归模型投资额与 GNP及物价指数间均有很强的线性关系t ~年份, yt ~ 投资额,x1t~ GNP, x2t ~ 物价指数0, 1, 2 ~回归系数 t ~对t相互独立的零均值正态随机变量null基本回归模型的结果与分析 MATLAB 统计工具箱 剩余标准差 s=12.7164 没有考虑时间序列数据的滞后性影响R2=0.9908,拟合度高模型优点模型缺点可能忽视了随机误差存在自相关;如果存在自相关性,用此模型会有不良后果null自相关性的定性诊断 残差诊断法作残差 et~et-1 散点图大部分点落在第1, 3象限 大部分点落在第2, 4象限 自相关性直观判断在MATLAB工作区中输出et为随机误差t 的估计值 null自回归性的定量诊断ρ~自相关系数 0, 1, 2 ~回归系数 ρ= 0ρ> 0ρ< 0如何估计ρ 如何消除自相关性D-W检验 ut ~对t相互独立的零均值正态随机变量nullD-W统计量与D-W检验 检验水平,样本容量,回归变量数目检验临界值dL和dU由DW值的大小确定自相关性null广义差分变换 以*0, 1 , 2 为回归系数的普通回归模型原模型 DW值 无自相关 有自相关 新模型 步骤 不能确定null投资额新模型的建立 DWold < dL 作变换 原模型残差et样本容量n=20,回归变量数目k=3,=0.05 临界值dL=1.10, dU=1.54null总体效果良好 剩余标准差 snew= 9.8277 < sold=12.7164投资额新模型的建立 null新模型的自相关性检验dU< DWnew < 4-dU 新模型残差et样本容量n=19,回归变量数目k=3,=0.05 临界值dL=1.08, dU=1.53还原为 原始变量一阶自回归模型null一阶自回归模型残差et比基本回归模型要小模型结果比较null投资额预测对未来投资额yt 作预测,需先估计出未来的国民生产总值x1t 和物价指数 x2t设已知 t=21时, x1t =3312,x2t=2.1938ŷt 较小是由于yt-1=424.5过小所致null5 教学评估为了考评教师的教学质量,教学研究部门对学生进行问卷调查 ,得到15门课程各项评分的平均值. 问题X1 ~ 内容 财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容 组织的合理性;X2 ~问题展开的逻辑性; X3 ~回答学生的有效性;X4 ~课下交流的有助性; X5 ~教材的帮助性;X6 ~考试的公正性;Y ~总体评价.建立Y 与X1~ X6间简单、有效的模型,给教师提出建议. null从X1~ X6中挑选出对Y影响显著的变量建立回归模型.将所有对Y影响显著的X都选入模型,而影响不显著的X都不选入模型,使模型中自变量个数尽可能少. 问题分析 继续进行,直到不能引入和移出为止 . 确定一个包含若干X的初始集合S0 . 从S0外的X中引入一个对Y影响最大的, S0 S1 . 对S1中的X进行检验,移出一个影响最小的, S1 S2 . 引入和移出都以给定的显著 性水平为标准. 解决办法利用逐步回归null(4)“有进有出”的逐步回归分析。(1)从所有可能的因子(变量)组合的回归方程中选择最优者;(2)从包含全部变量的回归方程中逐次剔除不显著因子;(3)从一个变量开始,把变量逐个引入方程;选择“最优”的回归方程有以下几种方法: “最优”的回归方程就是包含所有对Y有影响的变量, 而不包含对Y影响不显著的变量回归方程。 以第四种方法,即逐步回归分析法在筛选变量方面较为理想.具体的是:null 这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。 逐步回归分析法的思想: 从一个自变量开始,视自变量Y作用的显著程度,从大到地依次逐个引入回归方程。 当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉。 引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。 对于每一步都要进行Y值检验,以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。null MATLAB统计工具箱中的逐步回归输入x~自变量集合的n×k 数据矩阵(n是数据容量, k是变量数目), y~因变量数据向量(n维) stepwise (x,y,inmodel,penter,premove) Inmodel~初始模型S0中包括的自变量集合的指标(即矩阵x的列序数,缺省时为无自变量) penter~引入变量的显著性水平(缺省时为0.05) premove~移出变量的显著性水平(缺省时为0.10) 输出几个交互式画面,供使用者人工选择变量,进行统计分析.null MATLAB统计工具箱中的逐步回归stepwise (x,y) 其中x为X1~ X6数据矩阵, y为Y 向量输出交互式画面null MATLAB统计工具箱中的逐步回归依次按照提示: Move x3 in, Move x1 in, Move x2 out null最终模型模型解释计算X1~ X6, Y 的相关系数矩阵(MATLAB的corrcoef ): 1.0000 0.9008 0.6752 0.7361 0.2910 0.6471 0.8973 0.9008 1.0000 0.8504 0.7399 0.2775 0.8026 0.9363 0.6752 0.8504 1.0000 0.7499 0.0808 0.8490 0.9116 0.7361 0.7399 0.7499 1.0000 0.4370 0.7041 0.8219 0.2910 0.2775 0.0808 0.4370 1.0000 0.1872 0.1783 0.6471 0.8026 0.8490 0.7041 0.1872 1.0000 0.8246 0.8973 0.9363 0.9116 0.8219 0.1783 0.8246 1.0000 与Y的相关系数大于0.85的是X1, X2, X3 . X2与X1, X3 的相关系数大于0.85.为什么只有X1, X2 进入最终模型?可以用X1, X3 代替nullX1提高1分Y提高0.5分, X3提高1分Y提高0.77分.模型解释X1 ~内容组织的合理性;X2 ~问题展开的逻辑性; X3 ~回答学生的有效性;X4 ~课下交流的有助性; X5 ~教材的帮助性;X6 ~考试的公正性;Y ~总体评价. 逐步回归是从众多变量中挑选出影响显著变量 的有效方法. 原有变量的平方项、交互项等也可以作为新变量 加入到候选行列,用逐步回归处理. 逐步回归
本文档为【统计回归模型实例[1]】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_891175
暂无简介~
格式:ppt
大小:1MB
软件:PowerPoint
页数:0
分类:理学
上传时间:2011-09-03
浏览量:24