首页 多元统计分析及R语言建模考试试卷

多元统计分析及R语言建模考试试卷

多元统计分析及R语言建模考试试卷多元统计分析及R语言建模考试试卷教师填写课程名称：_____多元统计分析______________授课教师姓名：________王斌会______________考试时间:__年_____月______日课程类别必修[]选修[] 考试方式开卷[]闭卷[] 试卷类别(A、B)[A]共8页考生填写学院(校)专业班(级)姓名学号题号一二三四五六七八九十总分得分得分评阅人一、简答题（共5小题，每小题6分，共30分） 1.常用的多元统计分析方法有...

多元统计分析及R语言建模考试试卷教师填写课程名称：_____多元统计分析______________授课教师姓名：________王斌会______________考试时间:__年_____月______日课程类别必修[]选修[] 考试方式开卷[]闭卷[] 试卷类别(A、B)[A]共8页考生填写学院(校)专业班(级)姓名学号题号一二三四五六七八九十总分得分得分评阅人一、简答题（共5小题，每小题6分，共30分） 1.常用的多元统计分析方法有哪些？（1）多元正态分布检验（2）多元方差-协方差分析（3）聚类分析（4）判别分析（5）主成分分析（6）因子分析（7）对应分析（8）典型相关性分析（9）定性数据建模分析（10）路径分析（又称多重回归、联立方程）（11）结构方程模型（12）联合分析（13）多变量图表示法（14）多维标度法2.简单相关分析、复相关分析和典型相关分析有何不同？并举例说明之。简单相关分析：简单相关分析是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度，是研究随机变量之间的相关关系的一种统计方法。例如，以X、Y分别记小学生的数学与语文成绩，感兴趣的是二者的关系如何，而不在于由X去预测Y。复相关分析；研究一个变量x0与另一组变量(x1,x2,…，xn)之间的相关程度。例如,职业声望同时受到一系列因素（收入、文化、权力……）的影响，那么这一系列因素的总和与职业声望之间的关系，就是复相关。复相关系数R0.12…n的测定，可先求出x0对一组变量x1，x2，…，xn的回归直线，再计算x0与用回归直线估计值悯之间的简单直线回归。复相关系数为R0.12…n的取值范围为0≤R0.12…n≤1。复相关系数值愈大，变量间的关系愈密切。典型相关分析就是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。它的基本原理是：为了从总体上把握两组指标之间的相关关系，分别在两组变量中提取有代表性的两个综合变量U1和V1（分别为两个变量组中各变量的线性组合），利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。3.试说明主成分分析和因子分析不同点和相同之处。主成分分析和因子分析的相同之处1.都可以降维、分析多个变量的基本结构2.因子分析是主成分分析的进一步推广。主成分分析可被视为一种固定效应的因子分析，是因子分析的特列3.都是利用变量之间的相关性将它们进行分类4.主成分分析中，各个主成分之间互不相关；因子分析中，公因子之间不相关、特殊因子之间不相关、公因子与特殊因子之间不相关主成分分析和因子分析的区别1、因子分析中是把变量表示成各因子的线性组合，而主成分分析中则是把主成分表示成个变量的线性组合。 2、主成分分析的重点在于解释个变量的总方差，而因子分析则把重点放在解释各变量之间的协方差。 3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括：各个共同因子之间不相关，特殊因子（specific factor）之间也不相关，共同因子和特殊因子之间也不相关。 4、主成分分析中，当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候，的主成分一般是独特的；而因子分析中因子不是独特的，可以旋转得到不同的因子。 1、因子分析中是把变量表示成各因子的线性组合，而主成分分析中则是把主成分表示成个变量的线性组合。 4.判别分析以及Fisher判别和Bayes判别的基本思想是什么？判别分析：根据判别中的组数，可以分为两组判别分析和多组判别分析；根据判别函数的形式，可以分为线性判别和非线性判别；根据判别式处理变量的方法不同，可以分为逐步判别、序贯判别等；根据判别标准不同，可以分为距离判别、Fisher判别、Bayes判别法等Fisher判别法；通过将多维数据投影到某一方向上，使得投影之后类与类之间尽可能分开，然后再寻找合适的判别准则。Bayes判别法：假设已知对象的先验概率和“先验条件概率”, 而后得到后验概率, 由后验概率作出判别。5.指出综合评价中指标的标准化方法及其优缺点和有哪些综合评价方法。标准化方法(1)主成分分析法。主成分分析是多元统计分析的一个分支。是将其分量相关的原随机向量，借助于一个正交变换，转化成其分量不相关的新随机向量，并以方差作为信息量的测度，对新随机向量进行降维处理。再通过构造适当的价值函数，进一步做系统转化。(2)数据包络分析法。它是创建人以其名字命名的DEA模型——CR模型。DEA法不仅可对同一类型各决策单元的相对有效性做出评价与排序，而且还可进一步分析各决策单元非DE有效的原因及其改进方向，从而为决策者提供重要的管理决策信息。(3)模糊评价法。模糊评价法奠基于模糊数学。它不仅可对评价对象按综合分值的大小进行评价和排序，而且还可根据模糊评价集上的值按最大隶属度原则去评定对象的等级。综合评价方法1、计分法 2、综合指数法 3、Topsis法4、秩和比(RSR)法 5、层次分析(AHP)法 6、模糊评价方法 7、多元统计分析方法 8、灰色系统评价方法得分评阅人二、证明题（共1小题，共20分）设y=a1x1+a2x2+…+apxpax，其中a=(a1，a2，…，ap)，x=(x1，x2，…，xp)，求主成分就是寻找x的线性函数ax使相应的方差达到最大，即Var(ax)=aa达到最大，且aa=1，此处为x的协方差阵。设的特征根为。试证明下面性质：（1）y=Ux，UU=I，这里U为x的协方差阵的特征向量（单位化的）组成的正交阵。（2）y的各分量之间是互不相关的。（3）y的p个分量是按方差大小、由大到小排列的。（4）y的协方差阵为对角阵。（5），这里=(ii)pp（6）证明（1）（2）（3）：设的特征向量为U=(u1，u2，…，up)，则UU=I，即U为一正交阵，且=UU=Udiag()U=uiui因此aa=auiuia=(aui)(aui)=(aui)2于是aa(aui)2=(aU)(aU)=aUUa=aa=应取时，u1u1=u1u1=故y1=ux就是第一主成分，其方差最大，Var(y1)=Var(u1x)=同理，Var(yi)=Var(uix)=另外，Cov(yi,yj)=Cov(uix,ujx)=uiuj=uiuj=uiuj=0，i因此，有上述可得变量x的主成分是以的特征向量为系数的线性组合，且主成分y之间互不相关，y的p个分量是按方差大小、由大到小排列的。性质（1）（2）（3）得证。性质（4）可有（1）（2）（3）得到。证明性质（5）：由U=，则有=UU于是=tr()=tr(UU)=tr(UU)=tr()=证明性质（6）：（6）由前面的证明得知令ej=()为单位向量，则xj=ejx，yi=uix所以，Cov(yi,xj)=Cov(uix,ejx)=ejD(x)ui=ejui=ejui=uij故性质（6）得证得分评阅人三、运算题（共3小题，共20分）下面左表为五个观察值，两个变量的数据，右表为用欧氏距离计算的距离矩阵， x1 x2 1 5 7 2 7 1 3 3 2 4 6 5 5 6 6 1.（10分）写出用R语言分析的命令(1)请将数据x1和x2写入R向量中：x1=c(5,7,3,6,6);x1x2=c(7,1,2,5,6);x2(2)写出绘制上面散点图的R命令：x1=c(5,7,3,6,6);x1x2=c(7,1,2,5,6);x2plot(x1,x2)(3)写出绘制系统聚类图的R命令：X=data.frame(x1,x2);XD=dist(X,diag=TRUE,upper=TRUE);Dhc=hclust(D,'complete');hcplot(hc)2．（5分）(1)写出计算下面绝对距离阵的R命令：x1=c(5,7,3,6,6)x2=c(7,1,2,5,6)X=data.frame(x1,x2);XD=dist(X,diag=TRUE,upper=TRUE,p=1);D12345108732280556375067435601526710（2）试在图中标出这些距离3.（5分）试用最长距离法对其进行聚类分析，画出聚类图，并按二类、三类进行分类第一步：计算距离阵X=data.frame(x1,x2);XD=dist(X,diag=TRUE,upper=TRUE);D第二步：进行系统聚类（最长距离法）hc=hclust(D,'complete');hc第三步：画出聚类图（1）按二类进行分类plot(hc);rect.hclust(hc,2)（2）按三类进行分类plot(hc);rect.hclust(hc,3) 得分评阅人四、案例分析题（共2小题，共30分）我们知道，财政收入与国民生产总值和税收等经济指标有密切的依存关系。今收集了我国改革开放以来财政收入(y：百亿元)，国民生产总值(x1:百亿元)，税收(x2:百亿元)，进出口贸易总额(x3:百亿元)，经济活动人口(x4:百万人)的部分数据，见下表所示，分析财政收入和国民生产总值、税收、进出口贸易总额、经济活动人口之间的关系。表1财政收入多因素分析数据 y x1 x2 x3 x4 1991 31.4948 216.625 29.9017 72.258 660.91 1992 34.8337 266.519 32.9691 91.196 667.82 1993 43.4895 345.605 42.553 112.710 674.68 1994 52.1810 466.700 51.2688 203.819 681.35 1995 62.4220 574.949 60.3804 234.999 688.55 1996 74.0799 668.505 69.0982 241.338 697.65 1997 86.5114 731.427 82.3404 269.672 708.00 1998 98.7595 769.672 92.628 268.577 720.87 1999 114.4408 805.794 106.8258 298.963 727.91 2000 133.9523 882.281 125.8151 392.742 739.92 2001 163.8604 943.464 153.0138 421.933 744.32 2002 189.0364 1203.327 176.3645 513.782 753.60 2003 217.1525 1358.228 200.1731 704.835 760.75 2004 263.9647 1598.783 241.6568 955.391 768.23 2005 316.4929 1832.174 287.7854 1169.218 778.77 2006 387.6020 2119.235 348.0435 1409.714 782.44 2007 513.2178 2495.299 456.2197 1667.402 786.45 2008 613.3035 3006.700 542.1962 1778.8983 790.481.基本统计分析和R语言命令（15分）(1)如果将该数据存入到一个文本文件reg.txt中，写出将该文本数据读入数据框dat中的R命令：dat=read.table("reg.txt",,header=T)(1分)(2)如果将该数据拷贝到剪切板中，写出将该数据读入数据框dat中的R命令：dat=read.table("clipboard",header=T)(1分)(3)写出提取2000年数据的R命令：dat[10,](1分)写出提取税收(x2)数据的R命令：dat[,5](1分)写出提取2001年至2008年经济活动人口(x4)数据的R命令：dat[11:18,5](1分)(4)写出计算财政收入统计量的R命令：summary(y)(2分)Min.1stQu.MedianMean3rdQu.Max.31.4965.34124.20188.70252.30613.30(5)写出计算下面相关阵R命令：cor(dat)(2分)yx1x2x3x4y1.00000.99240.99990.98740.8736x10.99241.00000.99380.98830.9126x20.99990.99381.00000.98810.8811x30.98740.98830.98811.00000.8807x40.87360.91260.88110.88071.0000(6)写出计算下面回归系数的R命令：fm=lm(y~x1+x2+x3+x4,data=dat);fm(2分)Coefficients:(Intercept)x1x2x3x484.620300.002071.16908-0.00305-0.13391(7)写出计算下面检验的R命令：summary(fm)(2分)Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)84.6203012.744426.641.6e-05***x10.002070.004910.420.68x21.169080.0211355.32<2e-16***x3-0.003050.00367-0.830.42x4-0.133910.01969-6.801.3e-05***---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:1.18on13degreesoffreedomMultipleR-squared:0.999,AdjustedR-squared:0.998F-statistic:8.87e+04on4and13DF,p-value:<2e-16(8)写出计算下面检验的R命令：fm1=lm(y~x2+x4,data=dat);fm1summary(fm1)(2分)Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)82.103619.044429.0781.76e-07***x21.167680.00385303.331<2e-16***x4-0.129450.01318-9.8186.36e-08***---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1Residualstandarderror:1.126on15degreesoffreedomMultipleR-squared:1,AdjustedR-squared:1F-statistic:1.942e+05on2and15DF,p-value:<2.2e-162.在上面计算的基础上进行进一步分析(15分)(1)试问该回归方程有无统计学意义，为什么？(2分)由F检验结果可知，P值小于0.5，于是在0.05的显著性水平上拒绝原假设，所以认为整个回归方程有统计学意义。(2)该模型的复相关系数、决定系数、调整复相关系数平方和剩余标准差(3分)复相关系数：0.9994决定系数：0.999调整复相关系数平方：0.998剩余标准差：1.18(3)由于方程的P<0.001，能否说明每个自变量都有显著作用，为什么？(3分)整个方程的统计学意义判定可以由F检验得知，每一个自变量的显著性应由t检验得到。故由t检验结果可知，偏回归系数b2和b4的P值小于0，可认为解释变量税收x2、经济活动人口x4,显著；b1和b3的P值大于0.5，不能否定解释变量系数为0的假设，可以认为国内生产总值x1、进出口贸易总额x3对财政收入没有影响。(4)本例是用何种方法做的回归分析，你认为应该用什么方法为好？(3分)本例是采用全部子集法，应该采用逐步回归法(5)预测：试用该方程对来年的财政收入进行预测，已知：x1=3100(百亿元),x2=560(百亿元),x3=1900(百亿元),x4=800(万人)，试写出预测其结果的R语句并用建立的模型计算预测结果。(4分)R语句：predict(fm,data.frame(x1=3100,x2=560,x3=1900,x4=800))预测结果：632.4478

                    本文档为【多元统计分析及R语言建模考试试卷】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

多元统计分析及R语言建模考试试卷

你可能还喜欢