贾俊平统计学(第七版)课后思考题整理

贾俊平统计学(第七版)课后思考题整理第一章导论1.什么是统计学？统计学是搜集、处理、分析、解释数据并从中得出结论的科学。2.解释描述统计与推断统计。描述统计研究的是数据搜集、处理、汇总、图表描述、概括与分析等统计方法。推断统计研究的是如何利用样本数据来推断总体特征的统计方法。3.统计数据可分为哪几种类型？不同类型的数据各有什么特点？按照计量尺度可分为分类数据、顺序数据和数值型数据；按照数据的搜集方法，可以分为观测数据和试验数据；按照被描述的现象与实践的关系，可以分为截面数据和时间序列数据。4.解释分类数据、顺序数据和数值型数据的含义。分类数据是只能归...

第一章导论1.什么是统计学？统计学是搜集、处理、分析、解释数据并从中得出结论的科学。2.解释描述统计与推断统计。描述统计研究的是数据搜集、处理、汇总、图表描述、概括与分析等统计方法。推断统计研究的是如何利用样本数据来推断总体特征的统计方法。3.统计数据可分为哪几种类型？不同类型的数据各有什么特点？按照计量尺度可分为分类数据、顺序数据和数值型数据；按照数据的搜集方法，可以分为观测数据和试验数据；按照被描述的现象与实践的关系，可以分为截面数据和时间序列数据。4.解释分类数据、顺序数据和数值型数据的含义。分类数据是只能归于某一类别的非数字型数据；顺序数据是只能归于某一有序类别的非数字型数据；数值型数据是按照数字尺度测量的观测值，其结果表现为具体的数值。5.举例说明总体、样本、参数、统计量、变量这几个概念。总体是包含所研究的全部个体的集合，样本是从总体中抽取的一部分元素的集合，参数是用来描述总体特征的概括性数字度量，统计量是用来描述样本特征的概括性数字度量，变量是用来说明现象某种特征的概念。6.变量可分为哪几类？变量可分为分类变量、顺序变量和数值型变量。分类变量是说明书屋类别的一个名称，其取值为分类数据；顺序变量是说明十五有序类别的一个名称，其取值是顺序数据；数值型变量是说明事物数字特征的一个名称，其取值是数值型数据。7.举例说明离散型变量和连续型变量。离散型变量是只能去可数值的变量，它只能取有限个值，而且其取值都以整位数断开，如“产品数量”；连续性变量是可以在一个或多个区间中取任何值的变量，它的取值是连续不断的，不能一一列举，如“温度”等。第二章数据的搜集1.什么是二手资料？使用二手资料需要注意些什么？与研究内容有关、由别人调查和试验而来、已经存在并会被我们所利用的资料为二手资料。使用时要评估资料的原始搜集人、搜集目的、搜集途径、搜集时间且使用时要注明数据来源。2.比较概率抽样和非概率抽样的特点。举例说明什么情况下适合采用概率抽样，什么情况下适合采用非概率抽样。概率抽样：指遵循随机原则进行的抽样，总体中每一个单位都有一定的机会被选入样本。当用样本对总体进行估计时，要考虑每个单位样本被抽中的概率。技术含量和成本都比较高。如果调查目的在于掌握和研究对象总体的数量特征，得到总体参数的置信区间，就使用概率抽样。非概率抽样：指抽取样本时不是依据随机原则，而是根据研究目的对数据的要求，采用某种方式从总体中抽取部分单位对其进行实施调查。操作简单、时效快、成本低。而且对于抽样中的统计学专业技术要求不是很高。它适合探索性的研究，调查结果用于发现问题，为更深入的数量分析提供准备。3.调查中搜集数据的方法主要有自填式、面访式、电话式。除此之外，还有哪些搜集数据的方法？试验式和观察式。4.自填式、面访式、电话式调查各有什么利弊？自填式优点：调查组织者管理容易；成本低，可进行大规模调查；减少被调查者回答敏感问题的压力。缺点：返回率低；调查内容有限；调查周期长；在数据搜集过程中遇见问题不能及时调整。面访式优点：回答率高；数据质量高；在调查过程中遇见问题可以及时调整。缺点：成本比较高；搜集数据的方式对调查过程的质量控制有一定难度；对于敏感问题，被访者会有压力。电话式优点：对调查员比较安全；对访问过程的控制比较容易。缺点：实施地区有限；调查时间不能过长；使用的问卷要简单；被访者不愿回答时，不易劝服。5.你认为应当如何控制调查中的回答误差？对于理解误差，我会学习一些心理学知识；对于记忆误差，我会尽量去缩短所涉及的时间范围；对于有意识误差，要做好被调查者的心理工作，要遵守职业道德，为被调查者保密，尽量在问卷中不涉及敏感问题。6.怎样减少无回答？请通过一个例子说明你所考虑到的减少无回答的具体措施。对于随机误差，要提高样本容量；对于系统误差，只有做好准备工作并做好补救措施。第三章数据的图表展示1.数据的预处理包括哪些内容？数据审核（对于原始数据：完整性和准确性；对于二手数据：实用性和实效性）、数据筛选和数据排序。2.分类数据和顺序数据的整理和图示方法各有哪些？分类数据：制作频数分布表，用比例、百分比和比率等进行描述性分析，可用条形图、帕累托图、饼图和环形图进行图示分析。顺序数据：制作频数分布表，用比例、百分比、比率、累计频数和累计频率等进行描述性分析，可用条形图、帕累托图、饼图、累计评书分布图和环形图进行分析。3.数值型数据的分组方法有哪些？简述组距分组的步骤。分组方法：单变量值分组和组距分组，组距分组又分为等距分组和异距分组。分组步骤：①确定组数②确定组距③根据分组整理成频数分布表。4.直方图与条形图有何区别？条形图使用的长度表示各类别频数的多少，其宽度固定；直方图用面积表示各组频数，矩形的高度表示魅族的频数或频率，宽度表示组距。直方图各矩形连续排列，条形图分开排列。直方图主要展示数值型数据。5.绘制线图应注意哪些问题？时间在横轴，观测值在纵轴。一般是长宽比例10：7的长方形，纵轴下端一般从0开始，数据与0距离过大的话用折断符号折断。6.饼图和环形图有什么不同？饼图只能显示一个样本或总体各部分所占比例，环形图可以同时绘制多个样本或总体的数据系列。7.茎叶图与直方图相比有什么优点？他们的应用场合是什么？茎叶图既能给出数据的分布情况，又能给出每个原始数据，即保留了原始数据的信息。茎叶图通常适用于小批量数据，直方图适用于大批量数据。8.鉴别图表优劣的准则有哪些？显示数据；有助于洞察问题的本质；使复杂的观点得到简明、确切、高效的阐述；快速高效地给读者提供大量的信息；多维的；表述数据的真实情况。9.制作统计表时应注意哪几个问题？合理安排统计表结构；表头一般包括表号、总标题和表中数据的单位等内容；在使用统计表时，必要时可在下方加注释注明数据来源。第四章数据的概括性度量1.一组数据的分布特征可以从哪几个方面进行测度？可以从数据分布的集中趋势、离散程度和分布的偏态与峰态三个方面进行测量。集中其实反映了各数据向其中心支靠拢或聚集的程度；离散程度反映了各数据原理其中心值的趋势；偏态与峰态反映了数据分布的图像形状。2.简述众数、中位数和平均数的特点和应用场合。众数是一组数据分布的峰值，不受极端值的影响，缺点是具有不唯一性。众数只有在数据量较多时才有意义。主要适合作为分类数据的集中趋势测度值。中位数是一组数据中间位置上的代表值，不受极端值影响，当数据分布的偏斜较大时，可以使用中位数。主要适合作为顺序数据的集中趋势测度值。平均是是针对数值型数据计算的，而且利用了全部数据信息。当数据呈对称分布或接近对称分布时，三个代表值相等或接近相等，这时应选平均数作为集中趋势的代表值。但平均数的主要缺点是易受极端值的影响；对于偏态分布的数据，平均数的代表性较差。3.简述异众比率、四分位差、方差或标准差的应用场合。异众比率主要用于测量分类数据的离散程度；四分位差主要用于测量顺序数据的离散程度；方差或标准差主要用于测量数值型数据的离散程度。4.标准分数有哪些用途？标准分数给出了一组数据中各数值的相对位置。在对多个具有不同量纲的变量进行处理时，常需要对各变量进行标准化处理。它还可以用来判断一组数据是否有离群数据。5.为什么要计算离散系数？方差和标准差是反映数据离散程度的绝对值，一方面其数值大小受原变量值本身水平高低的影响；另一方面，他们与原变量的计量单位相同，采用不同计量单位的变量值，其离散程度的测度值也就不同。6.测度数据分布形状的统计量有哪些？对于分布形状的测度有偏态和峰态。测度偏态的统计量是偏态系数；测度峰态的统计量是峰态系数。第五章概率与概率分布1.频率与概率有什么关系？在相同条件下随机试验𝑛次，某事件出现𝑚次，则比值𝑚𝑛称为该事件发生的频率。随着𝑛的增大，该频率围绕某一常数𝑝波动，且波动幅度逐渐减小，趋于稳定，这个频率的稳定值即为该事件的概率。第六章统计量及其抽样分布1.什么是统计量？为什么要引进统计量？统计量中为什么不含任何未知参数？统计量：设𝑋1,𝑋2,···,𝑋𝑛是从总体𝑋总抽取的容量为𝑛的一个样本，如果由此样本构造一个函数𝑇(𝑋1,𝑋2,···,𝑋𝑛)，不依赖于任何未知参数，则称函数𝑇(𝑋1,𝑋2,···,𝑋𝑛)是一个统计量。由样本构造具体的统计量，实际上是对样本信息进行加工并集中到统计量的取值上，便于通过统计量推断总体参数。由于样本已经抽出，故统计量总是知道的，因此统计量不含有任何未知参数。2.简述𝜒2分布、𝑡分布、F分布及正态分布之间的关系。正态分布：𝑍=𝑋−𝜇𝜎~𝑁(0,1)，则𝑋~𝑁(𝜇,𝜎2)𝜒2分布：设随机变量𝑋1,𝑋2,···,𝑋𝑛相互独立，且𝑋𝑖(𝑖=1,2,···,𝑛)服从标准正态分布𝑁(0,1)，则他们的平方和∑𝑋𝑖2𝑛𝑖=1服从自由度为𝑛的𝜒2分布。𝑡分布：设随机变量𝑋~𝑁(0,1)，𝑌~𝜒2(𝑛)，且𝑋与𝑌独立，则𝑡=𝑋√𝑌/𝑛其分布称为𝑡分布。𝐹分布：设随机变量𝑌与𝑍相互独立，且𝑌与𝑍分别服从自由度为𝑚和𝑛的𝜒2分布，则𝑋=𝑌/𝑚𝑍/𝑛=𝑛𝑌𝑚𝑍~𝐹(𝑚,𝑛)3.什么是抽样分布？在总体𝑋的分布类型已知时，若对任一自然数𝑛，都能导出统计量𝑇=𝑇(𝑋1,𝑋2,···,𝑋𝑛)的分布的数学表达式，这种分布称为精确的抽样分布。4.简述中心极限定理的意义。中心极限定理：设从均值为𝜇，方差为𝜎2的一个文艺总体中抽取容量为𝑛的样本，当𝑛充分大时，样本均值的抽样分布近似服从均值为𝜇，方差为𝜎2/𝑛的正态分布。意义：是数理统计学和误差分析的理论基础，指出了大量随机变量之和近似服从正态分布的条件。第七章参数估计1.解释估计量和估计值。估计量：用于估计总体参数的随机变量。估计值：估计参数时计算出来的统计量的具体值。2.简述评价估计量好坏的标准。无偏性：估计量抽验分布的数学期望等于被估计的总体参数。有效性：对同一总体参数的连个无偏点估计量，有更小标准差的估计量更有效。一致性：随着样本容量的增大，估计量的值越来越接近被估计的总体参数。3.怎样理解置信区间？由样本统计量所构造的总体参数的估计区间。4.解释95%的置信区间。用某种方法构造的所有区间中有95%的区间包含总体参数的真值。5.𝑧𝛼/2𝜎√𝑛的含义是什么？𝑧𝛼/2是标准正态分布上侧面积为𝛼/2的𝑧值，公式是统计总体均值时的边际误差。6.解释独立样本和匹配样本的含义。独立样本：两个样本是从两个总体总独立抽取的。匹配样本：一个样本中的数据与另一个样本中的数据相对应。7.在对两个总体均值之差的小样本估计中，对两个总体和样本都有哪些假定？两个总体都服从正态分布；两个随机样本独立地分别抽自两个总体。8.简述样本量与置信水平、总体方差、估计误差的关系。样本量与置信水平成正比，与总体方差成正比，与估计误差的平方成反比。第八章假设检验1.假设检验和参数估计有什么相同点和不同点？参数估计和假设检验是统计推断的两个组成部分，他们都是利用样本对总体进行某种推断，然而推断的角度不同。参数估计讨论的是用样本统计量估计总体参数的方法，总体参数在估计前是未知的；而在假设检验中，则是先对参数的值提出一个假设，然后利用样本信息去检验这个假设是否成立。2.什么是假设检验中的显著性水平？统计显著是什么意思？显著性水平是指当原假设正确时却被拒绝的概率和风险，统计限制等价拒绝𝐻0，指求出的值落在小概率的区间上，一般是落在0.05或比0.05更小的显著性水平上。3.什么是假设检验中的两类错误？一类错误是原假设𝐻0为真却被我们拒绝了，犯这种错误的概率用α表示，也称α错误或弃真错误；另一类错误是原假设为伪我们却没有拒绝，犯这种错误的概率用𝛽表示，也称𝛽错误或取伪错误。4.两类错误之间存在什么样的数量关系？在假设检验中，α与𝛽是此消彼长的关系。如果减小α错误，就会增大犯𝛽错误的机会，若减小𝛽错误，也会增大犯α错误的机会。5.解释假设检验中的P值。P值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。它的大小取决于三个因素：一个是样本数据与原假设之间的差异；一个是样本量；一个是被假设参数的总体分布。6.显著性水平与P值有何区别？显著性水平是原假设为真时，拒绝原假设的概率，是一个概率值，被称为抽样分布的拒绝域，大小由研究者事先确定；而P值是原假设为真时所得到的样本观察结果或更极端结果出现的概率，被称为观察到的显著性水平。7.假设检验依据的基本原理是什么？假设检验依据的基本原理是“小概率原理”，即发生概率很小的随机事件在一次试验中几乎不可能发生。8.在单侧检验中原假设和备择假设的方向应该如何确定？将研究者想要收集证据予以支持的假设作为备择假设𝐻1，将研究者想要收集证据证明其不正确的假设作为原假设𝐻0。先确立备择假设𝐻1，备择假设方向与想要证明其正确性的方向一致。原假设与备择假设是互斥的，等号总在原假设上。第九章分类数据分析1.简述列联表的构造与列联表的分布。构造：列联表是由连个以上的变量进行交叉分类的频数分布表。分布：列联表的分布可以从两个方面看：一个是观察值的分布，一个是期望值的分布。观察值：条件频数、行边缘频数、列边缘频数、百分比。期望值分布：根据比例求出的各个变量的期望值，一般情况下，任何一个单元中频数的期望值：𝑓𝑒=𝑅𝑇𝑛×𝐶𝑇𝑛×𝑛=𝑅𝑇×𝐶𝑇𝑛其中，𝑅𝑇为给定单元格所在行的合计，𝐶𝑇为给定单元格所在列的合计，𝑛为观察值总个数，即样本容量。2.说明计算𝜒2分统计量的步骤。若用𝑓0表示观察值频数，用𝑓𝑒表示期望值频数，𝜒2统计量可表示为𝜒2=∑(𝑓0−𝑓𝑒)2/𝑓0步骤一：计算𝑓0−𝑓𝑒步骤二：计算(𝑓0−𝑓𝑒)2步骤三：计算(𝑓0−𝑓𝑒)2/𝑓0步骤四：计算𝜒2=∑(𝑓0−𝑓𝑒)2/𝑓03.简述𝜑系数、𝑐系数、𝑉系数各自的特点。𝜑系数：描述2×2列联表数据相关程度最常用的一种相关系数，计算公式为𝜑=√𝜒2/𝑛。此时𝜑系数的取值是在0到1之间，且𝜑的绝对值约达，说明变量的相关程度越大，但当列联表的行数𝑅或列数𝐶大于2时，𝜑系数将随着其变动而增大且没有上限。𝑐系数：主要用于大于2×2列联表的情况，计算公式为𝑐=𝜒2𝜒2+𝑛。相互独立时，系数为0，不可能大于1，其可能的最大值依赖于列联表的行数和列数，且随着行数𝑅和列数𝐶的增大而增大。根据不同的行和列计算的列联相关系数不便于比较。𝑉系数：V=√𝜒2𝑛×𝑚𝑖𝑛{(𝑅−1),(𝐶−1)}，取值在0到1之间。第十章方差分析1.什么是方差分析？它研究的是什么？方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。他所研究的是分类型自变量对数值型因变量的影响。2.要检验多个总体均值是否相等时，为什么不做两两比较，而用方差分析方法？作两两比较十分繁琐，进行检验的次数较多，随着增加个体显著性检验的次数，偶然因素导致差别的可能性也会增加，而方差分析法则是同时考虑所有的样本，因此排除了错误累计的概率，从而避免拒绝了一个真实的原假设。3.方差分析包括哪些类型？它们有何区别？类型：单因素方差分析和双因素方差分析。区别：单因素方差分析研究的是一个分类型自变量对一个数值型因变量的影响，而双因素方差分析设计两个分类型自变量。4.方差分析中有哪些基本假定？每个总体都应服从正态分布；各个总体的方差必须相等；观测值是独立的。5.简述方差分析的基本思想。它是通过对数据误差来源的分析来判断不同总体的均值是否相等，进而分析自变量对因变量是否有显著影响。6.解释因子和处理的含义。在方差分析中，所要检验的对象称为因素或银子，因素的不同表现称为水平或处理。7.解释组内误差和组间误差的含义。组内误差（SSE）是指每个水平或组的各个样本数据与其组平均值误差的总和，反映了每个样本内观测值的离散状况，组内误差只含有随机误差；组间误差（SSA）是指各组平均值与总平均值的误差平方和，反映个样本均值之间的差异程度。8.解释组内方差和组间方差的含义。组内方差（MSE）指因素的同一水平下样本数据的方差；组间方差（MSA）是指因素的不同水平下各个样本之间的方差。9.简述方差分析的基本步骤。①提出假设：𝐻0:𝜇1=𝜇2=···=𝜇𝑖=···=𝜇𝑛𝐻1:𝜇𝑖(𝑖=1,2,···,𝑘)不全相等②构造检验统计量：计算各样本均值，计算全部观测值的均值，计算各误差平方和，计算统计量。③统计决策：将统计量的值与给定的显著性水平下的临界值进行对比，做出对原假设的决策。10.方差分析中多重比较的作用是什么？通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。11.什么是交互作用？交互作用是指几个因素搭配在一起会对因变量产生一种新的效应的作用。12.解释无交互作用和有交互作用的双因素方差分析。在双因素方差分析中，如果两个因素对试验结果的影响是相互独立的，这时的双因素方差分析称为无交互作用的双因素方差分析；如果出了行因素和列因素对试验数据的单独影响外，两个因素的搭配还会对结果产生一种新的影响，这时的双因素方差分析称为有交互作用的双因素方差分析。13.解释𝑅2的含义和作用。含义：组间平方和（SSA）占总平方和（SST）的比例记为𝑅2。作用：其平方根就可以用来测量两个变量之间的关系强度。第十一章一元线性回归1.解释相关关系的含义，并说明相关关系的特点。含义：变量之间存在的不确定的数量关系为相关关系。特点：一个变量的取值不能由另一个变量唯一确定，当变量𝑥取某个值时，变量𝑦的取值可能有几个；变量之间的相关关系不能用函数关系进行描述，但也不是无任何规律可循。通常对大量数据的观察与研究，可以发现变量之间存在一定的客观规律。2.相关分析主要解决哪些问题？变量间是否存在关系；如果存在，是什么样的关系；变量之间的关系强度如何；样本所反映的变量之间的关系能否代表总体变量之间的关系。3.相关分析中有哪些基本假定？两个变量之间是线性关系；两个变量都是随机变量。4.简述相关系数的性质。公式：𝑟=𝑛∑𝑥𝑦−∑𝑥𝛴𝑦√𝑛𝛴𝑥2−(𝛴𝑥)2√𝑛𝛴𝑦2−(𝛴𝑦)2性质：−1≤𝑟≤1；对称性；𝑟的大小与𝑥和𝑦的原点及尺度无关；𝑟仅仅是𝑥与𝑦之间线性关系的一个度量，不能用于描述非线性关系；𝑟虽然是两个变量之间线性关系的一个度量，不意味着𝑥和𝑦一定有因果关系。5.为什么要对相关系数进行显著性检验？在对实际现象进行分析时，往往是利用样本数据计算相关系数作为总体相关系数的估计值，但由于样本相关系数具有一定的随机性，它能否说明总体的相关程度往往同样本容量有一定关系。因此需要对相关系数进行显著性检验，若在统计上是显著的，说明它可以作为总体相关程度的代表值，否则不能作为总体相关程度的代表值。6.简述相关系数显著性检验的步骤。提出假设：𝐻0:𝜌=0𝐻1:𝜌≠0计算检验的统计量：𝑡=|𝑟|√𝑛−21−𝑟2~𝑡(𝑛−2)进行决策：确定显著性水平，若𝑡>𝑡𝛼/2，拒绝原假设。7.解释回归模型、回归方程、估计的回归方程的含义。回归模型：描述因变量𝑦如何依赖自变量𝑥和误差项𝜀的方程称为回归模型，表示为:𝑦=𝛽0+𝛽1𝑥+𝜀。回归方程：描述因变量𝑦如何依赖自变量𝑥的方程称为回归方程，表示为：𝐸(𝑦)=𝛽0+𝛽1𝑥。估计的回归方程：根据样本数据求出的回归方程，表示为：�̂�=�̂�0+�̂�1𝑥8.一元线性回归模型中有哪些基本假定？因变量𝑦与自变量𝑥具有线性关系；在重复抽样中，自变量𝑥的取值是固定的，即假设𝑥是非随机的；误差项𝜀是一个期望值为0的随机变量；对于所有的𝑥值，𝜀的𝜎2都相同；误差项𝜀是一个服从正态分布的随机变量，且独立，即𝜀~𝑁(0,𝜎2)。9.简述参数最小二乘估计的基本原理。对于𝑥和𝑦的𝑛对观测值，用距离各观测点最近的一条直线来代表𝑥和𝑦之间的关系与实际数据的误差比其他任何直线都小。即使因变量的观测值与估计值之间的离差平方和达到最小来估计�̂�0和�̂�1。10.解释总平方和、回归平方和、残差平方和的含义，并说明他们之间的关系。总平方和：对一个具体的观测值来说，变差的大小可以用实际观测值𝑦与其均值�̅�之差(𝑦−�̅�)来表示，而𝑛次观测值的总变差可由这些离差的平方和来表示，称为总平方和（SST）。回归平方和：由于自变量𝑥的变化引起的𝑦的变化，而其平方和反映了𝑦的总变差中由于𝑥与𝑦之间的线性关系引起的𝑦的变化部分，它是可以由回归直线来解释的变差部分，称为回归平方和（SSR）。残差平方和：除了𝑥对𝑦的线性影响之外的其他因素对𝑦变差的作用，是不能由回归直线来解释的变差部分，称为残差平方和（SSE）。关系：SST=SSR+SSE11.简述判定系数的含义和作用。含义：判定系数是对估计的回归方程拟合优度的度量。作用：判定系数𝑅2测度了回归直线对观测数据的拟合优度，取值范围[0,1]；越接近1，表明回归平方和占总平方和的比例越大，拟合优度越好；反之，越接近于0，回归直线的拟合程度就越差。12.在回归分析中，𝐹检验和𝑡检验各有什么作用？𝐹检验：线性关系检验。𝑡检验：回归系数检验。13.简要说明残差分析在回归分析中的作用。判断对误差项𝜀的假定是否成立。第十二章多元线性回归1.解释多远回归模型、多元回归方程、估计的多元回归方程的含义。多元回归模型：设因变量为𝑦，𝑘个自变量分别为𝑥1,𝑥2,···,𝑥𝑘，描述因变量𝑦如何依赖于自变量𝑥1,𝑥2,···,𝑥𝑘和误差项𝜀的方程称为多元回归模型，表示为：𝑦=𝛽0+𝛽1𝑥1+𝛽2𝑥2+···+𝛽𝑘𝑥𝑘+𝜀。多元回归方程：描述因变量𝑦的期望值与自变量𝑥1,𝑥2,···,𝑥𝑘之间关系的方程，表示为：E(𝑦)=𝛽0+𝛽1𝑥1+𝛽2𝑥2+···+𝛽𝑘𝑥𝑘估计的多元回归方程：用样本统计量�̂�0,�̂�1,�̂�2,···,�̂�𝑘去估计回归方程中的未知参数得到，表示为：�̂�=�̂�0+�̂�1𝑥1+�̂�2𝑥2+···+�̂�𝑘𝑥𝑘2.多元线性回归模型中有哪些基本假定？误差项𝜀是一个期望值为0的随机变量；对于自变量𝑥1,𝑥2,···,𝑥𝑘的所有值，𝜀的方差𝜎2相同；误差项𝜀是一个服从正态分布的随机变量，且独立，即𝜀~𝑁(0,𝜎2)。3.解释多重判定系数和调整的多重判定系数的含义和作用。多重判定系数：多元回归中的回归平方和占总平方和的比例。作用：是度量多元回归方程拟合程度的一个统计量，反映了在因变量𝑦的变差中被估计的回归方程所解释的比例。调整的多重判定系数：𝑅𝑎2=1−(1−𝑅2)𝑛−1𝑛−𝑘−1作用：用样本容量和自变量的个数调整𝑅2得到，使得𝑅𝑎2永远小于𝑅2且𝑅𝑎2的值不会随着模型自变量的增加而越来越接近1。4.解释多重共线性的含义。回归模型中两个或以上的自变量彼此相关时，称回归模型中存在多重共线性。5.多重共线性对回归分析有哪些影响？变量之间高度相关时，可能会使回归的结果混乱，甚至会把分析引入歧途；可能对参数估计值的正负号产生影响；特别是𝛽1的正负号有可能同预期的正负号相反。6.多重共线性的判别方法主要有哪些？模型中各对自变量显著相关；当模型的线性关系检验显著时，几乎所有回归系数的检验却不显著；回归系数的正负号与预期相反；容忍度(1−𝑅𝑖2)越小，多重共线性越严重，当小于0.1时，存在严重的多重共线性；方差扩大因子(𝑉𝐼𝐹=11−𝑅𝑖2)越大，多重共线性越严重，当大于10时，存在严重的多重共线性。7.多重共线性的处理方法有哪些？将一个或多个自变量从模型中剔除，使保留的自变量尽可能不相关；如果保留所有自变量，那就应该①避免根据𝑡统计量对单个参数进行检验②对因变量的推断限定在自变量样本值的范围内。8.在多元线性回归中，选择自变量的方法有哪些？向前选择；向后剔除；逐步回归；最优子集。第十三章时间序列分析和预测1.简述时间序列的构成要素。趋势、季节性、周期性、随机性。2.利用增长率分析时间序列时应注意哪些问题？当时间序列中的观测值出现0或负数时，不宜计算增长率；不能单纯就增长率论增长率，要注意增长率与绝对水平的综合分析；大的增长率背后，其隐含的绝对值可能很小，小的增长率背后其疑难的绝对值可能很大。3.简述平稳序列和非平稳序列的含义。平稳序列：基本上不存在趋势的序列，各观测值基本在某个固定的水平上波动或虽有波动，但并不存在某种规律，而其波动可以看成是随机的。非平稳序列：是包括趋势、季节性或周期性的序列。它可能只含有一种成分，也可能是几种成分的组合。4.简述时间序列的预测程序。确定时间序列所包含的成分；找出适合此类时间序列的预测方法；对可能的预测方法进行评估，以确定最佳预测方案；利用最佳预测方案进行预测。5.简述指数平滑法的基本含义。指数平滑法是指对过去的观测值加权平均进行预测的一种方法。该方法使得第𝑡+1期的预测值等于𝑡期的实际观察值与第𝑡期预测值的加权平均数。指数平滑法是加权平均的一种特殊形式，观察值时间越远，其权数也跟着呈指数下降，因而称为指数平滑。指数平滑法有一次指数平滑法、二次指数平滑法、三次指数平滑法。一次指数平滑法也可用于对时间序列进行修匀，以消除随机波动，找出序列的变化趋势。6.简述复合型时间序列的预测步骤。确定并分离季节成分，建立预测模型并进行预测，计算最后的预测值。7.简述季节指数的计算步骤。计算移动平均值，计算移动平均值的比值，季节指数调整。第十四章指数1.什么是指数？它有哪些性质？含义：广义上，是指任何两个数值对比形成的相对数；狭义上，是指用于测定多个项目在不同场合下综合变动的一种特殊相对数。2.什么是同度量因素？同度量因素在编制加权综合指数中有什么作用？含义：是指若干度量单位不同，不能直接相加的指标，过渡到可以加总和比较而使用的媒介因素。作用：同度量因素在计算总指数的过程中，对各因素起着权衡轻重的作用，所以也叫权数。3.拉氏指数与帕氏指数各有什么特点？拉氏指数：在计算综合指数时将作为权数的同度量因素固定在基期。帕氏指数：在计算综合指数时将作为权数的同度量因素固定在报告期。4.加权平均指数与加权综合指数有何区别与联系？加权平均指数：以个体指数为基础，通过对个体指数进行加权平均来编制的指数。加权综合指数：通过加权来测定一组项目的综合变动，有加权数量指数和加权质量指数。区别：思路上，加权综合指数是先综合，后对比，而加权平均指数是先对比，后综合；运用资料上，加权综合指数需要研究总体的全面资料，加权平均指数对资料要求比较灵活；经济分析中的具体作用上，加权指数方法主要用于价格指数的计算。5.什么是指数体系？它有什么作用？含义：是由总量指数及其若干个因素指数构成的数量关系式。作用：指数体系是进行因素分析的根据；利用各指数之间的联系进行指数间的相互推算；用综合指数法编制总指数时，指数体系也是确定同度量因素时期的根据之一。6.试述平均数指数体系。总平均水平指数：𝐼𝑥𝑓=�̅�1�̅�0=𝛴𝑥1𝑓1∕𝛴𝑓1𝛴𝑥0𝑓0∕𝛴𝑓0组水平变动指数：𝐼𝑥=�̅�1�̅�𝑛=𝛴𝑥1𝑓1∕𝛴𝑓1𝛴𝑥0𝑓1∕𝛴𝑓1结构变动指数：𝐼𝑓=�̅�𝑛�̅�0=𝛴𝑥0𝑓1∕𝛴𝑓1𝛴𝑥0𝑓0∕𝛴𝑓0总平均水平指数=组水平变动指数×组水平变动指数总水平变动额=各组水平变动影响额+结构变动影响额7.构建综合评价指数时需要考虑哪些方面的问题？建立综合评价指数体系；确定各项指标的评价标准；确定各项评价指标的权重；选择评价指标的合成方式。

                    本文档为【贾俊平统计学(第七版)课后思考题整理】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：￥18.0 已有0 人下载

立即下载

贾俊平统计学(第七版)课后思考题整理

你可能还喜欢