首页 光华管理学院统计学

光华管理学院统计学

举报
开通vip

光华管理学院统计学会计学1光华管理学院统计学课程介绍主要内容:多元统计为主讲授方式:数据分析+基础理论考试:平时作业、测验+期中期末考试1—16周2第1页/共99页参考教材AppliedMultivariateMethodsforDataAnalysis,byDallasE.Johnson,HigherEducationPress,2005.实用多元统计分析陆璇,叶俊译清华大学出版社,2008从数据到结论吴喜之中国统计出版社多元统计分析引论张尧庭方开泰科学出版社3第2页/共99页统计基本概念回顾4第3页/共99页随机性和规律性5第4...

光华管理学院统计学
会计学1光华管理学院统计学课程介绍主要内容:多元统计为主讲授方式:数据分析+基础理论考试:平时作业、测验+期中期末考试1—16周2第1页/共99页参考教材AppliedMultivariateMethodsforDataAnalysis,byDallasE.Johnson,HigherEducationPress,2005.实用多元统计分析陆璇,叶俊译清华大学出版社,2008从数据到结论吴喜之中国统计出版社多元统计分析引论张尧庭方开泰科学出版社3第2页/共99页统计基本概念回顾4第3页/共99页随机性和规律性5第4页/共99页现实中的随机性和规律性中学时,就知道自然科学的许多定律,例如物理中的牛顿三定律,物质不灭定律以及化学中的各种定律等等。但是在许多领域,很难用如此确定的公式或论述来描述一些现象。比如,人的寿命是很难预先确定的。一个吸烟、喝酒、不锻炼、而且一口长荤的人可能比一个很少得病、生活习惯良好的人活得长。因此,可以说,活得长短是有一定随机性的(randomness)。这种随机性可能和人的经历、基因、习惯等无数说不清的因素都有关系。6第5页/共99页现实中的随机性和规律性从总体来说,我国公民的预期寿命却是非常稳定的。而且女性的预期寿命也稳定地比男性高几年。这就是规律性。一个人可能活过这个寿命,也可能活不到这个年龄,这是随机的。但是总体来说,预期寿命的稳定性,却说明了随机之中有规律性。这种规律就是统计规律。7第6页/共99页概率和机会你可能经常听到概率(probability)这个名词。最常见的是在天气预报中提到的降水概率。大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。因此,从某种意义说来,概率描述了某件事情发生的机会。显然,这种概率不可能超过百分之百,也不可能少于百分之零。换言之,概率是在0和1之间的一个数,说明某事件发生的机会有多大。8第7页/共99页有些概率是无法精确推断的比如你对别人说你下一个周末去公园的概率是百分之八十。但你无法精确说出为什么是百分之八十而不是百分之八十四或百分之七十八。其实你想说的是你很可能去,但又没有完全肯定。实际上,到了周末,你或者去,或者不去;不可能有分身术把百分之八十的你放到公园,而其余的放在别处。9第8页/共99页有些概率是可以估计的如掷骰子。只要没有人在骰子上做手脚,你得到任何点的概率都应该是六分之一。这反映了掷骰子的规律性。但掷出骰子之后所得到的结果还只可能是六个数目之一。这体现了随机性。如果你掷1000次骰子,那么,大约有六分之一的可能会得到6;这也说明随机结果也具有规律;而且有可能通过试验等方法来推测其规律。10第9页/共99页变量做任何事情都有对象。比如一个班上注册的学生有200人,这是一个固定的数目,称为常数(constant)或者常量。但是,如果猜测今天这个班有多少人会来上课,那就没准了。这有随机性。可能有请病假或事假的,也可能有逃课的。这样,将要来上课的人数是个变量(variable)。另外对某项政策同意与否的回答,也有“同意”、“不同意”或者“不知道”三种可能值;这也是变量,只不过不是数量而已。11第10页/共99页变量当变量按照随机规律所取的值是数量时该变量称为定量变量或数量变量(quantitativevariable);因为是随机的,也称为随机变量(randomvariable)。象性别,观点之类的取非数量值的变量就称为定性变量或属性变量或分类变量(qualitativevariable,categoricalvariable)。这些定性变量也可以由随机变量来描述,比如男性和女性的数目,同意某政策人数的比例等等。只有当变量用数量来描述时,才有可能建立数学模型,才可能使用计算机来分析。12第11页/共99页数据有了变量的概念,什么是数据呢?拿掷骰子来说,掷骰子会得到什么值,是个随机变量;而每次取得1至6点中任意点数的概率它在理论上都是六分之一(如果骰子公平)。这依赖于在掷骰子背后的理论或假定;而在实际掷骰子过程中,如果掷100次,会得到100个由1至6点组成的数字串;再掷100次,又得到一个数字串,和前一次的结果多半不一样。这些试验结果就是数据。所以说,数据是关于变量的观测值.13第12页/共99页数据通过数据可以验证有关的理论或假定,比如通过多次掷骰子验证得到每个点的概率是不是1/6。顾客是否喜欢某种饮品?事先不易猜测顾客喜欢与否的概率。在问了1000人之后,可能有364人说喜欢,而480人说不喜欢,其余的人可能不回答,或说不知道,或从来没有喝过这种饮料。当然,它仅仅反映了1000个被问到的人的观点;但这对于估计整个消费群体的观点还是有用的。从该数据可以估计喜欢该饮料的人占大约0.364左右。14第13页/共99页统计和计算机人们越来越依赖计算机了。最早使用计算机的统计当然更离不开计算机了。事实上,最初的计算机仅仅是为科学计算而建造的。大型计算机的最早一批用户就包含统计。而现在统计仍然是进行数字计算最多的用户。计算机现在早已脱离了仅有计算功能的单一模式,而成为百姓生活的一部分。计算机的使用,也从过去必须学会计算机语言到只需要“傻瓜式”地点击鼠标。结果也从单纯的数字输出到包括漂亮的 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 格和图形的各种形式。15第14页/共99页统计软件统计软件的发展,也使得统计从统计学家的工具变成了大众的游戏。只要你输入数据,点几下鼠标,做些选项,马上得到漂亮结果。是否傻瓜式的统计软件的使用可以代替统计课程了?数据的整理和识别,方法的选用,计算机输出结果的理解都不象使用傻瓜相机那样简单可靠。16第15页/共99页统计软件统计软件的种类很多。有些功能齐全,有些价格便宜;有些容易操作,有些需要更多的实践才能掌握。还有些是专门的软件,只处理某一类统计问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 。面对太多的选择往往给决策带来困难。这里介绍最常见的几种。17第16页/共99页统计软件SPSS:很受欢迎;容易操作,输出漂亮,功能齐全,价格合理。它也有自己的程序语言,但基本上已经“傻瓜化”。它对于非专业统计工作者是很好的选择。Excel:严格说来并不是统计软件,但作为数据表格软件,必然有一定统计计算功能。而且凡是有MicrosoftOffice的计算机,基本上都装有Excel。对于简单分析,Excel还算方便,但随着问题的深入,Excel就不那么“傻瓜”,需要使用 函数 excel方差函数excelsd函数已知函数     2 f x m x mx m      2 1 4 2拉格朗日函数pdf函数公式下载 ,甚至根本没有相应的方法了。多数专门一些的统计推断问题还需要其他专门的统计软件来处理。18第17页/共99页统计软件SAS:这是功能非常齐全(不如R齐全)的软件;尽管价格相当不菲,许多公司,特别是美国制药公司,还是因为其功能众多和某些美国政府机构认可而使用。尽管现在已经尽量“傻瓜化”(远不如SPSS“傻”),但仍然需要一定的训练才可以进入。也可以对它编程;但对于基本统计课程则不那么方便。19第18页/共99页S-plus:这是R出现之前统计学家最喜爱的软件。不仅由于其功能齐全,而且由于其强大的编程功能,使得研究人员可以编制自己的程序来实现自己的理论和方法。它也在进行“傻瓜化”以争取顾客。但仍然以编程方便为顾客所青睐。R软件:这是一个免费的,由志愿者管理的软件。其编程语言与S-plus所基于的S语言一样,很方便。还有不断加入的各个方向统计学家编写的统计软件包。同时从网上可以不断更新和增加有关的软件包和程序。这是发展最快的软件,受到世界上统计师生的欢迎。包括网上程序资源是方法最齐全的软件。是用户量增加最快的统计软件。由于易学,它没有“傻瓜化”。20第19页/共99页统计软件Minitab:这个软件是很方便的功能强大而又齐全的软件,也已经“傻瓜化”,在我国用的不如SPSS与SAS那么普遍。Statistica:也是功能强大而齐全的“傻瓜化”的软件,在我国用的也不如SAS与SPSS那么普遍。Eviews:一个主要处理回归和时间序列的软件。FORTRAN:这是应用于各个领域的历史很长的非常优秀的数学编程软件,功能强大,也有一定的统计软件包。计算速度比这里介绍的都快得多。但需要编程和编译。操作不那么容易。MATLAB:这也是应用于各个领域的以编程为主的软件,在工程上应用广泛。编程类似于S和R。但是统计方法不多。21第20页/共99页统计软件当然,还有其他的软件,没有必要一一罗列。其实,只要学会使用一种“傻瓜式”软件,使用其他的仅仅是举一反三之劳;最多看看帮助和说明即可。22第21页/共99页问题举出你所知道的统计应用例子。举出日常生活中随机性和规律性的例子。你使用过统计软件或者利用过其他软件中的统计功能吗?你有什么经验和体会?23第22页/共99页数据的收集24第23页/共99页二手数据报纸、电视和杂志提供各种数据。比如高速公路通车里程、物价指数、股票行情、外汇牌价、犯罪率、房价、流行病的有关数据(确诊病例、疑似病例、死亡人数和出院人数等等);当然还有国家统计局定期发布的各种国家经济数据、海关发布的进出口贸易数据等等。从中可以选取对自己有用的信息。这些间接得到的数据都是二手数据。25第24页/共99页第一手数据获得第一手数据并不象得到二手数据那么轻松。某些在华的外资企业每年至少要花三四千万元来收集和分析数据。他们调查其产品目前在市场中的状况和地位并确定其竞争对手的态势;调查不同地区,不同阶层的民众对其产品的认知程度和购买意愿以改进产品和服务来争取顾客收集各地方的经济交通等信息以决定如何保住现有市场和开发新市场。市场信息数据对企业是至关重要的。他们很舍得在这方面花钱。因为这是企业生存所必需的,绝不是可有可无的。26第25页/共99页观测数据和试验数据上面所说的数据是在自然的未被控制的条件下观测到的,称为观测数据(observationaldata)。而对于有些问题,比如在不同的医疗手段下某疾病的治疗结果有什么不同、不同的肥料和土壤条件下某农作物的产量有没有区别、用什么成分可以提高某物质变成超导体的温度等等。这种在人工干预和操作情况下收集的数据就称为试验数据(experimentaldata)。27第26页/共99页试验数据有助于找出必要的因果关系28第27页/共99页总体和样本29第28页/共99页总体和样本要想了解北京市民对建设北京交通设施是以包括轨道运输在内的公共交通工具为主还是以小汽车为主的观点,需要调查;调查对象是所有北京市民,调查目的是希望知道市民中对这个问题的不同看法各自占有的比例。显然,不可能去问所有的北京市民,而只能够问一部分;并根据这部分观点来理解整个北京市民的总体观点。30第29页/共99页总体和样本在这个例子中,单个北京市民的观点称为个体(element,unit或individual),而称所有北京市民对这个问题的观点为一个总体(population),总体是包含所有要研究的个体的集合。而调查时问到的那部分市民的观点(也就是部分个体)称为该总体的一个样本(sample),是总体中选出的一部分。当然,也有可能试图调查所有的人(比如人口普查),那叫做普查(census)。普查就一定比抽样准吗?31第30页/共99页随机样本在从有限总体抽取样本时,如果总体中的每一个体都有同等机会被选到样本中,这种抽样称为简单随机抽样(simplerandomsampling),而这样得到的样本则称为随机样本(randomsample)。32第31页/共99页随机样本就北京交通问题的调查为例,在随机抽样的情况下,如果样本量(samplesize,也就是样本中个体的数目)在总体中的比例为1/5000,那么,无论在东城区或者在延庆县,无论在白领阶层还是蓝领阶层被问到的人的比例都应该大体是1/5000。也就是说,这种比例在总体的任何部分是大体不变的。33第32页/共99页随机样本抽样就像从一锅八宝粥中舀出一勺如果粥和匀了,那么一勺中的各种成分比例应该和锅中的比例类似。就如一个抽样调查随机样本所包含的各种人群比例应该和总体类似。一个非随机的抽样就像从没有和匀的八宝粥中舀出的一勺一样。34第33页/共99页方便样本实践中,得到随机样本不容易。很多搞调查的人就采取简单的办法。假定按照随机选出的电话号码进行调查,肯定节省时间和资源,但就不是一个随机样本了。如果按照随机选择的数字(无论号码本上有没有)打电话,那很多电话是空号或单位电话;显然这种样本也不是随机样本,这些称为方便样本(conveniencesample)。在调查中,即使选择对象的确是随机的,最理想的情况所得到的样本也只代表那些愿意回答问题人的观点所组成的总体;没有回答问题的人的观点永远不会被这种调查的样本所代表。35第34页/共99页这种不回答的问题是抽样调查特有的问题在其他问题中,也有使用方便样本的情况。比如在肺癌研究中,人们往往看到吸烟和肺癌的关系的数据;这些数据并不是整个人群中采集的随机样本;它们可能只是医院中的病人记录中得到的。在杂志和报纸上也有问卷,但得到的只是拥有这份报刊,而且愿意回答的人的观点。36第35页/共99页误差假定在某一职业人群中女性占的比例为60%。如果在这个人群中抽取一些随机样本,这些随机样本中女性的比例并不一定是刚好60%,可能稍微多些或稍微少些。这是很正常的,因为样本的特征不一定和总体完全一样。这种差异不是错误,而是必然会出现的抽样误差(samplingerror)。刚才提到在抽样调查中,一些人因为种种原因没有对调查作出反映(或回答),这种误差称为未响应误差(nonresponseerror)。而另有一些人因为各种原因回答时并没有真实反映他们的观点,这称为响应误差(responseerror)。和抽样误差不一样,未响应误差和响应误差都会影响对真实世界的了解;应该在设计调查 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 时尽量避免。37第36页/共99页抽样调查的一些常用方法在抽样调查时,最理想的样本是前面提到的随机样本。但是由于实践起来不方便,在大规模调查时一般不用这种全部随机抽样的方式,而只是在局部采用随机抽样的方法。下面介绍几种抽样方法。这里没有深奥的理论;读者完全可以根据常识判断在什么情况下简单的随机样本不方便以及下面的每个方法有什么好处和缺陷。对于它们具体的设计、实施,有许多专门的书籍,就不在这里赘述了。38第37页/共99页一些抽样方法1.分层抽样(stratifiedsampling)。这是先把要研究的总体按照某些性质分类(stratum),再在各类中分别抽取样本。在每类中调查的人数通常是按照这该类人的比例,但出于各种考虑,也可能不按照比例,也可能需要加权(加权就是在求若干项的和时,对各项乘以不同的系数,这些系数的和通常为1)。比如按照教育程度把要访问的人群分成几类;再在每一类中调查和该类成比例数目的人。以确保每一类都有按比例的代表。39第38页/共99页一些抽样方法2.整群抽样(clustersampling)。这是先把总体划分成若干群(cluster),再(通常是随机地)从这些群中抽取几群;然后再在这些抽取的群中对个体进行抽样。比如,在某县进行调查,首先在所有村中选取若干村子,然后只对这些村子的人进行调查。显然,如果各村情况差异不大,这种抽样还是方便的。否则就会增大误差了。40第39页/共99页一些抽样方法3.多级抽样(multistagesampling)。在群体很大时,往往在抽取若干群之后,再在其中抽取若干子群,甚至再在子群中抽取子群,等等。最后只对最后选定的最下面一级进行调查。比如在全国调查时,先抽取省,再抽取市地,再抽取县区,再抽取乡、村直到户。在多级抽样中的每一级都可能采取各种抽样方法。因此,整个抽样计划可能比较复杂,也称为多级混和型抽样。41第40页/共99页一些抽样方法4.系统抽样(systematicsampling)。这是先把总体中的每个单元编号,然后随机选取其中之一作为抽样的开始点进行抽样。如果编号是随机选取的,则这和简单随机抽样是等价的。在选取开始点之后,通常从开始点开始按照编号进行所谓等距抽样;也就是说,如果开始点为5号,“距离”为10,则下面的调查对象为15号、25号等等。42第41页/共99页抽样方法的选择不能一概而论实际上每个抽样通常都可能是各种抽样方法的组合。既要考虑精确度,还要根据客观情况考虑方便性、可行性和经济性。不能一概而论。43第42页/共99页不仅抽样方法,而且问卷设计、调查过程等,均可能是致命的提问题的方式(和目的有关)问卷中问题的次序问题的语言提问的人作假44第43页/共99页计算机中常用的数据形式通常是方阵(SAS,SPSS等)每一列代表一个变量每一行代表一个观测值(有和变量相同数目的数字)也可能有其他形式,但方阵是最通常的形式45第44页/共99页46第45页/共99页思考1. 举出一些观测数据和试验数据的例子。2. 举出简单随机样本的例子。3. 根据你的经验,举出总体和样本的一些具体例子。4. 举出调查抽样时可能发生的各种影响调查结果的问题,并且提出你认为可以减少或避免这些问题的建议。5. 根据你的直觉,本章提到的几种抽样方法的优缺点是什么?原因何在?6. 举出一些书报上发表的数据例子,并指出那些是变量,哪些是观测值。47第46页/共99页数据的描述如同给人画像一样48第47页/共99页直方图(数据rich.txt,Rich.sav,rich.sas7bdat,Rich.xls)该数据摘自福布斯是世界富豪排行榜,展示了世界最富有的一些人的名次(Rank,为正整数,越小越富),所属区域(Region,1至5分别代表北美、欧洲、亚洲和太平洋、南美、非洲),年龄(Age)和净财富(NetWorth,单位10亿美圆)。其中除了区域之外,均为定量变量。我们关心财富和年龄这两个变量。如何用图形来表示这两个个变量的数据,使人们能够看出这些数目的大体分布或“形状”呢?一个办法就是画直方图(histogram)。49第48页/共99页rich=read.table("D:/booktj1/data/rich.txt",header=T)rich[1,]RankRegionAgeNetWorth1115050dim(rich)[1]743450第49页/共99页attach(rich);par(mfrow=c(1,2));hist(Age);hist(NetWorth)51SPSS:Graphs>Histogram>age/Networth第50页/共99页盒型图比直方图简单一些的是盒形图(boxplot,又称箱图、箱线图、盒子图)。后面图的用Rich.txt数据所绘的富人在不同区域的年龄的盒形图.52第51页/共99页par(mfrow=c(1,1));boxplot(Age~Region)53Spss:Graphs>boxplot>simple>summarizesforgroupsofcases>variable[age]>categoryAxis[Region]第52页/共99页第三四分位点中位数第一四分位点地区1高三男生身高数据的盒形图h=read.table("D:/booktj1/data/height2.txt",header=T);boxplot(h)54第53页/共99页茎叶图以例3.1的欧洲区域富人的年龄为例,下页的茎叶图既展示了年龄的分布形状又有原始数据。它象一片带有茎的叶子。茎为较大位数的数字,叶为较小位数的数字。stem(rich[rich[,2]==2,3])55SPSS:Analysis>descriptivestatistics>explore>dependentlist[age]>factorlist[region]>plots>stem-and-leaf第54页/共99页Thedecimalpointis1digit(s)totherightofthe|2|22|3|443|7899999994|0000011123333444444|555556777899995|0000111111122233333333444445|55556666667778888899996|0001111111122222223334444446|555555666788888888999997|00000001111233337|5556666778889999998|0002222333448|55668999|229|556第55页/共99页散点图人们得到的数据也可能有两个变量,比如例3.1中的年龄和财富,我们可以以年龄为横坐标,而财富为纵坐标在二维空间画出所谓散点图(scatterplot)。plot(NetWorth~Age)57第56页/共99页58Spss:Graphs>Scatter>Simplescatter>YAxis[Networth];XAxis[age];SetMarkerby[Region]>OK第57页/共99页散点图往往人们得到的数据有两对连续变量,比如美国男士和女士初婚年限的数据。该数据描述了自1900年到1998年男女第一次结婚延续的时间的中位数。当然,不可能将所有人的婚姻年限都给出来。所以,每年就取了一个中间的值(中位数)作为代表。自1900到1960年是每十年一个值,以后到1990是每五年取一个数,1995年以后是每年一个数。这里的一个变量为记录年份,另一个是结婚时间长短。由于分男士和女士,因此有两二维数据。这时可以以一个变量为横坐标(如年份),另一个为纵坐标(这里是结婚年限)来点图。这种图称为散点图(scatterplot)。还可以看出在二十世纪六十年代婚姻年限降低,而后来又升高。而男子的年限平均比女性长。这个图是用SPSS画的。59第58页/共99页60第59页/共99页定性变量的点图定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图,但可以描绘出它们各类的比例。下面用SPSS绘的图表示了说世界各种主要语言的人数的比例61第60页/共99页饼图62第61页/共99页条形图language2.savSPSS:Graphs>bar>clustered>summariesforgroupofcases>variable[Freq]>categoryaxis[Lang]>defineclustersby[group]63第62页/共99页汇总统计量或概括统计量(summarystatistic)64第63页/共99页汇总统计量(位置)均值(mean):样本值的算术平均值中位数(median):中间大小的数(一半样本点小于中位数)(第一或第三)(下、上)四分位数(点)(firstquantile,thirdquantile)(分别有1/4或3/4的数目小于它们)k-百分位数(k-percentile)a分位数(acentile):k-百分位数=k%分位数:有k%的数目小于它众数(mode):样本中出现最多的数65第64页/共99页汇总统计量(尺度)(scalestatistic)极差(range):极端值之差四分位间距(四分位极差)(interquantilerange)四分位数之差标准差(standarddeviation)方差平方根方差(variance)各点到均值距离平方的平均66第65页/共99页两个尺度不同的数据的直方图,左边的标准差大约只有右边的一半67第66页/共99页数据的标准得分(standardscore)两个类似的班级(一班和二班)上同一门课,但是由于两个任课老师的评分标准不同,使得两个班成绩的均值和标准差都不一样(数据:grade.sav)。一班分数的均值和标准差分别为78.53和9.43,而二班的均值和标准差分别为70.19和7.00。那么得到90分的一班的A同学是不是比得到82分的二班的B同学成绩更好呢?68第67页/共99页数据的标准得分(standardscore)怎么比较才能合理呢?虽然这种均值和标准差不同的数据不能够直接比较,但是可以把它们进行标准化,然后再比较标准化后的数据。一个标准化的方法是把原始观测值(亦称得分,score)和均值之差除以标准差;得到的度量称为标准得分(standardscore):(x-m)/s(这里m和s为均值和标准差)69第68页/共99页70第69页/共99页思考1. 根据你的经验,给出定性和定量变量的例子。2. 对于问题1中你的例子,试图画出各种描述性图形并计算汇总统计量。3. 举例说明众数、中位数和均值的优缺点。4. 举例说明尺度统计量说明了数据的什么特性。5. 标准得分实际上是对原始数据的一种标准化。试举出标准得分的用处。71第70页/共99页复习:概率分布72第71页/共99页离散分布73第72页/共99页n次同等条件的独立试验每次试验仅有两种结果,通常记为S(成功)和F(失败).成功(S)的概率在每次试验保持不变,用p表示,失败(F)概率则为q=1-p.n次试验中成功的数目x,则为二项随机变量.二项随机变量74第73页/共99页二项分布背景:n重Bernoulli试验中,每次试验感兴趣的事件A在n次试验中发生的次数——X是一离散型随机变量若P(A)=p,则称X服从参数为n,p的二项分布,记作0–1分布是n=1的二项分布75第74页/共99页二项分布的取值情况设.039.156.273.273.179.068.017.0024.00000123456780.273•由图表可见,当时,分布取得最大值此时的称为最可能成功次数xP•0•1•2•3•4•5•6•7•876第75页/共99页参数为n和p的二项分布,总体均值m,方差s2和标准差s为:77第76页/共99页连续分布情况78第77页/共99页连续分布的密度函数:(Thefollowingisanormaldistribution)TheprobabilityofP(-.5<x<1),say,istheareaunderthecurveontheintervalof(-.5,1).79第78页/共99页均值m=0,标准差s=1的正态分布称为标准正态分布.通常用z表示标准正态随机变量.如果x为有均值和m标准差s的正态变量,那么z=(x-m)/s,即x的标准得分z-score为标准正态分布.比如,x为均值m=2标准差s=0.5的正态变量,则z=(x-m)/s=(x-2)/.5为标准正态分布.80第79页/共99页Thecurveisstandardnormaldensity,m=0,s=1.F(1.96)=P(Z<1.96)=0.9750021=1-P(Z>1.96)=1-0.02499790P(Z>1.96)=1-F(1.96)=1-0.9750021=0.0249979081第80页/共99页DensitycurvesofN(0,1)andN(-2,0.5)Distributionswithdifferentmandshavedifferentshapes82第81页/共99页P(-1.3<Z<2)=F(2)-F(-1.3)=0.8804494P(0.5<Z<1.7)=F(1.7)-F(0.5)=0.263972183第82页/共99页ProbabilityP(0.51<z<1.57)=0.24682.84第83页/共99页ProbabilityP(z>1.15)=0.12507.85第84页/共99页ProbabilityP(z<1.23)=0.89065.86第85页/共99页ProbabilityP(z<-1.25)=0.10565.87第86页/共99页ProbabilityP(z>-0.53).88第87页/共99页89第88页/共99页z-score:90第89页/共99页均匀分布(UniformDistribution)(a,b)区间的均匀分布的密度函数为f(x)=1/(b-a)(在区间(a,b)中)=0(在区间(a,b)之外)特例:(0,1)区间的均匀分布的密度函数为f(x)=1(在区间(0,1)中)=0(在区间(0,1)之外)91第90页/共99页(0,1)均匀分布样本(样本量=5000)直方图92第91页/共99页抽样分布(SamplingDistribution)诸如二项分布中的n和p,正态分布中的m和s这样的参数,都是总体的通常未知的描述性度量.我们能够利用样本统计量中的(描述样本的)信息,比如样本均值和样本标准差中的信息,来对(描述总体的)总体参数(比如总体均值和总体标准差)进行推断(估计、检验等).93第92页/共99页样本均值的性质:如总体均值为m,标准差为s,则和称为标准误差.94第93页/共99页其他导出分布有些分布在生活中不一定有合适的对应。比如:t变量:是标准化正态样本均值时(用样本标准差s代替s,得到的分布。c2变量:为n个独立正态变量的平方和(自由度为n的c2变量)两个自由度分别为m和n的c2变量的比例(各除以其自由度)为自由度为(m,n)的F变量:95第94页/共99页中心极限定理CentralLimitTheorem保证在大样本时样本均值近似正态的定理96第95页/共99页中心极限定理.考虑从均值为m标准差为s的总体中选的一个有n个观测值的随机样本那么当n充分大时,样本均值的抽样分布将近似地满足均值为方差为的正态分布97第96页/共99页从100个来自标准正态总体的样本量为500的(100个)样本均值的直方图.看上去正态.98第97页/共99页从100个来自(0,1)均匀分布总体的样本量为500的(100个)样本均值的直方图.左边是一个均匀样本的直方图;右边是均匀样本均值的直方图,看上去正态.一个均匀变量样本的直方图100个均匀变量样本的均值的直方图99第98页/共99页
本文档为【光华管理学院统计学】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: ¥17.6 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
莉莉老师
暂无简介~
格式:ppt
大小:681KB
软件:PowerPoint
页数:0
分类:管理学
上传时间:2021-10-14
浏览量:6