模式识别-4-概率密度函数的估计

模式识别-4-概率密度函数的估计第四章概率密度函数的估计概率密度估计的基础知识参数估计理论极大似然估计（MLE）贝叶斯估计（或称最大后验估计）贝叶斯学习非参数估计理论密度估计Parzen窗估计K近邻估计（KNE）§4-1概率密度估计的基础知识贝叶斯分类器中只要知道先验概率、条件概率或后验概概率P(ωi),P(x/ωi),P(ωi/x)就可以设计分类器了。现在来研究如何用已知训练样本的信息去估计P(ωi),P(x/ωi),P(ωi/x)一．参数估计与非参数估计参数估计：先假定研究的问题具有某种数学模型，如正态分布，二项分布，再用已知类别的学习样本估...

第四章概率密度函数的估计概率密度估计的基础知识参数估计理论极大似然估计（MLE）贝叶斯估计（或称最大后验估计）贝叶斯学习非参数估计理论密度估计Parzen窗估计K近邻估计（KNE）§4-1概率密度估计的基础知识贝叶斯分类器中只要知道先验概率、条件概率或后验概概率P(ωi),P(x/ωi),P(ωi/x)就可以设计分类器了。现在来研究如何用已知训练样本的信息去估计P(ωi),P(x/ωi),P(ωi/x)一．参数估计与非参数估计参数估计：先假定研究的问题具有某种数学模型，如正态分布，二项分布，再用已知类别的学习样本估计里面的参数。非参数估计：不假定数学模型，直接用已知类别的学习样本的先验知识直接估计数学模型。二．监督参数估计与非监督参数估计监督参数估计：样本所属的类别及类条件总体概率概率密度函数的形式已知，而表征概率密度函数的某些参数是未知的。目的在于：由已知类别的样本集对总体分布的某些参数进行统计推断，此种情况下的估计问题称为监督参数估计。非监督参数估计：已知总体概率密度函数形式但未知样本所属类别，要求推断出概率密度函数的某些参数，称这种推断方法为非监督情况下的参数估计。注：监督与非监督是针对样本所属类别是已知还是未知而言的。三.参数估计得基本概念1.统计量：样本中包含着总体的信息，总希望通过样本集把有关信息抽取出来。也就是说，针对不同要求构造出样本的某种函数，该函数称为统计量。2.参数空间：在参数估计中，总假设总体概率密度函数的形式已知，而未知的仅是分布中的参数，将未知参数记为，于是将总体分布未知参数的全部可容许值组成的集合称为参数空间，记为。3.点估计、估计量和估计值：点估计问题就是构造一个统计量作为参数的估计，在统计学中称为的估计量。若是属于类别的几个样本观察值，代入统计量d就得到对于第i类的的具体数值，该数值就称为的估计值。4.区间估计：除点估计外，还有另一类估计问题，要求用区间作为可能取值范围得一种估计，此区间称为置信区间，该类估计问题称为区间估计。5.参数估计方法：参数估计是统计学的经典问题，解决方法很多，在此只考虑两种常用方法：一种是最大似然估计方法，另一种是贝叶斯估计方法。(1)最大似然估计：把参数看作是确定而未知的，最好的估计值是在获得实际观察样本的最大的条件下得到的。(2)贝叶斯估计：把未知的参数当作具有某种分布的随机变量，样本的观察结果使先验分布转化为后验分布，再根据后验分布修正原先对参数的估计。6.参数估计的评价：评价一个估计的“好坏”，不能按一次抽样结果得到的估计值与参数真值的偏差大小来确定，而必须从平均和方差的角度出发进行分析，即关于估计量性质的定义。§4-2参数估计理论一．极大似然估计假定：①待估参数θ是确定的未知量②按类别把样本分成M类X1，X2，X3，…XM其中第i类的样本共N个Xi=(X1,X2,…XN)T并且是独立从总体中抽取的③Xi中的样本不包含(i≠j)的信息，所以可以对每一类样本独立进行处理。④第i类的待估参数根据以上四条假定，我们下边就可以只利用第i类学习样本来估计第i类的概率密度，其它类的概率密度由其它类的学习样本来估计。1.一般原则：第i类样本的类条件概率密度：P(Xi/ωi)=P(Xi/ωi﹒θi)=P(Xi/θi)原属于i类的学习样本为Xi=(X1,X2,…XN,)Ti=1,2,…M求θi的极大似然估计就是把P(Xi/θi)看成θi的函数，求出使它极大时的θi值。∵学习样本独立从总体样本集中抽取的∴N个学习样本出现概率的乘积取对数：对θi求导,并令它为0：有时上式是多解的,上图有5个解,只有一个解最大即.P(Xi/θi)2.多维正态分布情况①∑已知,μ未知,估计μ服从正态分布所以在正态分布时代入上式得所以，有这说明未知均值的极大似然估计正好是训练样本的算术平均。②∑，μ均未知A.一维情况：n=1对于每个学习样本只有一个特征的简单情况：(n=1)由上式得即学习样本的算术平均样本方差讨论：1.正态总体均值的极大似然估计即为学习样本的算术平均2.正态总体方差的极大似然估计与样本的方差不同，当N较大的时候，二者的差别不大。B．多维情况：n个特征（推导过程，作为练习）估计值：结论：①μ的估计即为学习样本的算术平均②估计的协方差矩阵是矩阵的算术平均（nⅹn阵列，nⅹn个值）二.贝叶斯估计极大似然估计是把待估的参数看作固定的未知量，而贝叶斯估计则是把待估的参数作为具有某种先验分布的随机变量，通过对第i类学习样本Xi的观察，通过贝叶斯准则将概率密度分布P(Xi/θ)转化为后验概率P(θ/Xi)，进而求使得后验概率分布最大的参数估计，也称最大后验估计。估计步骤：①确定θ的先验分布P(θ),待估参数为随机变量。②用第i类样本xi=(x1,x2,….xN)T求出样本的联合概率密度分布P(xi|θ)，它是θ的函数。③ 利用贝叶斯公式,求θ的后验概率 ④下面以正态分布的均值估计为例说明贝叶斯估计的过程：一维正态分布：已知σ2,估计μ假设概率密度服从正态分布P(X|μ)=N(μ,σ2),P(μ)=N(μ0,σ02)第i类学习样本xi=(x1,x2,….xN)T,i=1,2,…M第i类概率密度P(x|μi,xi)=P(x|xi)所以由贝叶斯公式，则可得后验概率：因为N个样本是独立抽取的，所以上式可以写成其中为比例因子,只与x有关,与μ无关∵P(Xk|μ)=N(μ,σ2),P(u)=N(μ0,σ02)其中a’,a’’包含了所有与μ无关的因子∴P(μ|Xi)是u的二次函数的指数函数∴P(μ|Xi)仍然是一个正态函数,P(μ|Xi)=N(μN,σN2)另外后验概率可以直接写成正态形式：比较以上两个式子,对应的系数应该相等∴解以上两式得将μN,代入P(μ|Xi)可以得到后验概率，再用公式∴对μ的估计为若令P(μ)=N(μ0,σ02)=N(0,1)，即为标准正态分布，且总体分布的方差也为1，则此时估计与极大似然估计相似，只是分母不同。∵三．贝叶斯学习1.贝叶斯学习的概念：通过已有的概率分布和观测数据推理求出μ的后验概率之后，直接去推导总体分布，即当观察一个样本时，N=1就会有一个μ的估计值的修正值；当观察N=4时，对μ进行修正，向真正的μ靠近；当观察N=9时，对μ进行修正，向真正的μ靠的更近；当观察N个样本后,μN就反映了观察到N个样本后对μ的最好推测，而σN2反映了这种推测的不确定性。N↑,σN2↓,σN2随观察样本增加而单调减小，且当N→∞,σN2→0；当N↑，P(μ|xi)越来越尖峰突起，于是N→∞,P(μ|xi)→函数，即收敛于一个以真实参数为中心的函数，这个过程成为贝叶斯学习。2．类概率密度的估计在求出u的后验概率P(μ|xi)后，可以直接利用式推断类条件概率密度。即P(x|xi)＝P(x|ωi，xi)⑴一维正态：已知σ2，μ未知∵μ的后验概率为结论：①把第i类的先验概率P(ωi)与第i类概率密度P(x|xi)相乘可以得到第i类的后验概率P(ωi|x)，根据后验概率可以分类。②对于正态分布P(x|xi)，用样本估计出来的μN代替原来的μ，用代替原来的方差即可。③把估计值μN作为μ的实际值，那么使方差由原来的变为,使方差增大；也就是说：用μ的估计值μN代替真实值μ，将引起不确定性增加。⑵多维正态（已知Σ，估计μ）设P(x|μ)=N(μ,∑)P(μ)=N(μ0,∑0).根据Bayes公式，仿上面步骤可以得到：ΣN,μN有以下关系其中a与μ无关这就是在多维情况下，对μ的估计。§4-3非参数估计参数估计要求密度函数的形式已知，但这种假定有时并不成立，常见的一些函数形式很难拟合实际的概率密度，经典的密度函数都是单峰的，而在许多实际情况中却是多峰的，因此用非参数估计。非参数估计:直接用已知类别样本去估计总体密度分布，方法有：① 用样本直接去估计类概率密度p(x|ωi)以此来设计分类器,如窗口估计② 用学习样本直接估计后验概率p(ωi|x)作为分类准则来设计分类器，如KN近邻法。1. 密度估计原理：一个随机变量X落在区域R的概率为PP(X’)为P(X)在R内的变化值，P(X)就是要求的总体概率密度RP(x)假设有N个样本X=(X1,X2,…XN)T都是按照P(X)从总体中独立抽取的,若N个样本中有k个落入在R内的概率符合二项分布其中，P是样本X落入R内的概率，Pk是k个样本落入R内的概率数学期望:E(k)=k=NP∴对概率P的估计：。是P的一个比较好的估计设P(x’)在R内连续变化,当R逐渐减小的时候,小到使P(x)在其上几乎没有变化时，则其中是R包围的体积∴∴条件密度的估计：(V足够小)讨论:①当V固定的时候N增加,k也增加,当时只反映了P(x)的空间平均估计而反映不出空间的变化②N固定，体积变小当时，k=0时时所以起伏比较大,噪声比较大,需要对V进行改进.对体积V进行改进：为了估计X点的密度，我们构造一串包括X的区域序列:R1,R2,...RN。对R1采用一个样本进行估计，对R2采用二个样本进行估计，...设VN是RN的体积，KN是N个样本落入VN的样本数则：密度的第N次估计：其中：VN是RN的体积，KN是N个样本落入VN的样本数∴PN(x)是P(x)的第N次估计若PN(x)收敛于P(x)应满足三个条件：①，当N↑时，VN↓，N→∞，VN→0这时虽然样本数多，但由于VN↓，落入VN内的样本KN也减小，所以空间变化才反映出来； ②，N↑，KN↑，N与KN同向变化； ③，KN的变化远小于N的变化。因此尽管在R内落入了很多的样本，但同总数N比较,仍然是很小的一部分。如何选择VN满足以上条件：①使体积VN以N的某个函数减小，如 (h为常数)，窗口法。②使KN作为N的某个函数，例VN的选择使RN正好包含KN个近邻V1→K1，V2→K2，…，VR→KR→KN近邻法2.Parzen窗口估计假设RN为一个d维的超立方体，hN为超立方体的长度∴超立方体体积为：，d=1，窗口为一线段d=2，窗口为一平面d=3，窗口为一立方体d>3，窗口为一超立方体窗口的选择：方窗函数指数窗函数正态窗函数Φ(u)Φ(u)Φ(u)hN正态窗函数∵ф(u)是以原点x为中心的超立方体。∴在xi落入方窗时，则有在VN内为1不在VN内为0落入VN的样本数为所有为1者之和∴密度估计讨论：①每个样本对估计所起的作用依赖于它到x的距离，即|x-xi|≤hN/2时，xi在VN内为1，否则为0。②称为的窗函数，取0，1两种值，但有时可以取0,0.1,0.2，…多种数值，例如随xi离x接近的程度，取值由0,0.1,0.2，…到1。③要求估计的PN(x)应满足：为满足这两个条件，要求窗函数满足：④窗长度hN对PN(x)的影响若hN太大,PN(x)是P(x)的一个平坦,分辨率低的估计,有平均误差若hN太小,PN(x)是P(x)的一个不稳定的起伏大的估计,有噪声误差为了使这些误差不严重，hN应很好选择。例1：对于一个二类（ω1，ω2）识别问题，随机抽取ω1类的6个样本X=(x1，x2，….x6)ω1=(x1，x2，….x6)=(x1=3.2，x2=3.6，x3=3，x4=6，x5=2.5，x6=1.1)估计P(x|ω1)即PN(x)解：选正态窗函数0123456x6x5x3x1x2x4x∵x是一维的上式用图形表示是6个分别以3.2，3.6，3，6，2.5，1.1为中心的丘形曲线(正态曲线)，而PN(x)则是这些曲线之和。由图看出，每个样本对估计的贡献与样本间的距离有关，样本越多，PN(x)越准确。例2：设待估计的P(x)是个均值为0，方差为1的正态密度函数。若随机地抽取X样本中的1个、16个、256个作为学习样本xi,试用窗口法估计PN(x)。解：设窗口函数为正态的，σ＝1，μ＝0hN:窗长度，N为样本数，h1为选定可调节的参数。用窗法估计单一正态分布的实验N=∞N=256N=16N=1讨论：由图看出,PN(x)随N,h1的变化情况①当N＝1时，PN(x)是一个以第一个样本为中心的正态形状的小丘，与窗函数差不多。②当N＝16及N=256时h1＝0.25曲线起伏很大，噪声大h1＝1起伏减小h1＝4曲线平坦，平均误差③当N→∞时，PN(x)收敛于一平滑的正态曲线，估计曲线较好。例3：待估的密度函数为两个均匀分布密度的混合密度解：此为多峰情况的估计设窗函数为正态-2.5

                    本文档为【模式识别-4-概率密度函数的估计】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

模式识别-4-概率密度函数的估计

你可能还喜欢