首页 机器学习PPT

机器学习PPT

举报
开通vip

机器学习PPT1机器学习学习是人类获取知识的重要途径和自然智能的重要标志,机器学习则是机器获取知识的重要途径和人工智能的重要标志。2020/2/20什么是机器学习是寻找一种对自然/人工主题、现象或活动可预测且/或可执行的机器理解方法22020/2/20什么是机器学习研究计算机怎样模拟或实现人类(动物)的学习行为,以获取新的知识或技能重新组织已有的知识结构使之不断改善自身的性能是人工智能的核心,是使计算机具有智能的根本途径其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎32020/2/20机器学习的一个形象描述4202...

机器学习PPT
1机器学习学习是人类获取知识的重要途径和自然智能的重要标志,机器学习则是机器获取知识的重要途径和人工智能的重要标志。2020/2/20什么是机器学习是寻找一种对自然/人工主题、现象或活动可预测且/或可执行的机器理解方法22020/2/20什么是机器学习研究计算机怎样模拟或实现人类(动物)的学习行为,以获取新的知识或技能重新组织已有的知识结构使之不断改善自身的性能是人工智能的核心,是使计算机具有智能的根本途径其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎32020/2/20机器学习的一个形象描述42020/2/20机器学习的一般泛型监督学习必须预先知道学习的期望结果,并依此按照某一学习规则来修正权值。知道输入数据,知道结果,用函数预测个例无监督学习,不知道结果,根据数据特征分类半监督学习是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。输入数据不可靠,依据权重的调整进行训练。强化学习利用某一 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 示“奖/惩”的全局信号,衡量与强化输入相关的局部决策如何。(输入\输出之间没有固定的函数)52020/2/20监督学习决策树(简单问题)人工神经网络(大量样本)支持向量机(小样本)62020/2/20决策树学习72020/2/20决策树学习  1.什么是决策树  决策树(decisiontree)也称判定树,它是由对象的若干属性、属性值和有关决策组成的一棵树。其中的节点为属性(一般为语言变量),分枝为相应的属性值(一般为语言值)。从同一节点出发的各个分枝之间是逻辑“或”关系;根节点为对象的某一个属性;从根节点到每一个叶子节点的所有节点和边,按顺序串连成一条分枝路径,位于同一条分枝路径上的各个“属性-值”对之间是逻辑“与”关系,叶子节点为这个与关系的对应结果,即决策。例如图1就是一棵决策树。其中,A,B,C代表属性,ai,bj,ck代表属性值,dl代表对应的决策。处于同一层的属性(如图中的B,C)可能相同,也可能不相同,所有叶子节点(如图中的dl,l=1,2,…,6)所表示的决策中也可能有相同者。82020/2/20  由图1不难看出,一棵决策树上从根节点到每一个叶子节点的分枝路径上的诸“属性-值”对和对应叶子节点的决策,刚好就构成一个产生式规则:诸“属性-值”对的合取构成规则的前提,叶子节点的决策就是规则的结论。例如,图1中从根节点A到叶子节点d2的这一条分枝路径就构成规则:(A=a1)∧(B=b2)=>d2而不同分枝路径所表示的规则之间为析取关系。92020/2/20图1决策树示意图102020/2/20图2飞机起飞的简单决策树112020/2/20例1 图3所示是一个描述“兔子”概念的决策树。图3“兔子”概念的决策树122020/2/20  2.怎样学习决策树决策树是一种知识表示形式,构造决策树可以由人来完成,但也可以由机器从一些实例中总结、归纳出来,即由机器学习而得。机器学习决策树也就是所说的决策树学习。  决策树学习是一种归纳学习。由于一棵决策树就表示了一组产生式规则,因此决策树学习也是一种规则学习。特别地,当规则是某概念的判定规则时,这种决策树学习也就是一种概念学习。132020/2/20  决策树学习的基本方法和步骤是:  首先,选取一个属性,按这个属性的不同取值对实例集进行分类;并以该属性作为根节点,以这个属性的诸取值作为根节点的分枝,进行画树。  然后,考察所得的每一个子类,看其中的实例的结论是否完全相同。如果完全相同,则以这个相同的结论作为相应分枝路径末端的叶子节点;否则,选取一个非父节点的属性,按这个属性的不同取值对该子集进行分类,并以该属性作为节点,以这个属性的诸取值作为节点的分枝,继续进行画树。如此继续,直到所分的子集全都满足:实例结论完全相同,而得到所有的叶子节点为止。这样,一棵决策树就被生成。下面我们进一步举例说明。142020/2/20表1汽车驾驶保险类别划分实例集152020/2/20可以看出,该实例集中共有12个实例,实例中的性别、年龄段和婚状为3个属性,保险类别就是相应的决策项。为表述方便起见,我们将这个实例集简记为  S={(1,C),(2,C),(3,C),(4,B),(5,A),(6,A),(7,C),(8,B),(9,A), (10,A),(11,B),(12,B)}其中每个元组表示一个实例,前面的数字为实例序号,后面的字母为实例的决策项保险类别(下同)。另外,为了简洁,在下面的决策树中我们用“小”、“中”、“大”分别代表“<21”、“≥21且≤25”、“>25”这三个年龄段。162020/2/20显然,S中各实例的保险类别取值不完全一样,所以需要将S分类。对于S,我们按属性“性别”的不同取值将其分类。由表1可见,这时S应被分类为两个子集:S1={(3,C),(4,B),(7,C),(8,B),(11,B),(12,B)}S2={(1,C),(2,C),(5,A),(6,A),(9,A),(10,A)}于是,我们得到以性别作为根节点的部分决策树(见图4(a))。172020/2/20  考察S1和S2,可以看出,在这两个子集中,各实例的保险类别也不完全相同。这就是说,还需要对S1和S2进行分类。对于子集S1,我们按“年龄段”将其分类;同样,对于子集S2,也按“年龄段”对其进行分类(注意:对于子集S2,也可按属性“婚状”分类)。分别得到子集S11,S12,S13和S21,S22,S23。于是,我们进一步得到含有两层节点的部分决策树(如图4(b)所示)。182020/2/20 注意到,这时除了S12和S13外,其余子集中各实例的保险类别已完全相同。所以,不需再对其进行分类,而每一个子集中那个相同的保险类别值就可作为相应分枝的叶子节点。添上这些叶子节点,我们又进一步得到发展了的部分决策树(如图4(c)所示)。  接着对S12和S13,按属性“婚状”进行分类(也只能按“婚状”进行分类)。由于所得子集S121,S121和S131,S132中再都只含有一个实例,因此无需对它们再进行分类。这时这4个子集中各自唯一的保险类别值也就是相应分枝的叶子节点。添上这两个叶子节点,就得到如图4(d)所示的决策树。192020/2/20图4决策树生成过程202020/2/20图4决策树生成过程212020/2/20图4决策树生成过程222020/2/20图4决策树生成过程232020/2/20由这个决策树即得下面的规则集:①女性且年龄在25岁以上,则给予A类保险.②女性且年龄在21岁到25岁之间,则给予A类保险。③女性且年龄在21岁以下,则给予C类保险。④男性且年龄在25岁以上,则给予B类保险。⑤男性且年龄在21岁到25岁之间且未婚,则给予C类保险。⑥男性且年龄在21岁到25岁之间且已婚,则给予B类保险。⑦男性且年龄在21岁以下且未婚,则给予C类保险。⑧男性且年龄在21岁以下且已婚,则给予B类保险。242020/2/20人工神经网络252020/2/20人工神经网络1生物神经元及人工神经元的组成2人工神经网络的模型2.1人工神经元的模型2.2常用的激活转移函数2.3MP模型神经元262020/2/201、生物神经元及人工神经元的组成神经元也称神经细胞,它是生物神经系统的最基本单元,它和人体中其他细胞的关键区别在于具有产生、处理和传递信号的功能。每个神经元都包括三个主要部分:细胞体、树突和轴突,见图5(a)。(a)简单神经元网络图(b)简化后的网络示意图(1)细胞体;(2)树突;(3)轴突;(4)突触图5简单神经元网络及其简化结构图272020/2/20目前多数人工神经网络的构造大体上都采用如下的一些原则:由一定数量的基本神经元分层联接;每个神经元的输入、输出信号以及综合处理 内容 财务内部控制制度的内容财务内部控制制度的内容人员招聘与配置的内容项目成本控制的内容消防安全演练内容 都比较简单;网络的学习和知识存储体现在各神经元之间的联接强度上。282020/2/202、人工神经网络的模型2.1人工神经元的模型神经元是人工神经网络的基本处理单元,它一般是一个多输入/单输出的非线性元件。神经元输出除受输入信号的影响外,同时也受到神经元内部因素的影响,所以在人工神经元的建模中,常常还加有一个额外输入信号,称为偏差,有时也称为阈值或门限值。292020/2/20神经元的输出矢量可以表示为:A=f(W*P+b)=f(∑wjpj+b)可以看出偏差被简单地加在W*P上作为激活函数的另一个输入分量。实际上偏差也是一个权值,只是它具有固定常数为1的权值。在网络的设计中,偏差起着重要的作用,它使得激活函数的图形可以左右移动,从而增加了解决问题的可能性。人工神经网络的学习就是过程就是对它的训练过程302020/2/202.2激活转移函数激活转移函数f(Activationtransferfunction)简称激活函数,它是一个神经元及神经网络的核心之一。神经网络解决问题的能力与功效除了与网络结构有关外,在很大程度上取决于网络激活函数。线性函数、非线性斜面函数、阈值函数、S形函数312020/2/20人工神经网络人工神经网络是对人类神经系统的一种模拟。尽管人类神经系统规模宏大、结构复杂、功能神奇,但其最基本的处理单元却只有神经元。人工神经系统的功能实际上是通过大量神经元的广泛互连,以规模宏伟的并行运算来实现的。基于对人类生物系统的这一认识,人们也试图通过对人工神经元的广泛互连来模拟生物神经系统的结构和功能。人工神经元之间通过互连形成的网络称为人工神经网络。在人工神经网络中,神经元之间互连的方式称为连接模式或连接模型。它不仅决定了神经元网络的互连结构,同时也决定了神经网络的信号处理方式。322020/2/20人工神经网络的分类目前,已有的人工神经网络模型至少有几十种,其分类方法也有多种。例如,若按网络拓扑结构,可分为无反馈网络与有反馈网络;若按网络的学习方法,可分为有导师学习网络和无导师学习网络;若按网络的性能,可分为连续型网络与离散型网络,或分为确定性网络与随机型网络;若按突触连接的性质,可分为一阶线性关联网络与高阶非线性关联网络。332020/2/20无导师学习:当两个神经元同时处于激发状态时被加强,否则被减弱。它学习的是神经元之间的连接强度。有导师学习:输入向量与其输出向量构成一个训练对,不断调整权值,使输入与输出向量在一个误差范围内。342020/2/20人工神经网络的局限性人工神经网络是一个新兴学科,因此还存在许多问题。其主要表现有:受到脑科学研究的限制:由于生理实验的困难性,因此目前人类对思维和记忆机制的认识还很肤浅,还有很多问题需要解决;还没有完整成熟的理论体系;还带有浓厚的策略和经验色彩;与传统技术的接口不成熟。上述问题的存在,制约了人工神经网络研究的发展。352020/2/202.3MP神经元模型MP神经元模型是由美国心理学家McClloch和数学家Pitts共同提出的,因此,常称为MP模型。MP神经元模型是典型的阈值型神经元,见图7,它相当于一个多输入单输出的阈值器件。...w1w2wrp1p2pr∑b图7MP模型神经元362020/2/20如图7所示,假定p1,p2,…,pn表示神经元的n个输入;wi表示神经元的突触连接强度,其值称为权值;n表示神经元的输入总和,f(n)即为激活函数;a表示神经元的输出,b表示神经元的阈值,那么MP模型神经元的输出可描述为(1)式所示:...w1w2wrp1p2pr∑b图7MP模型神经元(1)372020/2/20MP模型神经元是二值型神经元,其输出状态取值为1或0,分别代表神经元的兴奋和抑制状态。如果n>0,即神经元输入加权总和超过某个阈值,那么该神经元兴奋,状态为1;如果n≤0,那么该神经元受到抑制,状态为0。通常,将这个规定称为MP模型神经元的点火规则。用一数学表达式表示为:对于MP模型神经元,权值w在(-1,+1)区间连续取值。取负值表示抑制两神经元间的连接强度,正值表示加强。(2)382020/2/20MP模型神经元具有什么特性?能完成什么功能?为了回答这个问题,我们以简单的逻辑代数运算为例来说明。392020/2/20例1假设一个MP模型神经元有2个输入:p1和p2,其目标输出记为t,试问它能否完成下列真值表功能?解:根据 要求 对教师党员的评价套管和固井爆破片与爆破装置仓库管理基本要求三甲医院都需要复审吗 ,神经元的权值和阈值必须满足如下不等式组:若取b值为0.5,W1和W2取0.7。可以验证用这组权值和阈值构成的2输入MP模型神经元能够完成该逻辑“或”运算。(1)(2)(3)(4)不等式组真值表p1p2t111101011000402020/2/20如同许多代数方程一样,由MP模型激活函数得出的不等式具有一定的几何意义,所有输入样本构成样本输入空间。对于任意特定W和P的值都规定了一个超平面(决策平面),其方程为:它把超平面Rn(X∈Rn)分成了两部分:WX-b<0部分和WX-b≥0部分。412020/2/203、人工神经网络的结构与学习3.1人工神经网络的结构如果将大量功能简单的形式神经元通过一定的拓扑结构组织起来,构成群体并行分布式处理的计算结构,那么这种结构就是人工神经网络,统称为神经网络。422020/2/20根据神经元之间连接的拓扑结构上的不同,可将神经网络结构分为两大类:分层网络相互连接型网络432020/2/201、分层结构分层网络将一个神经网络模型中的所有神经元按功能分成若干层,一般有输入层、隐层(又称中间层)和输出层各层顺序连接,如图所示。输出层中间层输入层输入输出分层网络的功能层次442020/2/20简单的前向网络具有反馈的前向网络层内有相互连接的前向网络分层网络可以细分为三种互连形式:452020/2/20图(a)简单的前向网络形状;图(b)输出层到输入层具有反馈的前向网络;图(c)层内有相互连接的前向网络。462020/2/20所谓相互连接型网络是指网络中任意两个神经元之间是可达的,即存在连接路径,如图7.8(d)所示。2、相互连接型结构472020/2/20权值修正学派认为:神经网络的学习过程就是不断调整网络的连接权,以获得期望的输出的过程。3.2人工神经网络的学习482020/2/20相关学习法误差修正学习法典型的权值修正方法有两类:492020/2/20式中,wji(t+1)表示修正一次后的某一权值;η称为学习因子,决定每次权值的修正量,xi(t)、xj(t)分别表示t时刻第i、第j个神经元的状态。如果神经网络中某一神经元与另一直接与其相连的神经元同时处于兴奋状态,那么这两个神经元间的连接强度应该加强。相关学习法是根据连接间的激活水平改变权值的,相关学习法也称Hebb学习规则,可用一数学表达式表示为:相关学习法502020/2/20根据期望输出与实际输出之间的误差大小来修正权值。误差修正学习法也称δ学习规则,可由如下四步来描述;误差修正学习法选择一组初始权值和偏差值;计算某一输入模式对应的实际输出与期望输出的误差更新权值(偏差值可视为输入恒为-1的一个权值)返回步骤(2),直到对所有训练模式,网络输出均能满足要求。式中,η为学习因子;yje(t)、yj(t)分别表示第j个神经元的期望输出与实际输出;xi为第i个神经元的输入;512020/2/20一些著名的神经网络模型522020/2/20SVM(支持向量机,SupportVectorMachine)小样本根据统计学习理论,学习机器的实际风险由经验风险值和置信范围值两部分组成。而基于经验风险最小化准则的学习方法只强调了训练样本的经验风险最小误差,没有最小化置信范围值,因此其推广能力较差。Vapnik提出的支持向量机(SupportVectorMachine,SVM)以训练误差作为优化问题的约束条件,以置信范围值最小化作为优化目标,即SVM是一种基于结构风险最小化准则的学习方法,其推广能力明显优于一些传统的学习方法。形成时期在1992—1995年。532020/2/205支持向量直观地说,支持向量是两类集合边界上的点。对于新的数据点x,要对其进行分类只需要计算其中和是支持向量对应的参数。  判别函数:是特征空间中某点x到超平面的距离的一种代数度量支持向量图解判别函数的形式判别函数的作用根据判别函数的值进行分类,并且函数值只与1和-1进行比较支持向量的条件552向量与超平面的关系562总之:线性判别函数利用一个超平面把特征空间分隔成两个区域。超平面的方向由法向量w确定,它的位置由阈值确定。判别函数g(x)正比于x点到超平面的代数距离(带正负号)。当x点在超平面的正侧时,g(x)>0;当x点在超平面的负侧时,g(x)<0572020/2/20支持向量机的应用现状VM人脸检测、验证和识别Osuna最早将SVM应用于人脸检测,并取得了较好的效果。其方法是直接训练非线性分类器完成人脸与非人脸的SVM分类。由于SVM的训练需要大量的存储空间,并且非线性SVM分类器需要较多的支持向量,速度很慢。所以在实际中广泛实用层次结构分类器,它由一个线性组合和一个非线性组成。检测时,由前者快速排除掉图像SVM中绝大部分背景窗口,而后者只需对少量的候选区域做出确认。人脸检测研究中更复杂的情况是姿态的变化。基于支持向量机姿态分类器,分类错误率降低到1.67%,明显优于在传统方法中效果最好的人工神经元网络方法。人脸姿态可以划分为多个类别,在训练过程中,面部特征的提取和识别可看作是对3D物体的投影图像进行匹配的问题。很多研究利用了SVM利于处理小样本问题以及泛化能力强的优势,取得了比传统最近邻分类器和BP网络分类器更高的识别率。582020/2/20支持向量机的应用现状贝尔实验室对美国邮政手写数字库进行的实验,人工识别平均错误率是2.5%,专门针对该特定问题设计的层神经网络错误率为5.1%(其中利用了大量先验知识),而用种方法采用3种SVM核函数得到的错误率分别为4.0%、4.1%和4.2%,且是直接采用16×16的字符点阵作为输入,表明了SVM的优越性能。手写体数字0~9的特征可以分为结构特征、统计特征等。在一些实验中,SVM表明了对手写汉字识别的有效性。592020/2/20无监督机器学习无监督分类聚类关联规则602020/2/20聚类(Cluster)聚类目的在将相似的事物归类。聚类分析又称为“同质分组”或者“无监督的分类”,指把一组数据分成不同的“簇”,每簇中的数据相似而不同簇间的数据则距离较远。相似性可以由用户或者专家定义的距离函数加以度量。好的聚类方法应保证不同类间数据的相似性尽可能地小,而类内数据的相似性尽可能地大。61612020/2/20聚类分析的基本思想是认为所研究的数据集中的数据或者属性之间存在着程度不同的相似性。于是从数据集中取出一批数据,具体找出一些能够度量数据值之间或者属性之间相似程度的量,以这些量为中心作为划分类型的依据,把一些相似程度较大的数据或属性聚合为一类,把另外一些彼此之间相似程度较大的样品又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有数据或属性都聚合完毕,把不同的类型一一划分出来。622020/2/20比较常用的距离:绝对值距离欧氏距离明斯基距离632020/2/2064HierarchicalClustering层次聚类法该方法是利用距离矩阵作为分类 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 ,将n个样品各作为一类;计算n个样品两两之间的距离,构成距离矩阵;合并距离最近的两类为一新类;计算新类与当前各类的距离;再合并、计算,直至只有一类为止。Step0Step1Step2Step3Step4bdceaabdecdeabcdeStep4Step3Step2Step1Step0agglomerative(AGNES)divisive(DIANA)642020/2/20K均值算法K均值(k-means)是一种简便、实用的无监督聚类分析算法。这种算法在已知簇的个数时,可很好地实现数据的聚类分析。基本思想:(1)首先,随机选择k个数据点做为聚类中心(2)然后,计算其它点到这些聚类中心点的距离,通过对簇中距离平均值的计算,不断改变这些聚类中心的位置,直到这些聚类中心不再变化为止。652020/2/20K-MeansClusteringK-均值聚类方法012345678910012345678910012345678910012345678910K=2ArbitrarilychooseKobjectasinitialclustercenterAssigneachobjectstomostsimilarcenterUpdatetheclustermeansUpdatetheclustermeansreassignreassign662020/2/20K均值的流程由流程图可知,k-均值算法是一种基于对数据集进行划分的方法进行聚类的算法。它是不断趋于最优解的试探过程。每一次迭代都试图使簇中心的选择更加接近于数据集的实际簇中心。输出N输入读入标准化归一化初始化簇计算簇平均值更改簇中心重新决定点归何簇Y簇中心是否变化672020/2/20最近邻方法--分类最近邻决策规则—k-NN(1)已知N个已知类别样本X(2)输入未知类别样本x(6)判xω2(3)计算x到xiX,(i=1,2,…,N)的距离di(x)(4)找出x的k个最近邻元Xk={xi,i=1,2,…,k}(5)看Xk中属于哪一类的样本最多k1=3<k2=468K均值算法优势(1)算法简单;(2)执行和收敛过程相对较快,是一种常见的聚类算法。局限性(1)算法要求簇是密集的、簇和簇之间的差异比较大;(2)数据集的平均值的计算必须有适当的定义;(3)对于某些孤立数据和“噪声”点敏感等。692020/2/20NaïveBayes算法微软朴素贝叶斯算法是SAS(数据挖掘算法)中最简单的算法,通常用作理解数据基本分组的起点,说的简单一点就是处理数据的分类虽然该算法既可用于预测也可用于分组,但最常用于模型构建的早期阶段,更常用于分组而不是预测某个具体的值702020/2/20定义:事件组A1,A2,…,An(n可为),称为样本空间S的一个划分,若满足:A1A2……………AnBNaïveBayes分类712020/2/20定理:设A1,…,An是S的一个划分,且P(Ai)>0,(i=1,…,n),则对任何事件BS,有式子就称为贝叶斯公式。贝叶斯定理回顾722020/2/20例子:已知某种疾病的发病率为0.1%,该种疾病患者一个月以内的死亡率为90%;且知未患该种疾病的人一个月以内的死亡率为0.1%;现从人群中任意抽取一人,问此人在一个月内死亡的概率是多少?若已知此人在一个月内死亡,则此人是因该种疾病致死的概率为多少?贝叶斯定理回顾732020/2/20贝叶斯公式给出了‘结果’事件B已发生的条件下,‘原因’属于事件Ai的条件概率.从这个意义上讲,它是一个“执果索因”的条件概率计算公式.相对于事件B而言,概率论中把P(Ai)称为先验概率(PriorProbability),而把P(Ai|B)称为后验概率(PosteriorProbability),这是在已有附加信息(即事件B已发生)之后对事件发生的可能性做出的重新认识,体现了已有信息带来的知识更新.贝叶斯定理回顾742020/2/20分类问题1这个人会不会逃税?税号去年退税婚姻状况可征税收入逃税1是单身125k否2否婚姻中100k否3否单身70k否4是婚姻中120k否5否离婚95k是6否婚姻中60k否7是离婚220k否8否单身85k是9否婚姻中75k否10否单身90k是752020/2/20分类问题2名称胎生会飞水中生活有腿类别Human是否否是哺乳动物python否否否否非哺乳动物salmon否否是否非哺乳动物whale是否是否哺乳动物frog否否有时是非哺乳动物komodo否否否是非哺乳动物bat是是否是哺乳动物pigeon否是否是非哺乳动物cat是否否是哺乳动物leopard_shark是否是否非哺乳动物turtle否否有时是非哺乳动物penguin否否有时是非哺乳动物porcupine是否否是哺乳动物eel否否是否非哺乳动物salamander否否有时是非哺乳动物gila_monster否否否是非哺乳动物platypus否否否是哺乳动物owl否是否是非哺乳动物dolphin是否是否哺乳动物eagle否是否是非哺乳动物胎生会飞水中生活有腿类别是否是否?762020/2/20贝叶斯分类方法把每一个属性(输入)和分类变量(输出)都看作随机变量对于具有属性值(A1,A2,…,An)的观测记录目标是预测类别C特别地,我们想找能够最大化P(C|A1,A2,…,An)的C值能否从直接数据中估计P(C|A1,A2,…,An)?772020/2/20方法:使用贝叶斯定理对于分类变量C的所有值计算后验概率P(C|A1,A2,…,An),选择C使得P(C|A1,A2,…,An)最大等价于选择C使得P(A1,A2,…,An|C)P(C)最大如何估计P(A1,A2,…,An|C)?贝叶斯分类方法782020/2/20简单贝叶斯假设在给定的类别上属性变量Ai相互独立:P(A1,A2,…,An|C)=P(A1|Cj)P(A2|Cj)…P(An|Cj)对所有的Ai和Cj计算P(Ai|Cj).如果对某一个Cj,P(Cj)P(Ai|Cj)最大,新的数据点就被分类到Cj。792020/2/20分类问题1税号去年退税婚姻状况可征税收入逃税1是单身125k否2否婚姻中100k否3否单身70k否4是婚姻中120k否5否离婚95k是6否婚姻中60k否7是离婚220k否8否单身85k是9否婚姻中75k否10否单身90k是类别:P(Ck)=Nk/N例如,P(C=否)=7/10,P(C=是)=3/10Nk是类别C=Ck.的数量对离散属性:P(Ai|Ck)=|Aik|/Nk|Aik|是属性值为Ai且属于Ck的记录数量例如:P(婚姻状况=婚姻中|否)=4/7P(去年退税=是|是)=0802020/2/20对于连续属性:(sqlserver不能处理连续型属性)离散化把属性的范围划分为许多段:每一段设定一个有序值这样会违反独立性假设估计概率密度假定属性服从正态分布估计该属性分布的参数(例如,均值和标准差)在得到概率密度之后,我们可以使用它估计条件概率P(Ai|c)分类问题1812020/2/20税号去年退税婚姻状况可征税收入逃税1是单身125k否2否婚姻中100k否3否单身70k否4是婚姻中120k否5否离婚95k是6否婚姻中60k否7是离婚220k否8否单身85k是9否婚姻中75k否10否单身90k是每一对(Ai,ci)的正态分布:例如对于(收入,逃税=否):在逃税=否的情况下,可征税收入的样本均值=110样本方差=2975分类问题1822020/2/20思路:看p(逃税=否|X)是否大于p(逃税=是|X)p(逃税=否|X)=p(逃税=否)P(X|逃税=否)/p(B)p(逃税=是|X)=p(逃税=是)P(X|逃税=是)/p(B)P(X|逃税=否)=P(去年退税=否|逃税=否)P(婚姻中|逃税=否)P(收入=120K|逃税=否)P(X|逃税=是)=P(去年退税=否|逃税=是)P(婚姻中|逃税=是)P(收入=120K|逃税=是)分类问题1832020/2/20P(X|逃税=否)=P(去年退税=否|逃税=否)P(婚姻中|逃税=否)P(收入=120K|逃税=否)=4/74/70.0072=0.0024P(X|逃税=是)=P(去年退税=否|逃税=是)P(婚姻中|逃税=是)P(收入=120K|逃税=是)=101.210-9=0因为:P(X|否)P(否)>P(X|是)P(是){0.0024*0.3>0*0.7}所以:P(否|X)>P(是|X)=>逃税=否842020/2/20A:(胎生=是,会飞=否,水中生活=是,有腿=否)M:哺乳动物N:非哺乳动物P(A|M)P(M)>P(A|N)P(N)=>哺乳动物分类问题2名称胎生会飞水中生活有腿类别Human是否否是哺乳动物python否否否否非哺乳动物salmon否否是否非哺乳动物whale是否是否哺乳动物frog否否有时是非哺乳动物komodo否否否是非哺乳动物bat是是否是哺乳动物pigeon否是否是非哺乳动物cat是否否是哺乳动物leopard_shark是否是否非哺乳动物turtle否否有时是非哺乳动物penguin否否有时是非哺乳动物porcupine是否否是哺乳动物eel否否是否非哺乳动物salamander否否有时是非哺乳动物gila_monster否否否是非哺乳动物platypus否否否是哺乳动物owl否是否是非哺乳动物dolphin是否是否哺乳动物eagle否是否是非哺乳动物胎生会飞水中生活有腿类别是否是否?852020/2/20这个算法之所以称为“朴素”,是因为所有属性的重要性是一样的,没有谁高谁低一说。它是一种运用算术原则来理解数据的方法对此算法的另一个理解就是:所有属性都是独立的,互不相关的。从字面来看,该算法只是计算所有属性之间的关联。虽然该算法既可用于预测也可用于分组,但最常用于模型构建的早期阶段,更常用于分组而不是预测某个具体的值。通常要将所有属性标记为简单输入或者既是输入又是可预测的,因为这就可以要求算法在执行的时候考虑到所有属性862020/2/20很常见的一种情况是,在输入中包含大量属性,然后处理模型再评估结果,如果结果看起来没什么意义,我们经常减少包含的属性数量,以便更好地理解关联最紧密的关系。872020/2/20贝叶斯方法的不足贝叶斯方法最有争议之处就是先验信息的使用。先验信息来源于经验或者以前的实验结论,没有确定的理论依据作支持,因此在很多方面颇有争议。由于很多工作都是基于先验信息的,如果先验信息不正确,或者存在误差,那么最后导致的结论就会是不可想象的。尤其是在数据挖掘中,挖掘出的知识也是不可预知的,就是说不知道挖掘出的知识是有用的还是无用的,甚至是错误的。虽然知识发现中有一步是进行知识评估,但是这种评估并不能总是知识的可用性和有效性,特别不能确定先验信息是否正确时,这种评估更带有不确定性。处理数据复杂性高,因此时间和空间消耗也比较大。贝叶斯方法要进行后验概率的计算、区间估计、假设检验等,大量的计算是不可避免的。882020/2/20如果我们拥有大量的数据,而且对数据的了解又很少,这时候可以使用朴素贝叶斯算法。例如:公司可能由于兼并了一家竞争对手而获得了大量的销售数据,在处理这些数据的时候,可以用朴素贝叶斯算法作为起点。892020/2/20聚类分析的基本思想是在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或变量之间的相似程度,按相似程度的大小,将样品或变量逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品或变量都聚集完毕,形成一个表示亲属关系的谱系图,依次按照某些要求对某些样品或变量进行分类。902020/2/20聚类和分类的主要区别是,在进行聚类分析以前,对总体到底有几种类型并不知道,对已知数据分几类需在聚类的过程中探索调整,而分类是在事前已知道分为哪些类。912020/2/20谢谢首都师范大学·信息工程学院922020/2/20
本文档为【机器学习PPT】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
精品课件
暂无简介~
格式:ppt
大小:2MB
软件:PowerPoint
页数:0
分类:工学
上传时间:2021-06-03
浏览量:5