基于神经网络的数据挖掘分类算法比较和分析研究

基于神经网络的数据挖掘分类算法比较和分析研究独创性声明学位论文版权使用授权书穿趵lL}年易月P日研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的他人已经发表或撰写过的研究成果，也不包含为获得安徽大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名：签字日期：本学位论文作者完全了解安徽大学有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借...

独创性声明学位论文版权使用授权书穿趵lL}年易月P日研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的他人已经发表或撰写过的研究成果，也不包含为获得安徽大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名：签字日期：本学位论文作者完全了解安徽大学有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权安徽大学可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)摘要IIIII111111IIIIIIIIIIIIIIIIIIII11111IIIY2578555(neurone)节点，按照一定的网络结构连接起来，使它能够处理不精确数据、随着信息技术的发展，人们生产数据和采集数据的能力愈来愈高，但是，我们在数据分析和知识获取方面，能力还相对滞后。因此，从收集数据、创建数据库，管理数据，到数据分析，数据挖掘技术渐渐产生和发展。数据挖掘(DataMining，DM)是一门跨学科的课题，涉及许多领域，包括统计学(Statistics)、数据库(Database)、机器学习(MachineLearning)和人工智能(ArtificialIntelligence)等。数据挖掘，也被称为数据库中的知识发现，是从“海洋般”的大量数据中获取新颖的、有用的、有效的、可理解的模式的非平凡过程，也就是从大量数据里提取知识。分类(Classification)问题是数据挖掘技术中非常重要的研究课题，利用分类技术，可以从数据集中提取出描述数据类相同的模型或函数，并且能够顺利把数据集中每一个未知类别的数据划归到某个已知的类别中去。目前，常用的数据挖掘分类算法主要有：统计分类法、决策树、人工神经网络方法等。不同的算法会产生不同的分类器，而不同的分类器又会影响数据挖掘的准确率和数据挖掘的效率。因此，当面对数据量庞大的分类问题时，选择适当的分类算法是非常有必要的。人工神经网络(ArtificialNetwork，ANN)是数据挖掘常用的方法之一，该方法通过模拟人脑生物神经网络，将若干个具有处理功能的神经元模糊数据或者复杂的非线性映射问题。人工神经网络能够识别的模式是由网络的连接权值、拓扑结构及神经元阈值决定的。通过优化人工神经网络的拓扑结构及网络的权值、阈值，可以达到优化人工神经网络模型的目的。本文针对实际应用中的分类问题，详细介绍了三种人工神经网络算法的网络结构和算法描述，以及三种算法的优缺点，重点阐述了极限学习机的理论基础。将极限学习机算法应用于六个真实的数据集中，实现分类应用试验，并对实验结果与支持向量机和BP算法实验结果进行比较分析。通过实验结果发现，极限学习机在分类时间和准确率等反面，均具有明显的优势。关键词：数据挖掘；分类；人工神经网络；BP神经网络；支持向量机；极限学习机NeuralAbstractalgorithmsalgorithmknowledgetechniquesnetworkWithanalysistechnologyandMining(DM)issubjknownimportantCanobjectNetwork(ANN)isabilitycomparativelyminingdatabases，machinelearningdatabases，whichamountsdata．Classificationverymining．Theclassificationmodelclassclassifythedatasetcategory．Currently,themainlyasmethods．Differentclassifiers，theclassifierefficiencymining．Therefore，whenlarge-scalemassiveNeuralmethodsfunctionsdata，fuzzythresholddevelopmentofinformationtechnology,people’Scollectingproducingdataisincreasing，butacquirementremainsslow．Fromcollection，databasescreation，datamanagement，dataanalysis，dataconsequentlydeveloping．Datainterdisciplinaryect，whichinvolvingnumberfields，includingartificialintelligence．Dataalsodiscoveryinobtainvalidfromlarge，novel，useful，non-trivialprocessunderstandablepatterns，andlargeresearchtopicsamedescribingfunctionset，andunknowncategoryeachrightused，suchstatisticalmethod，decisiontrees，artificialneuralwillproducedifferentgoodbadwilldirectlyaffectaccuracyclassification，selectappropriateimportant．Artificialmining，bysimulatinghumanbrainbiologicalnetworks，nodeswithcertainneuronalprocessingaccordingconnected，ithasdealimprecisedata，ormapcomplexnonlinearproblems．Artificialableidentifyconnectionweightstopologydecision．Byoptimizingnetwork，thebeoptimizedmodel．Inviewproblemspracticalapplication，thispaperintroducesthreekindstoextractstructurelIanausecanoroneneuronalgorithmalgorithm．Throughadvantagesandmachine(SVM)and摘要learningclassificationthethatmachineMining；Classification；Machines；ExtremeneuralMachinealgorithm，anddisadvantagesofthreekindsalgorithms，expoundstheorybasisextrememachine．Limitwasappliedsixrealdataset，andimplementapplicationtest，andsupportresultsexperimentcomparingexperimentalinBPshowaccuracytimeetc．Opposite，haveobviousadvantages．Keywords：Datanetwork；SupportVectorArtificialNeuralNetwork；BPLearningtovector目录摘至要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．1第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯11．1课题背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一11．1．1数据挖掘基础⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。11．1．2数据挖掘的应用⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一11．1．3人工神经网络基础⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。21．1．4人：l：神经网络方法在数据挖掘中的应用⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．．31．2本文研究的主要内容和结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一41．2．1本文主要研究内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一41．2．2本文主要研究内容的组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯～4第二章数据挖掘与人工神经网络⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯62．1数据挖掘⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。62．1．1数据挖掘的定义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。62．1．2数据挖掘的基本过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一62．1．3数据挖掘的任务⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一82．1．4常用的数据挖掘算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。92．2人工神经网络⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯102．2．1人j1：神经元模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯l2．2．2人：l：神经网络的模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．112．2．3人：F神经网络的学习方式⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯132．2．4数据挖掘中几种常用的人：亡神经网络模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯12．2．5基于人工神经网络的数据挖掘过程及优缺点⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯142．3本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯1第三章极限学习机的理论基础⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。163．1引‘言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯1BP神经网络⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯16BP神经网络的网络结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯16BP神经网络的算法描述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯173．3支持向量机⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯1SVM网络结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．1SVM网络算法描述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．19LIBSWl工具箱介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯23．4极限学习机⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯213．4．1极限学习机的概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯213．4．2极限学习机的网络结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯223．4．3极限学习机算法描述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯243．5本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯25第四章实验结果分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一264．1引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯264．2“鲍鱼年龄”的分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯26Abstract．．．．．．．⋯．⋯⋯．．．．．．．．．．．．．⋯⋯⋯．．．．⋯．．．．．．⋯．⋯⋯⋯⋯⋯．．．．．．．．⋯⋯．．．．．⋯．．．⋯．．．．．．⋯⋯⋯．．⋯．．．．．．．⋯．．．．．．．．．．．II04563．23．2．13．2．283．3．13．3．23．3．314．2．1“鲍鱼年龄”集的介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯264．2．2利用BP神经网络算法对“鲍鱼年龄”集分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一274．2．3利用ELM神经网络算法对“鲍鱼年龄”集分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯284．2．4利用SVM神经网络算法对“鲍鱼年龄”集分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯284．3“是否患有心脏病”的分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯294．3．1“是否患有心脏病”集的介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯294．3．2利用BP神经网络算法对“是否患有心脏病”集分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一304．3．3利用ELM神经网络算法对“是否患有心脏病”集分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯314．3．4利用SVM神经网络算法对“是否患有心脏病”集分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯324．4“癌症患者生存期”的分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯324．4．1“癌症患者生存期”集的介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯324．4．2利用BP神经网络算法对“癌症患者生存期”集分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．．334．4．3利用ELM神经网络算法对“癌症患者生存期”集分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯344．4．4利用SVM神经网络算法对“癌症患者生存期”集分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯354．5“小麦种子”的分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯354．5．1“小麦种子”集的介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯354．5．2利用BP神经网络算法对“小麦种子”集分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一364．5．3利用ELM神经网络算法对“小麦种子”集分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯374．5．4利用SVM神经网络算法对“小麦种子”集分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯384．6“印第安人糖尿病”的分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯384．6．1“印第安人糖尿病”集的介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯384．6．2利用BP神经网络算法对“印第安人糖尿病”集分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。394．6．3利用ELM神经网络算法对“印第安人糖尿病”集分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯404．6．4利用SVM神经网络算法对“印第安人糖尿病”集分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯4l4．7“葡萄酒种类”的分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯414．7．1“葡萄酒种类”集的介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯4l4．7．2利用BP神经网络算法对“葡萄酒种类”集分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．．424．7．3利用ELM神经网络算法对“葡萄酒种类”集分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯434．7．4利用SVM神经网络算法对“葡萄酒种类”集分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯444．8本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯444．8．1数据集的比较分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯444．8．2几种算法的比较研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯454．8．3小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．53第五章总结与展望．．⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯55参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯56附录A图索引⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一59附录B表索引⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯．．61致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯65攻读硕+学位期问发表的论文⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯66安徽大学硕上学位论文基于神经网络的数据挖掘分类算法比较和分析研究AppendixAFigureIndex⋯．．．．．⋯．．．．．⋯⋯⋯．．．⋯⋯⋯．⋯．．⋯．．．．．．．．⋯⋯．．．．．．．⋯⋯．．．．．⋯．⋯⋯．．．．．．．⋯⋯．．．⋯⋯．60BTabieIndex．．．．．⋯．⋯．．．⋯．⋯．．．．．⋯．．．．．．．．．⋯．．．．．．．．．．⋯．．．．⋯⋯．．．．．．．．．．．．．．⋯．．．．．⋯．．．．．．．．．．⋯．．．．．⋯．63第一章绪论1．1课题背景1．1．1数据挖掘基础1-1．2数据挖掘的应用当代人生活在一个信息化的时代，周围充斥着各种各样的信息化的机器芋随着计算机科技的高速发展，信息量的存储越来越大。二十多年来，我们就像迷失在数据的森林里，总也找不到出口。信息量的剧增给人们的生活带来了便利的同时，也带来了各种不可避免的麻烦：首先，信息太多，不能够很好的被人们所利用；其次，人们很难确定信息的真实性；另外，越来越多的间谍开始出现，他们会觊觎我们的信息，使我们的信息变得不安全；最后，信息有多种多样的表现形式，所以我们难以对其进行统一处理。因此，如何高效地并合理地利用数据中所隐藏的有价值信息，成为了研究者所关注的课题，他们希望通过研究为决策者提供更好的决策依据，创造更多的财富。随着计算机技术的发展、成本的下降、以及数据管理技术(DataTechnology)被越来越多的运用，企业或事业单位的各个部门之间联系越来越紧密，信息化的程度也越来越高，这样就导致了大量的数据累积。决策者在面对海量的数据时，难以直接快速地从中提取出对其有价值的知识，这也从侧面推动了各种数据分析工具的研究。通过利用数据分析类型的工具，我们能够获得一些有价值的知识与信息，而所获内容又能够被广泛应用于其他各种领域【l随着信息科技的演变，数据挖掘技术产生和发展，并成为一种高级数据分析工具。而网络和相关科技的发展，更进一步加速了通信、计算机、网络等技术的合并，直接的结果就是需要处理的数据量变得更大了。因此，数据挖掘技术更加成为了研究者的研究热点，引起越来越多的人关注【2J。目前，数据挖掘技术应用面很广，在金融、电信、零售、气象、能源、电子商务等许多行业，都已经有了比较成功的案例：金融投资(FinancialInvestment)方面，包括证券管理系统(LBSManagement安徽人学硕l：学位论文CapitalJ。1．1．3人工神经网络基础险的信用卡欺诈预测系统(FALCON)。并对其侵入其他用户账户的可能性进行预测，然后得到被检测出的各种异常模式，保障电信行业的正常运转。商业(Business／Commerce)，通过使用面向CRM的数据挖掘技术，使得相关公司能够快速找到潜在目标客户，对潜在客户的需求做出相关决策，调整营销科学研究(ScientificResearch)方面，通过使用数据挖掘技术，研究出著名T001)应用系统，该系统也是天16个极为遥远的新星群【41。纪九十年代后期是第二个热潮期；二十一世纪至今，进入持续发展阶段。人工神经网络最早的研究可以追溯到十七世纪的弗洛伊德(Frued)时期，他的神经分析学对神经系统已经有了基本的研究。1943年，美国数学家Pitts与经元的概念，并提出了著名的神经网络模型，被称为M．P模型。1949年，心理学家D．O．Hebb提出了著名的“Hebb学习规则(神经元之间突触联系强度可变的假设)”，该规则现在仍被多数学习机所遵守。1958年，FrankRosenblatt提出了感知机(Perceptron)的概念，它被认为是最早的神经网络模型。1959年，Widrow之后，各种神经网络会议相继召丌，神经网络的新高潮已经形成。1995年以后，Management)和通过数据挖掘技术来判断信用卡持卡人是否存在潜在的欺诈风电信(Telecom)行业，通过数据挖掘技术确定潜在盗用者的非正常的使用，策略【3】。的SKICAT(Sky文学领域最成功的数据挖掘应用案例。天文学家通过使用这个系统，已经发现了人工神经网络(ArtificialNetwork，A卜N)的发展经历了一个曲折的过程。其发展过程大体可以分为五个时期：1943年～1969年是第一个热潮期；1969年～1982年是相对低潮期；1982年～1987年第二个热潮的开始；1987年～二十世神经心理学家McCulloch共同发表了一篇具有前瞻性的论文，他们首次提出了神和Hoff开发出一种被称为自适应线性原件(Adaline)的网络模型，其算法被称为Widrow—Hoff算法。1987年，首届国际神经网络大会在美国SanDiego召开，会上成立了国际神经网络协会(Intemational神经网络进入了稳定持续的发展时期，并持续取得了很多研究成果，比较著名的ImageSociety，INNS)。奠徽火学硕l：学位论义基于神经网络的数据挖掘分类算法比较和分析研究CatalogingandAnalysisNeuralNetwork21．1．4人工神经网络方法在数据挖掘中的应用比如Xu(1997，1998，2003，2004)提出的Ying．Yang机理论【51。目前，已经出现了很多种人工神经网络模型，可以从多个角度进行分类。根据人工神经网络的拓扑结构，可以分为：前馈型神经网络和反馈型神经网络；根据人工神经网络的性能可以分为：确定型、随机型、连续型、离散型神经网络；根据人工神经网络的学习方式还可以被分为：有导师学习和无导师学习两种。根据对人工神经网络方法的分析发现，其具有很多优点，最重要的就是优秀的并行处理能力以及很强的自组织学习能力，这也是近年来能够被广泛地应运用于各个领域之中的原因。而模式识别又是其中最主要的一个方面，经常在解决分类问题时有很好的应用。人工神经网络的模型有很多种，目前，应用比较广泛的有：BP神经网络、径向基函数神经网络(RBF)、Hopfield网络、概率神经网络(PNN)和自组织特征映射网络(SOM)等【61。人工神经网络的模型具有很多优点：比如其精确性高，鲁棒性较好，描述能力强，而且在应用时，可以摆脱专家先验的支持。所以，人工神经网络在数据挖掘中有着很广泛的应用【|71。当然，再优秀的方法，也会有一些缺陷，比如它在训练数据时，需要很长的时间；所获取的知识，有时不能够被很好的理解；开放性不够优秀、以及可伸缩性较弱。最近几年人工神经网络方法越来越多地被应用于数据挖掘之中：一、Lam和Lee提出利用人工神经网络算法来构造文本分类器，并能够削减维数的方法【8l；二、Fu等人提出了一种新的人工神经网络模型，该模型能够从经验数据中归纳得出符号知识，并可以改善网络的泛化能力；三、Gupta等人提出了一套规则抽取的框架，该框架能够在人工神经网络抽取规则时，解决可解释性较差的问题；四、Hatano等人提出了一种分类视图机制，该机制能够被很好的应用于超文本问题中，通过SOM和搜索引擎(SearchEngines)，利用交互式方法进行对Web文档的分类[91。安徽人学硕I：学位论文第一章绪论31．2本文研究的主要内容和结构1．2．1本文主要研究内容1．2．2本文主要研究内容的组织结构在各种数据挖掘应用中，分类算法是很重要的一部分。分类算法有很多种类，而不同的分类算法的特点又各有不同。我们知道，不存在能够解决所有分类问题的算法，因此，我们需要找到不同的分类算法以用于解决不同的分类问题。而面对同一个分类问题的应用时，又可能会有多种不同的分类算法，所以，我们还需要对数据集的特点进行讨论，以及讨论几种不同的算法中，哪种分类算法的实验结果最为优秀。因此，深入研究不同数据集上的多种分类算法，并对结果进行比较，具有很广泛的应用前景；并且希望通过我们的研究，能够对在实际应用中应该选择何种分类算法的问题，做出一定的指导。总体来说，近些年关于基于神经网络的数据挖掘分类算法的研究主要集中在：一，研究各种分类算法的优点和缺点，利用优势算法将其应用于某种实际的案例当中；二，改进某种分类算法，并对改进后的结果进行分析研究；三，对算法的改进研究范围较窄，基本集中在小数据集上。但是，对于几种不同的真实数据集应用某些分类算法进行对比研究的，并不多见【l01。为了弥补此方面的不足，本文针对实际应用中的分类问题，详细介绍了三种人工神经网络算法的网络结构和算法描述，以及三种算法的优缺点，重点阐述了极限学习机的理论基础。将极限学习机应用于六个真实的数据集，实现分类应用试验，并对实验结果与SVM和BP神经网络的实验结果进行比较分析。研究三种分类算法在不同数据集上实验结果的不同特征，比较三种算法的优点和缺点，掌握其运行时所需的环境情况，有利于后续研究者理解算法、选择算法以及改进算法。围绕以上研究内容，本论文的章节安排如下：第二章：主要介绍数据挖掘和人工神经网络技术的相关理论基础，为后续研究做铺垫。第三章：侧重研究极限学习机的理论基础，介绍BP神经网络和支持向量机的网络特点，优缺点等理论。安徽人学硕Ij学位论文基于神经网络的数据挖掘分类算法比较和分析研究4第四章：是本文的精华所在，将极限学习机方法应用于六个真实的数据集中，实现分类应用试验，并对实验结果与BP神经网络和支持向量机进行比较分析，得出包括准确度、算法效率、稳定性，以及ELM算法的隐含层神经元数与SVM算法的支持向量个数的对比的结果，总结出极限学习机在遇到分类问题时具有很大优势的结论。第五章：为全文的总结，对本文所做的工作进行分析和总结，并对未来进一步的研究工作进行展望。安徽人学硕一l：学位论文第一章绪论5第二章数据挖掘与人工神经网络2．1数据挖掘2．1．1数据挖掘的定义2．1．2数据挖掘的基本过程本章前一部分主要介绍数据挖掘技术，后一部分主要介绍人工神经网络技术的理论基础知识，为基于人工神经网络的数据挖掘方法研究，打下理论基础。本节属于理论铺垫部分，主要介绍了数据挖扣i的定义、基本过程、任务和常用算法。随着信息科技的发展，特别是因特网的发展以及信息量的激增，“信息”对于我们来说，越来越重要。因此，数据挖掘的目标便成为了怎样有效地获取更有价值的的互联网知识与信息。与此同时，互联网能够为数据挖掘提供优良的挖掘环境和挖掘对象，并且结果易于使用，用户由此可以获得直接可见的回报。所以，数据挖掘越来越受到研究者重视，各类研究如雨后春笋般展开⋯J。到目前为止，我们并没有对数据挖掘的学科划定有一个严格的标准。从广泛的意义上来说，数据挖掘(DataMining，DM)是从浩瀚的数据库或者数据系统中找出对用户有价值的东西，也可以说，是从巨大的观测数据集中提取并分析出用户轻易不会发觉或断言的关系，然后给出一个有价值的、并且是用户能够充分理解的结论。根据数据挖掘知识类型的不同，数据挖掘可以被分为聚类、分类、偏差分析、关联、特征化、相似性分析等类型。根据所使用的数据分析方法的不同，数据挖掘又可以被分为基于数据库技术、数理统计、机器学习、人工神经网络等【l图2．1显示的是如何从原始数据得到有用的模式，然后再进一步得到知识的过程【13】：安徽人学硕=|J学位论文基于神经网络的数据挖掘分类算法比较和分析研究621。图2．1：数据挖掘的基本过程(1)收集原始数据的工作在整个数据挖掘过程中所占的比例并不比其他工作少，而且，研究者所收集的原始数据一定要充分多，这样才能使得数据挖掘的性能与结果更能满足我们的要求。(2)采集数据之后，开始进行抽样和清理工作。抽样和清理的结果是要能够得到数据样本集，数据样本集可以被用来进行训练和学习。为了提高数据挖掘的正确性和效率，在进行数据挖掘之前还要对数据进行必要的“整理”和“筛选”。(3)若此时，数据形式仍达不到我们的要求，则需要对其进行数据转换。如果之后的结果仍不理想，则需要返回到前一阶段，重新对原始数据抽样分析；假如结果已经很理想了，则可以进行下一步。(4)在研究数据存储的过程中，我们发现数据仓库是一种很有效的形式，它非常有利于进行数据挖掘。结束此过程之后，就到了各种数据挖掘算法发挥作用的时候了【141。我们根据数据挖掘的基本过程，可以提取出典型的数据挖掘系统，它由如下模块组成，如图2．2所示【15】：mining安徽人学硕I：学位论文第二章数据挖掘与人jIj神经网络Fi92．1：Thebasicprocessofdata7。_?塑F≮Fi茹磊i——一一⋯～7广。、、)，i=—=二一2．1．3数据挖掘的任务∑Z——⋯一～^／7夕。～一⋯～。数据清西1下j再ij藻赢彳F一丑滤图2．2：数据挖掘系统的典型结构数据挖掘的任务是指：从数据集中发现和找到潜在的、有用的模式。该模式可以被分为两类：一、预测型(predictive)模式，指的是依据模式的数据项的值可以对某种未知的结果进行预测或确定；二、描述型(descriptive)模式，指的是对数据集中所存在的事实做出规范性描述，刻画出数据的一般性特征。数据挖掘的任务在实际的应用中又可以被分为：(1)分类和聚类(ClassificationClustering)：在数据挖掘中，分类和聚类任务占有非常大的比重，因此这方面的应用也最多。分类(Classification)是为了找出一个把数据库中的数据项映射到给定类别中去的分类函数或者分类模型。分类和回归都可用于预测。预测(Prediction)是对给定的数据推广描述而从历史数据记录中进行的自动推导，目的是对未来的数据进行预测。分类与回归的不同点在于，分类的输出是离散型的类别值，但是回归的输出一般都是是连续型的数值。聚类(Clustering)是根据数据的不同特征，对数据进行划分，将其划分到不同的数据类别中。将同属一类的个体之问的距离尽量缩小，并让不同类别上的个体之间距离尽量放大，是聚类的目标。(2)相关性分析(CorrelationAnalysis)：相关性分析是为了发现数据之问或特征之问的相互依赖关系。数据相关性能够代表一类相对重要的可发现知识，图形用户界面GUI数据挖掘引擎数据库／数据仓库服务器数据库．数据仓库安徽大学硕．I：学位论文綦于神经网络的数据挖掘分类算法比较和分析研究Fi92．2：Thetypicalofdatamimngsystemand餐口t}i{J至。、fstructure8≥、2．1．4常用的数据挖掘算法常用到的几种算法和技术进行一下简单的介绍【1此类知识又可以被其他模式提取算法使用。一种依赖关系通常存在于两个元素之问。假如从元素A的值能够推出另一个元素B的值，则我们称元素B依赖于元素A。数据相关性分析在数据挖掘中有着广泛的应用，数据相关性分析的结果有时可以直接提供给用户。(3)除以上几种之外，经常见到的数据挖掘的任务还有偏差分析‘16】Analysis)、序列等。常用的数据挖掘算法可以被归为两类‘17】：一、机器学习型算法，它属于人工智能范畴，经常通过对大量样本集的训练和学习找出所需要的参数或模式；二、统计型算法，此类算法常用的技术有相关性分析、聚类分析、概率分析和判别分析等。在数据挖掘的应用中，各种算法都有其自身的功能特点以及不同的适用领域，所以可以把多种算法结合起来使用，结果也更好。下面对数据挖掘应用中经(1)统计分析统计分析理论是一种比较精准的数据挖掘技术，概率论原理和统计学原理是它的主要基础。统计分析理论是一种基于模型的方法，该方法的优点是对结果描述精确，容易理解。主要包括判别分析、因子分析和回归分析等。(2)决策树决策树指的是针对数据的属性值而进行归纳分类的一种方法。决策树经常用于分类问题的层次方法是“if-then”规则。常用的决策树算法主要是ID3和C4．5。决策树方法的优点明显，主要是算法直观，并且可理解性强。(3)贝叶斯网络贝叶斯网络的方法是一种基于数据统计处理的方法，该方法属于后验概率的贝叶斯定理的应用。贝叶斯网络的优点是预测效果较好，方法容易理解；但贝叶斯网络也有一些缺点，比如预测发生频率较低的事件时，效果不够好。(4)粗糙集粗糙集理论是在1982年由波兰的Pawlak教授提出的。粗糙集方法在数据挖掘的发展中起着至关重要的作用。该理论是一科，新的数学工具，它能够准确发现(Deviation安徽大学硕Ij学位论文第二章数据挖掘jj人丁神经网络8】：9丝J而LY七输出2．2人工神经网络2．2．1人工神经元模型(1)连接权％：在生物神经元中，连接权对应于突触。通过观察连接权的人工神经网络技术的基本知识进行简要介绍，为后续的研究做铺垫。人工神经元的基本模型结构，它是研究者通过将生物神经元抽象化，而建立起的最不准确数据或者噪声数据的内在的结构联系，因此，经常被用在遇到含糊性问题或不确定性问题的处理中，或被用于相关分析和特征归约。(5)除以上几种常用算法之外，我们还经常用到人工神经网络和遗传算法等算法，其中，人工神经网络的知识将在本章第-d,节进行介绍。在各种数据挖掘技术中，人工神经网络是最常用的方法之一。本小节主要对在现实生活中，生物的神经系统非常复杂，构成神经系统的基本单元是生物神经元。生物神经元主要由三部分构成：树突、轴突和细胞体。图2．3所示的是一种模型‘1图2．3：人工神经元模型权值，能够得出各个神经元之间的连接强度：若权值为正，则表示激活；若权值为负，则表示抑制。(2)求和单元∑：各个输入信号的加权和可以通过求和单元来求得。(3)激活函数≯(·)：激活函数能够将人工神经元的输出幅度限制在(O，1)或者(一1，1)等一定的范围内，起着非线性映射的作用。一般使用分段式函数、阶跃函数、Sigmoid型函数等。安徽火学硕一l：学位论文基于神经网络的数据挖掘分类算法比较和分析研究Fi92．3：Artificialmodel1091。激励函数阈值neuronzfk=∑W幻x』2．2．2人工神经网络的模型(4)阈值纯：即偏值瓯，瓯=一吼。可以将阈值或者偏值当做输入，将输是：根据网络连接的拓扑结构类型以及根据网络内部的信息流向类型两种【2l】：入的维数增加一维[201。通过数学公式可以把上面的关系表示出来，即：Ut一吼Yk=矽(K)人工神经网络的模型按照不同的方法可以有很多种不同的分类。其中常见的(一)网络拓扑结构类型神经元之间不同的连接方式，导致网络的拓朴结构不同。因此，根据神经元之间连接方式的不同，可以将人工神经网络结构分成两类：层次型结构和互连型结构。本文着重引入的极限学习机(ELM)是在单隐含层前馈型神经网络中的应用，因此，在此主要介绍层次性结构类型：层次型结构的人工神经网络可以将神经元按功能划分成若干个不同的层次，例如输入层、中间层(也称为隐含层)和输出层。各个层次按顺序相连接，如图2．4所示。输入层中有多个神经元，主要作用是接收输入信息，在接受到信息之后把其传递给后一层，即隐含层的神经元；隐含层负责信息变换，是人工神经网络处理内部信息层，它可以根据信息变换能力的需要而被设计为一层或多层；最后，通过经进一步处理隐含层传递到输出层各神经元的信息后，完成一次信息处理，并由输出层向外界输出信息处理的最终结果。安徽火学硕：I：学位论文第二章数据挖掘与人工神经网络vk=netk(2．1)j=l5p(二)网络信息流向类型根据人工神经网络内部信息传递方向的不同，可以将其分成两种【22】：前馈型网络的结构特点与层次型神经网络完全相同，因为网络中信息处理的流向是从输入层到隐含层、再从隐含层到达输出层，所以称其为前馈。从信息处理的能力来看，网络中的节点可以分为输入节点和具有处理能力的节点。前馈型反馈型网络是因其信息有反向流动而称其为反馈。反馈型神经网络中所有节点都能够对信息进行处理，而且每个节点都可以与外界有输入、输出。典型的反network图2．4：层次型网络结构示意图1．前馈型神经网络神经网络中某一层的输出也就是下一层的输入，因此，信息处理逐层传递，具有方向性，通常情况下不存在反馈环路【231。2．反馈型神经网络馈型网络如图2．5所示。图2．5：反馈型神经网络示意图diagram安徽人学硕?l：学位论文暴于神经网络的数据挖掘分类算法比较和分析研究Fi92．4：AhierarchicalFi92．5：Feedbacktypeneuralstructure12__丽l警再≯!一⋯一强一’一—⋯．～实际响应／一＼。2．2．3人工神经网络的学习方式．．学习系统一一～'(∑：一一diagram一⋯自身的结构与参数，目的是表示出环境输入的某些固有特性。无导师学习方式又通过向环境学习，获取到知识，并且在获取知识之后，还能对原网络的性能有所改进，这是人工神经网络的一个重要特点。人工神经网络的学习方式主要有以下两种：有导师学习和无导师学习【24】：(1)有导师学习(又称有监督学习)：针对一组给定的输入，有导师的学习方式可以为其给出对应的输出结果，而且这个结果也就是正确答案。实际的输出与已知的输出之间存在着一定的差值，有导师学习系统能够根据这个差值调整系统的参数。如图2．6所示，当网络收到环境提供的输入时，比较网络的目标输出与网络的实际输出；然后需要调整网络的阈值和权值，这一步根据网络的学习规则来进行，目的是使得实际的输出与网络的目标输出更为接近。图2．6：有导师学习框图(2)无导师学习(又称无监督学习)：该种学习方式没有导师的指导，如图2．7所示，首先寻找环境所提供数据的某些规律，之后完全按照这些规律来调节可以把输入模式分为几种有限的类型，对于聚类、向量量化等问题极为合适【21。一．～图2．7：无导师学习框图Fi92．7：Withoutlearning环境状态环境一学习系统!安徽火学硕：学位论文第二章数据挖掘与人T神经网络有响应1⋯⋯误差信号二、一／Fi92．6：Havementorblockoftheinstructor⋯113a卜}节。≯数据源—二>(样iJ小,l簪集)二{---}>(2．2．4数据挖掘中几种常用的人工神经网络模型2．2．5基于人工神经网络的数据挖掘过程及优缺点三三1神经网络。BP神经网络模型根据最小均方差的误差原则进行计算，可以是单层、也可以是多层映射神经网络。它是最具代表性的前馈型神经网络类型之一。BP神经网络的学习算法采用的是误差反向传播(Back-Propagation)学习算法。该种神经网络的优点是：学习训练算法成熟、结构简单、易于硬件实现并且工作状态稳RBF)神经网络。RBF神经网络模仿人类大脑皮层区域中局部调节和交叠的感受场反应特点，因此具有很强的生物学背景【251。RBF神经网络是单隐含层的二层前馈型神经网络，网络的输出是对隐含层加权求和的结果。RBF神经网络在所选择的激活函数，以及权值矩阵是否存在于隐含层到输出层的连接上两方面，与之前提到的BP神经网络相比有所不同。(3)Hybrid神经网络：Hybrid神经网络即混合型(HybridNeuralNetworks，Hybrid)神经网络。顾名思义，是一种融合了多种方法在一起的人工神经网络模型。研究发现，在拓扑结构方面，Hybrid神经网络模型与传统的人工神经网络模型之间有所区别，主要区别在于：构造过程不同，学习机制不同。Hybrid神经网络的种类较多，常见的有两种：进化神经网络口6。27](EvolutionaryNeural和模糊神经网络(FuzzyNetworks)。(1)BP神经网络：误差反向传播神经网络又称BP(Back定等。(2)RBF神经网络：RBF神经网络即径向基函数(Radial图2．8所示的是基于人工神经网络方法的数据挖掘过程，该过程主要包括三个阶段：数据选择与预处理、网络训练与剪枝、规则提取与评估【281。图2．8：基于人工神经网络的数据挖掘过程Propagation，BP)Networks)的规则与=≥安徽人学硕一I：学位论文綦于神经网络的数据挖掘分类算法比较和分析研究BasisFunction，NeuralL一／／一JFi92．8：Basedartificialneuralnetworkdataminingprocess<二～～‘|～～．_＼／{!(易于理解．模式：数据选择与颓处理网络洲练‘j剪枝规贝U提取与评估14，／7、＼jon。、2．3本章小结概括的能力，在噪声容错方面也具有很好的性能。我们所研究的基于人工神经网络的数据挖掘模型能够依据环境的输入自动调节网络参数，自适应性能良好，因此，能够很好的适应变化的数据环境。与此同时，此类数据挖掘模型在准确性方面，也很容易满足用户的需求【291。因此，人工神经网络非常适合应用于数据挖掘领域中。但是，传统人工神经网络方法存在着一些不足，例如，模式难以理解、训练时间长、对数据形式比较敏感等。因此，我们需要更加新型的人工神经网络算法来进行数据挖掘的工作【301。本章前一部分主要介绍数据挖掘理论，后一部分主要介绍人工神经网络的基本理论，以及基于人工神经网络的数据挖掘过程和相关概念。本章属于理论基础部分，是本文的基础，通过对本章的理解，为之后的研究做好了准备。人工神经网络是一门实用的科学技术，它是一种白适应性非线性动态系统，由大量神经元联接构成，结构复杂；它具有联想记忆、并行处理、自适应和抽象安徽人学硕上学位论文第二章数据挖掘与人工神经网络l5第三章极限学习机的理论基础BP神经网络3．1引言BP神经网络的网络结构本章主要介绍了极限学习机的网络结构和极限学习机的算法，为了对极限学习机在分类问题中应用结果的比较，也对BP神经网络和支持向量机的理论辅以3．2Propagation，BP)神经网络是最常见的人工神经网络模型，它因为训练算法按误差反向传播而得名，是一种多层的前馈型神经网络，应用广泛。下面将对BP神经网络的网络结构和算法进行简要描述。BP神经网络的主要特点是信号向前传递，误差反向传播。输入信号经过输中每一层神经元的状态只能影响到下一层神经元的状态。在输出结果的过程中，够根据预测误差反过来对网络的权值和阈值进行调整，从而使得BP神经网络的预测输出不断逼近期望输出。图3．1所示的是BP神经网络的拓扑结构图。介绍。3．2．1入层，到达隐含层，然后经隐含层传递到输出层逐层处理。需要注意的是，网络假如输出层的结果达不到我们的期望值，则网络进入反向传播阶段，并且网络能图3．1：BP神经网络的拓扑结构图BP(Back安徽人学硕一I：学位论文幕于神经网络的数据挖掘分类算法比较和分析研究输入层输H；层Fi93．1：TheBPneuralnetworktopology隐含层structure16m)=专BP神经网络的算法描述q=厂(∑％一-aj)q=∑q％-bk如图3-1所示，X．，X2，人，以是BP神经网络的输入值，％和％为BP神经与输出层的连接权值％，以及输出层阈值6，可以得出BP神经网络预测输出网络权值，X，K，人，‘是BP神经网络的预测值。BP神经网络表示的是一种函数映射关系，其中自变量为刀个，因变量为m个【311。3．2．2BP神经网络算法的具体步骤，有以下／L个：(1)初始化网络：神经网络的输入输出组成了一个序列，表示为(x，J，)，根据此序列，我们能够确定出网络的输入层、隐含层和输出层节点个数，分别为r1个节点、，个节点、m个节点。然后，初始化连接权值和阈值，设输入层、隐含层神经元之间的连接权值为％，隐含层和输出层神经元之间的连接权值为国雎，隐含层和输出层的阈值分别为cl和b。最后，给出神经网络的神经元激励函数f(x)以及学习速率77。(2)计算隐含层的输出：根据网络的输入变量x，输入层与隐含层之间的连接权值哆，以及隐含层的阈值a，可以得出隐含层的输出H：j=l，2，人，，上式中，厂为隐含层的激励函数；，为隐含层的节点个数。激励函数的表达形式有多种，本章所选用的为：(3)计算输出层的输出：根据步骤二计算出隐含层的输出H，联系隐含层(4)计算误差：根据网络的期望输出y以及步骤三得出的网络预测输出D，我们能够计算网络的预测误差e：安徽大学硕lj学位论文第三章极限学习机的理论基础(3—1)(3-2)032：后=1，2，人，m(3—3)17，％=％+碱(卜q)x(f)∑(Ojkek3．3支持向量机nj=aj+qHjQ—H●∑∞jpkSVM网络结构(5)更新权值：根据神经网络的预测误差P对网络的连接权值％和％进行吆2％+z]Hjek玩=瓯+ek更新：e女=K—oki=1，2，人，n；j=l，2，人，，J=1,2，人，，；七=1,2，人，m其中，刁为神经网络的学习速率。(6)更新阈值：根据网络的预测误差e再对网络隐含层和输出层的阈值a、b进行更新：j=l，2，入，l(7)判断是否满足算法迭代结束条件，若不满足，则返回步骤2【331。3．3．1上一节介绍的BP神经网络擅于解决模式分类问题和非线性映射的问题。由Vapnik首先提出的支持向量机(SupportMachine，SVM)是一种通用前馈型神经网络，它也可以被用于模式分类和非线性回归等任务。从线性可分模式分类的角度来看，SVM的算法思想是要建立一个最优分类超平面(OptimalHyperplane)，并使得该平面两侧距离平面最近的两类样本之间的距离最大化。与BP神经网络基于某种生物学原理不同，SVM的理论基础是统计学习理论【”1。支持向量机具有很多优点，比如：鲁棒性、通用性、计算简单、有效性、理论完善。构造支持向量机学习算法的关键是：在“支持向量”x(i)与输入空问抽取的向量X之间的内积核这一概念【3支持向量机的体系结构如图3．2所示：安徽大学硕。I：学位论文基于神经网络的数据挖掘分类算法比较和分析研究k=1,2，人，m(3-4)(3—5)k=1,2，A，m(3．6)Vector18七=lk=l5|。哑n去善蔷J，j乃呸qK(靠_)一蔷哆SWl网络算法描述∑只口j=0，00；图3。2：支持向量机的体系结构图中，K为核函数，核函数的种类主要有：(1)线性核函数：K(x，‘)=xTxi；(2)径向基核函数：K(x，x．)=exp(一7I|x—t(3)多项式核函数：K(x，薯)=(弦7一+，-)p；(4)两层感知器核函数：K(x，薯)=ta】[111(弦71t+，．)。3．3．21．二分类支持向量机C．SVC模型是比较常见的二分类支持向量机模型，其具体形式如下：(1)设已知训练集：T={(五，咒)，A，(而，Y，))∈(X×】厂)。其中，薯∈X=R”，只∈Y={l，一1)(f=1,2，人，，)；■为特征向量。(2)选择适当的核函数K(x，x’)和适当的参数C，构造并求解最优化问题：得到最优解：仅+=(al+，A，仅，+)r。安徽人学硕：h学位论文第三章极限学习机的理论挂础Fi93．2：Thesystemofsupportmachine(3—7)(3—8)structurevectors．t．19输入X1|ltb+=J，J-ZMq+K(xf—xj)厂(x)=s烈∑q+y，K(x，墨)+6‘)(3)选取a+的一个正分量0

                    本文档为【基于神经网络的数据挖掘分类算法比较和分析研究】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于神经网络的数据挖掘分类算法比较和分析研究

你可能还喜欢