第5章数据开采技术

第5章数据开采技术第5章数据开采技术数据库中知识发现（knowledgediscoveryindatabase,KDD）一词首先出现在1989年8月在美国底特律召开的第11届国际人工智能会议（The11thInternationalJointConferenceonAI）。1999年，亚太地区在北京召开了第三届PAKDD会议，收到158篇论文，电子工程师学会（InstituteofElectricalandElectronicEngineers,IEEE)的《KnowledgeandDataEngineering》会刊率先在199...

第5章数据开采技术数据库中知识发现（knowledgediscoveryindatabase,KDD）一词首先出现在1989年8月在美国底特律召开的第11届国际人工智能会议（The11thInternationalJointConferenceonAI）。1999年，亚太地区在北京召开了第三届PAKDD会议，收到158篇论文，电子工程师学会（InstituteofElectricalandElectronicEngineers,IEEE)的《KnowledgeandDataEngineering》会刊率先在1993年出版了KDD技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题讨论，甚至到了脍炙人口的程度。到目前为止，由美国人工智能协会主办的KDD国际研讨会已召开了多次，规模由原来的专题讨论会发展到国际学术大会；研究重点逐渐从发现方法的研究转向实际的系统应用，注重发现多种策略和技术的集成，以及多种学科之间的渗透。国内：数据开采（datamining),又译作数据挖掘、数据采掘，还有的译成数据发掘。一种比较公认的数据开采定义是W.J.Frawley、G.Piatetsky、Shapiro等人提出的：数据开采就是从大型数据库的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的潜在有用信息，提取的知识表示为概念(concepts)、规则(rules)、规律(regularities)、模式（patterns）等形式。这种定义把数据开采的对象定义为数据库。而更广义的说法是，数据开采意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。数据开采的对象不仅是数据库，也可以是文件系统，或其他任何组织在一起的数据集合，例如WWW信息资源。与知识发现的区别：数据开采的任务是发现可以理解的知识，而机器学习关心的是提高系统的性能，因此训练神经网络来控制一根倒立棒是一种机器学习过程，但不是数据开采；数据开采的对象是大型的数据库，一般来说机器学习处理的数据集要小得多，因此效率问题对数据开采是至关重要的。数据开采处于影响空间中，从中可以看出数据开采在整个决策支持中所处的重要地位。决策支持空间数据开采的过程根据发现知识的种类根据采用的技术分类人工神经网络决策树遗传算法最近邻技术可视化规则归纳数据开采的分类最后均走上数据开采的道路DMKD的研究主的3个技术支柱数据库人工智能数理统计查询是数据库的奴隶，发现才是数据库的主人知识获取、知识表示、基本常识成为三大难题进入DMKD行业数据仓库作为一种新型的数据存储地，为数据开采提供了新的支持平台。可以预见，数据仓库以其内在的对决策的支持能力，将会成为数据开采的主战场。数据仓库的发展不仅仅是为了数据开采开辟了新的空间，更对数据开采技术提出了新的要求。数据仓库环境下的数据开采2数据仓库环境中的数据开采的新特点：数据开采方法定义：聚类是把一组个体相似性归成若干类别，即“物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能小，而不同类别上的个体间的距离尽可能的大。方法：统计方法、机器学习方法、神经网络方法和面向数据库的方法一个6结点的前馈神经网络神经网络一个输入结点的运算神经网络方法的优点和缺点：神经网络因为不能解释发现的关系，常被看做黑箱。它只能输入数字数据，这就意味着非数字数据需要转换。另外，输入还需要归一为0至1之间。神经网络通过很好的训练能快速预测新的案例，训练阶段是非常精密的，需要选择合适的数字和控制过度匹配。神经网络的一个缺点是它永远不是非常精确，即使永远训练。关联规则挖掘算法可以分解为两个子问题。（1)找到所有支持度大于最小支持度的项集（itemset），这些项集称为频集（frequentitemset）。 (2)使用第1步找到的频集产生期望的关联规则定义：所谓决策树就是一个类似流程图的树状结构，其中树的每个内部结点代表对一个属性（取值）的测试，其分支就代表测试的每个结果；而树的每个叶结点就代表一个类型。树的最高层结点就是根结点基本决策树算法就是一个贪心算法。它采用自上而下、分而制之的递归方式来构造一个决策树。决策树所表示的分类知识可以被抽取出来并可用if…then分类规则形式加以表示。从决策树的根结点到任一个叶结点所形成的一条路径就构成了一条分类规则。沿着决策树的一条路径所形成的属性——值偶对就构成了分类规则条件部分（if部分）中的一个合取项；叶结点所标记的类别就构成了规则的结论内容（then部分）。if…then分类规则表达方式易于被人理解，且决策树较大时，if…then规则表示形式的优势就更加突出。定义：数据库中的数据和对象经常包含原始概念层上的详细信息,将一个数据集合归纳成高概念层次信息的数据开采技术被称为数据汇总(datageneralization)。两种方法：数有数据立方体和面向属性数据立方体(多维数据库)方法的主要思想是将那些经常查询、代价高昂的运算,如Count、Sun、Average、Max和Min等汇总函数具体化，并存储在一个多维数据库中,为决策支持、知识发现及其他应用服务。面向属性的抽取方法用一种类SQL数据开采查询语言表达查询要求，收集相关数据，并利用属性删除、概念层次树、门槛控制、数量传播及集合函数等技术进行数据汇总。汇总数据用汇总关系表示，可以将数据转化为不同类型的知识；或将其映射成不同的表,并从中抽取特征、判别式和分类等相关规则。属性city的概念层次树空间数据开采技术帮助人们从庞大的空间数据中抽取有用信息方法： 1.粗集(roughset)方法在数据库中将元素看成对象,将列元素看成属性(分为条件属性和决策属性)。等价关系R定义为不同对象在某个或几个属性上取值相同,满足等价关系的对象组成的集合被称为等价关系R的等价类。 2.遗传算法模拟生物进化过程的算法,由繁殖(选择)、交叉(重组)、变异(突变)3个基本算子组成。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。 3.公式发现在工程和科学数据库中,对若干数据项进行一定的数学运算,求得相应的数学公式。BACON发现系统完成了对物理学大量定律的重新发现。 4.统计分析方法在数据库字段项之间存在两种关系：函数关系和相关关系,对它们的分析可采用回归分析、相关分析、主成分分析等方法。 5.模糊集合方法利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。系统的复杂性越高,精确能力就越低,模糊性就越强，这是Zadeh总结出的互克性原理。 6.可视化技术拓宽了传统的图表功能,使用户对数据剖析更清楚。另外，还有归纳逻辑程序(inductivelogicprogramming)、Bayesian网络等方法。云的概念经常用图形表示，云的几何形状对理解定性和定量之间的转换很有帮助。云由相当多的云滴组成，云的整体反映一个定性概念（即语言值），对应的数值域作为自变量。 “年龄”的几个定性概念和数值间的转换发现状态空间是一个三维立体空间，是发现系统实施多种发现算法的运作空间。在一个二维的平面基底——知识基上逐步抽象。知识基是原始数据库经数据汇集处理后得到的二维表。它汇集了原始数据库中发现任务相关的所有数据的总体特征，是知识发现状态空间的基底，也可以认为是最初始的知识模板。在发现状态空间内进行的多种知识汇集操作分成3个方向：面向属性的操作、面向宏元组的操作和面向整个模板的操作。 ①在OA方向（attributeoriented）的操作是面向属性的操作，是对属性之间关系的认识和发现活动。 ②在OM方向（macrotuplesoriented）的操作是面向宏元组的操作，是微观到宏观发现知识的过程；是一块知识模板上升到抽象级别更高的另一块模板；是以归纳为核心的知识发现活动。 ③在OT方向（orientedtemplate）上的操作，反映了知识模板由微观向宏观的跃升，主要操作有概念树的生成和调节、跳跃步长的确定、规则置信度阈值的调节、域间抽象层次适配性检查、概念提升、发现知识的验证和评价６种。将基于云模型的泛化方法与Apriori算法结合起来，从空间数据库中发掘关联规则，实验显示了其有效性、高效性和灵活性。用著名的Apriori算法作为发掘关联规则的基本算法，并把它与基于云模型的属性普遍化方法结合起来，在任意概念层次上发现关联规则。例：关联规则的可视化（如图）（关于人均年收入的关联规则）结果表明了在发掘关联规则的预处理中语言云模型的有效性。基于云模型的普遍化方法能较好地模拟人类的思维，使得发掘出的知识具有稳健性。数据仓库的基本特征：数据仓库是面向主题的数据仓库是集成的数据仓库是稳定的数据仓库是随时间而变的数据仓库作为决策支持系统的一种有效可行的体系化解决方案，包括数据仓库技术(datawarehouse,DW)、联机分析技术(onlineanalyticalprocessing，OLAP)数据开采技术(datamining,DM)模式发现在数据仓库的全体数据记录上，建立带分类的样本集U建立模数相似关系预测求各模式平均指标预测数据开采与DBMS和联机分析处理的区别与联系数据开采的两个层次： 1、在较浅的层次上利用现有数据库管理系统的查询／检索、报表功能与多维分析、统计分析方法相结合，进行所谓联机分析处理（onlineanalyticalprocessing,OLAP），从而得出可供决策参考的统计分析数据。2、在较深层次上，若是要求从数据库或大量数据记录中发现潜在的规律性，或隐含的模式等前所不知而最终可以理解并加以利用的知识。ＯＬAＰ在数据开采这一新概念产生之前及发展初期，不属于数据开采的范畴。但是，就决策支持的需要而言，二者可起到相辅相成的作用。广义地理解，也可以把ＯＬAＰ视为数据开采的一种方法。尽管如此，二者解答的问题还是有所不同5个步骤：（1）选择和准备待开采的数据。（2）对待开采数据进行预处理，主要是通过净化（排除干扰）、减缩、转换、群聚、分类等手段降低数据的复杂性，并且重新加以组织，即组成“专业化”的、可操作的数据仓库（datawarehouse）。（3）研究开发一种或多种数据开采工具，例如，IBM的IDM和SGI的MineSet等。（4）用数据开采工具来发现未知的知识。（5）运用所发现的知识于决策支持，达到事业和企业单位的特定目标。数据开采的方法和实施过程数据开采的基本过程计算智能1、神经计算2、演化计算3、模糊计算或模糊推理CI特点：它不需要建立问题本身的精确（数字或逻辑）模型，也不依赖于知识表示，而是直接对输入数据进行处理得出结果根据所采用的技术(1)基于规则和决策树的工具。(2)基于神经元网络的工具(3)数据可视化方法(4)模糊发现方法5)统计方法(6)综合多方法1.处理不同类型数据 2.数据快照和时间戳方法 3.数据开采算法的有效性和可测性 4.交互性用户界面 5.在多抽象层上交互式开采知识 6.从不同数据源开采信息 7.私有性和安全性 8.和其他系统的集成 9.因特网上的知识发现数据开采的发展方向 SAS支持各层次用户（1)业务水平和数学水平可能比较一般的人（2）业务水平较高但数学水平一般，且没有时间和兴趣再钻研数学方法的人（3）有计算机和数学知识，但对业务的熟悉程度一般的人员（4）有很深计算机知识和数学造诣的数据分析专家，不仅要提供上述环境，而且还要提供实现各种算法的工具和开发平台。SAS研究所不仅有丰富的工具供用户选用，而且在多年的数据处理研究工作中积累了一套行之有效的数据开采方法论——SEMMAsample——数据取样explore——数据特征探索、分析和预处理modify——问题明确化、数据调整和技术选择model——模型的研究和知识的发现assess——模型和知识的综合解释和评价

                    本文档为【第5章 数据开采技术】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

第5章 数据开采技术

你可能还喜欢

第5章数据开采技术