首页 4、数据挖掘原语、语言和系统结构

4、数据挖掘原语、语言和系统结构

举报
开通vip

4、数据挖掘原语、语言和系统结构数据挖掘原语、语言和系统结构**为什么要数据挖掘原语和语言? 一个完全自动(不需要人为干预或指导)的数据挖掘机器只可能是“一只疯了的怪兽”。 会产生大量模式(重新把知识淹没) 会涵盖所有数据,使得挖掘效率低下 大部分有价值的模式集可能被忽略 挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用性——令人不感兴趣。 没有精确的指令和规则,数据挖掘系统就没法使用。 用数据挖掘原语和语言来指导数据挖掘。有些人以为只要把数据挖掘系统丢到数据的海洋中,它就可以自动的挖掘出有价值的...

4、数据挖掘原语、语言和系统结构
数据挖掘原语、语言和系统结构**为什么要数据挖掘原语和语言? 一个完全自动(不需要人为干预或指导)的数据挖掘机器只可能是“一只疯了的怪兽”。 会产生大量模式(重新把知识淹没) 会涵盖所有数据,使得挖掘效率低下 大部分有价值的模式集可能被忽略 挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用性——令人不感兴趣。 没有精确的指令和规则,数据挖掘系统就没法使用。 用数据挖掘原语和语言来指导数据挖掘。有些人以为只要把数据挖掘系统丢到数据的海洋中,它就可以自动的挖掘出有价值的知识。这个设想是美好的,但是实际上却是行不通的。让我们来设想一下一个完全自动,不需要人为干预或指导的数据挖掘系统会干什么:首先,这个系统会由于没有人工干预,会像一匹托缰的野马一样,驰骋在数据的海洋里,通过大量的计算,消耗大量的资源之后,返回了大量的模式。说不定这些模式中,有些是令人感兴趣的,但是我们却没法使用,因为他们给淹没在那些令人不感兴趣的模式中了。其次,这个系统可能会从所有跟任务有关的或无关的数据中挖掘,使得挖掘效率低下。第三,这个系统可能会忽略大部分有价值的模式集,从而使挖掘结果不完善。最后,挖掘出来的模式你可能不认识,因为机器完全可能将一系列语义上无关的东西组合在一起,然后丢给你…所以,就从目前而言,可以看到机器是没法完全代替人的;数据挖掘系统的成功离不开人工的指导和干预。数据挖掘原语和语言的目的就是用来指导数据挖掘过程。**数据挖掘原语的组成部分 数据挖掘原语应该包括以下部分: 说明数据库的部分或用户感兴趣的数据集 要挖掘的知识类型 用于指导挖掘的背景知识 模式评估、兴趣度量 如何显示发现的知识 数据挖掘原语用于用户和数据挖掘系统通信,让用户能从不同的角度和深度审查和发现结果,并指导挖掘过程。那么,大家觉得这套数据挖掘原语,也就是人用来和数据挖掘系统“交谈”的语言,应该能够向它交代哪些事情?首先我们要告诉数据挖掘系统,它只是应该对哪部分数据进行挖掘,而不要去遍历怎个海量数据…其次,要告诉数据挖掘系统,你要挖掘些什么类型的知识,告诉它哪些模式是你感兴趣的…第三,数据挖掘的结果是令人感兴趣的模式,这些模式总是和专业知识、背景知识相关的…第四,只有让数据挖掘系统返回你最感兴趣的哪部分知识,你才不会淹没在模式的海洋中…最后,挖掘的结果是给人看的,而不是给机器看的…**说明数据挖掘任务的原语 任务相关的数据 数据库(仓库)名、数据立方体、选择条件、相关属性、分组条件 挖掘的知识类型 特征化、区分、关联、分类/预测、聚类 背景知识 概念分层,关联的确信度 模式兴趣度度量 简单性、确定性、实用性、新颖性 发现模式的可视化 规则、表、图表、图、判定树…对数据挖掘原语有了初步了解后,我们来看看一个说明数据挖掘任务的原语,具体都应该包括哪些东西。**任务相关的数据 用户感兴趣的只是数据库或数据仓库的一个子集。 相关的操作:DB-选择、投影、连接、聚集等;DW-切片、切块 初始数据关系 数据子集选择过程产生的新的数据关系 可挖掘的视图 用于数据挖掘相关任务的数据集跟任务相关的数据,或者说是用户感兴趣的数据,通常都只是我们要挖掘的数据库或数据仓库的一个子集。那么怎么获得这个子集呢?如果你是从数据库中进行挖掘,那么一系列的关系操作都可以获得这个子集,包括选择、投影、连接、聚集等;如果是从一个数据仓库中进行挖掘,那么获得子集的方法包括切片和切块,请大家将书翻到第40页回顾一下这两个操作。数据子集的提取过程可能还会涉及数据的清理和转换操作,因此将产生一个新的数据关系…这个初始数据关系可能不是直接对应于原数据库中的物理表,因此也叫做可挖掘的视图,指的是…**任务相关的数据——例子 挖掘加拿大顾客和他们常在AllElectronics购买的商品间的关联规则 数据库(仓库)名(e.g.AllElectronics_db) 包含相关数据的表或数据立方体名(e.g.item,customer,purchases,item_sold) 选择相关数据的条件(今年、加拿大) 相关的属性或维(item表的name和price,customer表的income和age)现在我们来看一个具体的任务相关数据的例子。这个例子研究加拿大顾客和他们常在AllElectronics购买的商品间的关联规则,请大家在看幻灯片前先思考一下这样的任务都会涉及些什么样的数据?把前面说的和任务相关的数据套到这里来,我们可以得到以下结果:…选择相关数据的条件(今年、加拿大),如果用一个SQL查询表达就是……**要挖掘的知识类型 要挖掘的知识类型将决定使用什么数据挖掘功能。 概念描述(特征化和区分),关联规则,分类/预测,聚类和演化分析等 模式模板 又称元模式或元规则,用来指定所发现模式所必须匹配的条件,用于指导挖掘过程。要挖掘的知识类型将决定使用什么数据挖掘功能…除了指定要挖掘的知识类型外,用户可能还想进一步更具体的说明发现的模式所必须匹配的模式模板…下面我们看个模式模板的具体例子**关联规则元模式——例子 研究AllElectronics的顾客购买习惯,使用如下关联规则: P(X:customer,W)∧Q(X,Y)=>buys(X,Z) X---customer表的关键字 P,Q---谓词变量 W,Y,Z---对象变量 模板具体化 age(X,“30…39”)∧income(X,“40k…49k”)=>buys(X,“VCR”) [2.2%,60%] occupation(x,“student”)∧age(X,“20…29”)=>buys(X,“computer”) [1.4%,70%]该例研究AllElectronics的顾客购买习惯,首先给出关联规则元模式的形式化表示。**背景知识:概念分层 背景知识是关于挖掘领域的知识 概念分层是背景知识的一种,它允许在多个抽象层上发现知识。 概念分层以树形结构的节点集来表示,其中每个节点本身代表一个概念,根节点称为all,而叶节点则对应于维的原始数据值。 概念分层中,自顶向底进行层的标识,即all为0层,向下依次为1,2,3等层背景知识是关于挖掘领域的知识,概念分层是背景知识的一种,它允许在多个抽象层上发现知识。关于概念分层我们刚才详细讨论过,现在我们就刚才那个例子,从一个不同的角度去看,可以发现在street<city<province<country这个分层中,不同的级别蕴涵不同的知识……请翻到树上的100页,看图4-3对上面这个概念分层例子的树形结构表示…中间的每一个节点都代表着不同概念层上的汇总…除了属性结构表示,概念分层也可以以格或者偏序的形式来表示。**概念分层——上卷和下钻 在概念分层中应用上卷操作(概化),使得用户可以使用较高层次概念替代较低层次概念 可以在更有意义,更高、更抽象的层次观察数据,从而使发现的模式更加容易理解。 上卷操作使得数据得到压缩,在这个压缩的数据集上进行挖掘可以减少I/O操作,使得挖掘的效率提高。 概念分层的下钻操作使用较低层概念代替较高层概念,从而使用户能够对过于一般化的数据做更详细分析。 上卷和下钻操作让用户以不同视图观察数据,洞察隐藏的数据联系。 概念分层的自动生成。 在同一个维上,可能根据用户的观点不同,存在多个概念分层。请大家将书翻回到40页,图2-10,对上卷和下钻操作作一个回顾…数据量的减少,使得我们不会迷失在数据的海洋中…结合例子讲下钻操作…自动生成:用户或专家在模式级显式的说明,通过显示数据分组说明分层结构的一部分,根据算法自动产生,或根据对属性的捆绑信息…另外,对给定属性,根据用户的不同观点,可能会有多个分层结构…**概念分层的类型 四种常用的概念分层类型 模式分层 E.g.,street<city<province<country 集合分组分层 E.g.,{20-39}=young,{40-59}=middle_aged 操作导出的分层 Email:abc@cs.zju.edu.cn 基于规则的分层 low_profit_margin(X)<=price(X,P1)andcost(X,P2)and(P1-P2)<$50 high_profit_margin(X)<=price(X,P1)andcost(X,P2)and(P1-P2)>$250概念分层有四种类型,其中模式分层和集合分组分层我们前面已经讲过…操作到处的分层是根据用户、专家或数据挖掘系统说明的操作分层。可能会包括一些信息的解码操作,比如:…基于规则的分层是指用形式化的规则定义整个或部分概念分层…**兴趣度度量 没有兴趣度度量,挖掘出来的有用模式,很可能会给淹没在用户不感兴趣的模式中。 兴趣度的客观度量方法:根据模式的结构和统计,用一个临界值来判断某个模式是不是用户感兴趣的。 常用的四种兴趣度的客观度量: 简单性 确定性 实用性 新颖性尽管前面说的任务相关的数据和背景知识的使用,可以挖掘的工作量和产生的模式的数量,但是如果你不对结果模式的兴趣度做出限定,数据挖掘系统就会将你感兴趣和不感兴趣的模式统统挖掘出来…那么给定这四个度量指标,兴趣度怎么判断呢?你可能想到人工判断一个模式是否简单/实用…**简单性和确定性 简单性(simplicity) 模式是否容易被人所理解 模式结构的函数(模式的长度、属性的个数、操作符个数)。e.g.规则长度或者判定树的节点个数。 确定性(certainty) 表示一个模式在多少概率下是有效的。 置信度(A=>B)=(包含A和B的元组值)/(包含A的元组值),e.g.buys(X,“computer)=>buys(X,“software”) [30%,80%] 100%置信度:准确的。模式仅仅是一个基于历史数据的统计推导,确定性则是表示一个模式在多少概率下是有效的,其中确定性的一个衡量指标:置信度就是值由A推导出B的概率…置信度的另外一个例子是:Beckham点球罚进概率是85%,所示Beckham踢失点球就叫做“难以置信”**实用性和新颖性 实用性 可以用支持度来进行度量:支持度(A=>b)=(包含A和B的元组数)/(元组总数)e.g.buys(X,“computer)=>buys(X,“software”) [30%,80%] 同时满足最小置信度临界值和最小支持度临界值的关联规则称为强关联规则。 新颖性 提供新信息或提高给定模式集性能的模式 通过删除冗余模式来 检测 工程第三方检测合同工程防雷检测合同植筋拉拔检测方案传感器技术课后答案检测机构通用要求培训 新颖性(一个模式已经为另外一个模式所蕴涵) Location(X,“Canada”)=>buys(X,“Sony_TV”)[8%,70%] Location(X,“Vancouver”)=>buys(X,“Sony_TV”)[2%,70%]实用性衡量的是结果模式放映客观情况的程度…确定性(置信度)和实用性(支持度)并不是成正比的,比如在今天购物的一万条记录中,卖出收音机和电视机各一台,恰好它们是同一个人购买的,这个时候如果你说“买收音机的人会买电视机”,根据我们的挖掘数据,这个推论的确定性(置信度)是100%,但是其实用性(支持度)却只有0.01%,所以这个推论还是不正确。因此一个关联规则要同时满足最小置信度临界值和最小支持度临界值才是有用的、有趣的,这个时候我们称这个关联规则为:强关联规则。**发现模式的表示和可视化 以多种形式显示挖掘出来的模式:表、图、判定树、数据立方体等等,以适合不同背景的用户的需要。 使用概念分层,用更有意义,更容易理解的高层概念来替代低层概念;并通过上卷、下钻等操作从不同的抽象级审视所发现的模式。 特定知识类型的表示。特定知识类型的表示:某些形式可能比其他形式更加适合。用饼图描述概化规则,用判定树来描述分类规则。**一种数据挖掘查询语言DMQL DMQL的 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 目的 支持特别的和交互的数据查询,以便利于灵活和有效的知识发现 提供一种类似于SQL的 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 化查询语言 希望达到SQL在关系数据库中的地位 系统开发和演化的基础 方便的信息交互,广泛的技术支持,商业化,广为认可 设计挑战 数据挖掘任务涉及面宽 数据特征、关联规则、分类、演变分析…每种任务都有不同的需求**DMQL的语法 采用与SQL相类似的语法,便于与SQL的集成。 允许在多个抽象层上,由关系数据库和数据仓库进行多类型知识的特殊挖掘 DMQL的设计基于数据挖掘原语,相应的,其语法中应该包括对以下任务的指定: 说明数据库的部分或用户感兴趣的数据集 要挖掘的知识类型 用于指导挖掘的背景知识 模式评估、兴趣度量 如何显示发现的知识挖掘经常基于DB,因此便于与SQL的集成与转换很重要多个抽象层含义(concepthierarchy…)对DW提供支持**任务相关数据说明的语法 任务相关数据说明应包括的内容: 包含相关数据的数据库或数据仓库 相关的表名或数据立方体的名字 选择相关数据的条件 探察的相关属性或维 关于检索数据的排序和分组指令**任务相关数据说明子句 说明相关的数据库或数据仓库 usedatabase<db_name>或usedatawarehouse<dw_name> 指定涉及的表或数据立方体,定义检索条件 From<relation(s)/cube(s)>[where<condition>] 列出要探察的属性或维 Inrelevanceto<attributeordimension_list> 相关数据的排序 orderby<order_list> 相关数据的分组 groupby<grouping_list> 相关数据的分组条件: having<condition>**任务相关数据说明——示例 挖掘加拿大顾客与在AllElectronics经常购买的商品之间的关联规则usedatabaseAllElectronics_dbinrelevancetoI.name,I.price,C.income,C.agefromcustomerC,itemI,purchasesP,items_soldSwhereI.item_ID=S.item_IDandS.trans_ID=P.trans_IDandP.cust_ID=C.cust_IDandC.country=“Canada”groupbyP.date先说明这个挖掘任务都跟哪些数据有关,分别在哪些表中,哪些属性中,表间如何连接**指定挖掘知识类型 要挖掘的知识类型将决定所使用的数据挖掘功能。 几种主要的数据挖掘功能 特征化 目标数据的一般特征或特性汇总 数据区分 将目标对象的一般特性与一个或多个对比类对象的特性相比较 关联分析 发现关联规则,这些规则展示属性-值频繁的在给定数据中集中一起出现的条件 分类 找出区分数据类或概念的模型(或函数),以便用之标志未知的对象类。 聚类分析、孤立点分析、演变分析…回顾一下P14的1.4聚类、序列规则、数据演变等等挖掘将在以后的章节加以详细描述**指定挖掘知识类型——特征化 目标数据的一般特征或特性汇总 语法 Mine_Knowledge_Specification ::= minecharacteristics[aspattern_name] analyzemeasure(s) analyze子句指定聚集度量(count,sum,count%),通过这些度量对每个找到的数据特征进行计算 示例:顾客购买习惯的特征描述,对于每一特征,显示满足特征的任务相关元组的百分比 minecharacteristicsascustPurchasing analyzecount%**指定挖掘知识类型——数据区分 将目标对象的一般特性与一个或多个对比类对象的特性相比较 语法Mine_Knowledge_Specification ::= minecomparison[aspattern_name] fortarget_class wheretarget_condition  {versuscontrast_class_i wherecontrast_condition_i}  analyzemeasure(s) analyze子句指定聚集度量(count,sum,count%),将对每个描述进行计算或显示 示例:用户将客户区分为大顾客与小顾客,并显示满足每个区分的元组数Mine_Knowledge_Specification ::= minecomparisonaspurchaseGroups forbigSpenders whereavg(I.price)≧$100 versusbudgetSpenders whereavg(I.price)≦$100 analyzecount**指定挖掘知识类型——关联 发现关联规则,这些规则展示属性-值频繁的在给定数据中集中一起出现的条件 语法Mine_Knowledge_Specification ::= mineassociations[aspattern_name] matching子句后面往往可以跟元模式,用来指定用户有兴趣探察的数据束或假定 示例:使用元模式指导的挖掘来指定用于描述顾客购买习惯的关联规则挖掘Mine_Knowledge_Specification ::= mineassociationsasbuyingHabbits matchingP(X:customer,W)∧Q(X,Y)=>buys(X,Z)元模式:P100最上面的解释**指定挖掘知识类型——分类 找出区分数据类或概念的模型(或函数),以便用之标志未知的对象类 语法Mine_Knowledge_Specification ::= mineclassification[aspattern_name] analyzeclassifying_attribute_or_dimension analyze子句说明根据某个属性或维进行分类,通常每个分类属性的或维的值就代表一个分类 示例:挖掘客户的信用等级模式 mineclassificationasclassifyCustCreditRating analyzecredit_rating**概念分层说明的语法 每个属性或维可能有多个概念分层,已适应用户从不同角度看待问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 的需要;用户可以使用如下语句指定使用哪个概念分层:usehierarchy<hierarchy> forattribute_or_dimension> 示例1:定义模式分层location,location中包含一个概念分层的全序(street<city<province<country),相应的DMQL语法定义如下所示:Definehierarchylocation_hierarchyonlocationas[street,city,province,country]“基于操作导出的分层”(E-MAIL地址的例子)和模式分层相似,可以直接通过类似语法说明一个全序或者偏序。“基于规则的分层”(高利润、中利润、低利润):与集合分组分层相似**概念分层说明的语法——集合分组分层Level0Level1Level2definehierarchyage_hierarchyforageoncustomeraslevel1:{young,middle_aged,senior}<level0:alllevel2:{20…39}<level1:younglevel2:{40…59}<level1:middle_agedlevel2:{60…89}<level1:senior**兴趣度度量说明的语法 兴趣度的度量包括置信度、支持度、噪声和新颖度等度量,可以通过将模式的兴趣度度量与相应的临界值相比较决定一个模式是否为感兴趣的模式。with<interest_measure_name> threshold=threshold_value 示例:挖掘关联规则时限定找到的感兴趣模式必须满足最小支持度为5%,最小置信度为70%withsupportthreshold=5%withconfidencethreshold=70%**模式表示和可视化说明的语法 对挖掘出来的模式,可以使用多种形式进行表示,包括:规则、表、饼图、立方体、曲线等displayas<resultform> 为了方便用户在不同的角度或者不同的概念层观察发现的模式,用户可以使用上卷、下钻、添加或丢弃属性或维等操作Multilevel_Manipulation ::=rolluponattribute_or_dimension |drilldownonattribute_or_dimension |addattribute_or_dimension |dropattribute_or_dimension 例:假定描述是基于维location,age和income的挖掘。用户可以”rolluponlocation”,“dropage”,概化发现的模式。假定描述是基于维location,age和income的挖掘。用户可以”rolluponlocation”,“dropage”,概化发现的模式。**一个DMQL查询的完整示例 查询AllElectronics购买商品的价格不小于$100的,用AmEx信用卡结帐的加拿大顾客的购买习惯特征(年龄,商品类型和产地),以表的形式表示挖掘的模式usedatabaseAllElectronics_dbusehierarchylocation_hierarchyforB.addressminecharacteristicsascustomerPurchasinganalyzecount%inrelevancetoC.age,I.type,I.place_madefromcustomerC,itemI,purchasesP,items_soldS,works_atW,branchwhereI.item_ID=S.item_IDandS.trans_ID=P.trans_ID andP.cust_ID=C.cust_IDandP.method_paid=``AmEx'' andP.empl_ID=W.empl_IDandW.branch_ID=B.branch_IDandB.address=``Canada"andI.price>=100withnoisethreshold=0.05displayastable从DMQL的5要素看待这个示例,运行结果见书P111,表4-1**其他数据挖掘语言和数据挖掘原语的标准化 关联规则语言 规范 编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载 MSQL(Imielinski&Virmani’99) MineRule(MeoPsailaandCeri’96) QueryflocksbasedonDatalogsyntax(Tsuretal’98) 数据挖掘的OLEDB 基于OLEDB和OLEDBforOLAP技术 整合数据库,数据仓库和数据挖掘 CRISP-DM(CRoss-IndustryStandardProcessforDataMining) 提供了一个有效的数据挖掘平台和处理结构 强调使用数据挖掘技术解决商务问题的需要标准横行的年代,就像SQL出台前的RDBMS。这个发展历史是非常相似的。**数据挖掘系统的体系结构 一个好的系统体系结构,可以使数据挖掘系统在性能、可交互性、可使用性以及可扩展性等多个方面的都得到良好的保证。 当前大部分数据都是存储在数据库或者是数据仓库之中,在此基础上往往还构建了综合的信息处理和信息分析功能。 数据挖掘系统体系结构的核心问题:我们是否应当将数据挖掘系统与数据库/数据仓库系统集成(或耦合) 不耦合 松散耦合 半紧密耦合 紧密耦合**DM与DB/DW的耦合方式(1) 不耦合 DM系统不利用DB/DW系统的任何功能。 简单,但是没有利用数据库的功能意味着信息分析处理借助第三方工具,这使得系统的构建和集成变得很困难。 松散耦合 DM系统将使用DB/DW系统的某些功能。 简单的利用DB/DW提供的数据查询功能,没有使用DB/DW的后台优化,算法大部分是基于内存的,性能和可扩展性差**DM与DB/DW的耦合方式(2) 半紧密耦合 除了将DM系统连接到一个DB/DW系统之外,一些基本数据挖掘原语(通过分析频繁遇到的数据挖掘功能确定)可以在DB/DW系统中实现。 一些中间的挖掘结果可以在DB/DW上实现计算或有效的即时计算,性能会有较大提高。 紧密耦合 DM系统平滑的集成到DB/DW系统中。数据挖掘子系统被视为信息挖掘子系统的一部分,数据挖掘查询和功能根据DB或DW系统的挖掘查询分析、数据结构、索引模式和查询处理方法优化。 提供了一个统一的信息处理平台,功能、性能等方面都会达到一个高水平。有些人以为只要把数据挖掘系统丢到数据的海洋中,它就可以自动的挖掘出有价值的知识。这个设想是美好的,但是实际上却是行不通的。让我们来设想一下一个完全自动,不需要人为干预或指导的数据挖掘系统会干什么:首先,这个系统会由于没有人工干预,会像一匹托缰的野马一样,驰骋在数据的海洋里,通过大量的计算,消耗大量的资源之后,返回了大量的模式。说不定这些模式中,有些是令人感兴趣的,但是我们却没法使用,因为他们给淹没在那些令人不感兴趣的模式中了。其次,这个系统可能会从所有跟任务有关的或无关的数据中挖掘,使得挖掘效率低下。第三,这个系统可能会忽略大部分有价值的模式集,从而使挖掘结果不完善。最后,挖掘出来的模式你可能不认识,因为机器完全可能将一系列语义上无关的东西组合在一起,然后丢给你…所以,就从目前而言,可以看到机器是没法完全代替人的;数据挖掘系统的成功离不开人工的指导和干预。数据挖掘原语和语言的目的就是用来指导数据挖掘过程。那么,大家觉得这套数据挖掘原语,也就是人用来和数据挖掘系统“交谈”的语言,应该能够向它交代哪些事情?首先我们要告诉数据挖掘系统,它只是应该对哪部分数据进行挖掘,而不要去遍历怎个海量数据…其次,要告诉数据挖掘系统,你要挖掘些什么类型的知识,告诉它哪些模式是你感兴趣的…第三,数据挖掘的结果是令人感兴趣的模式,这些模式总是和专业知识、背景知识相关的…第四,只有让数据挖掘系统返回你最感兴趣的哪部分知识,你才不会淹没在模式的海洋中…最后,挖掘的结果是给人看的,而不是给机器看的…对数据挖掘原语有了初步了解后,我们来看看一个说明数据挖掘任务的原语,具体都应该包括哪些东西。跟任务相关的数据,或者说是用户感兴趣的数据,通常都只是我们要挖掘的数据库或数据仓库的一个子集。那么怎么获得这个子集呢?如果你是从数据库中进行挖掘,那么一系列的关系操作都可以获得这个子集,包括选择、投影、连接、聚集等;如果是从一个数据仓库中进行挖掘,那么获得子集的方法包括切片和切块,请大家将书翻到第40页回顾一下这两个操作。数据子集的提取过程可能还会涉及数据的清理和转换操作,因此将产生一个新的数据关系…这个初始数据关系可能不是直接对应于原数据库中的物理表,因此也叫做可挖掘的视图,指的是…现在我们来看一个具体的任务相关数据的例子。这个例子研究加拿大顾客和他们常在AllElectronics购买的商品间的关联规则,请大家在看幻灯片前先思考一下这样的任务都会涉及些什么样的数据?把前面说的和任务相关的数据套到这里来,我们可以得到以下结果:…选择相关数据的条件(今年、加拿大),如果用一个SQL查询表达就是……要挖掘的知识类型将决定使用什么数据挖掘功能…除了指定要挖掘的知识类型外,用户可能还想进一步更具体的说明发现的模式所必须匹配的模式模板…下面我们看个模式模板的具体例子该例研究AllElectronics的顾客购买习惯,首先给出关联规则元模式的形式化表示。背景知识是关于挖掘领域的知识,概念分层是背景知识的一种,它允许在多个抽象层上发现知识。关于概念分层我们刚才详细讨论过,现在我们就刚才那个例子,从一个不同的角度去看,可以发现在street<city<province<country这个分层中,不同的级别蕴涵不同的知识……请翻到树上的100页,看图4-3对上面这个概念分层例子的树形结构表示…中间的每一个节点都代表着不同概念层上的汇总…除了属性结构表示,概念分层也可以以格或者偏序的形式来表示。请大家将书翻回到40页,图2-10,对上卷和下钻操作作一个回顾…数据量的减少,使得我们不会迷失在数据的海洋中…结合例子讲下钻操作…自动生成:用户或专家在模式级显式的说明,通过显示数据分组说明分层结构的一部分,根据算法自动产生,或根据对属性的捆绑信息…另外,对给定属性,根据用户的不同观点,可能会有多个分层结构…概念分层有四种类型,其中模式分层和集合分组分层我们前面已经讲过…操作到处的分层是根据用户、专家或数据挖掘系统说明的操作分层。可能会包括一些信息的解码操作,比如:…基于规则的分层是指用形式化的规则定义整个或部分概念分层…尽管前面说的任务相关的数据和背景知识的使用,可以挖掘的工作量和产生的模式的数量,但是如果你不对结果模式的兴趣度做出限定,数据挖掘系统就会将你感兴趣和不感兴趣的模式统统挖掘出来…那么给定这四个度量指标,兴趣度怎么判断呢?你可能想到人工判断一个模式是否简单/实用…模式仅仅是一个基于历史数据的统计推导,确定性则是表示一个模式在多少概率下是有效的,其中确定性的一个衡量指标:置信度就是值由A推导出B的概率…置信度的另外一个例子是:Beckham点球罚进概率是85%,所示Beckham踢失点球就叫做“难以置信”实用性衡量的是结果模式放映客观情况的程度…确定性(置信度)和实用性(支持度)并不是成正比的,比如在今天购物的一万条记录中,卖出收音机和电视机各一台,恰好它们是同一个人购买的,这个时候如果你说“买收音机的人会买电视机”,根据我们的挖掘数据,这个推论的确定性(置信度)是100%,但是其实用性(支持度)却只有0.01%,所以这个推论还是不正确。因此一个关联规则要同时满足最小置信度临界值和最小支持度临界值才是有用的、有趣的,这个时候我们称这个关联规则为:强关联规则。特定知识类型的表示:某些形式可能比其他形式更加适合。用饼图描述概化规则,用判定树来描述分类规则。挖掘经常基于DB,因此便于与SQL的集成与转换很重要多个抽象层含义(concepthierarchy…)对DW提供支持先说明这个挖掘任务都跟哪些数据有关,分别在哪些表中,哪些属性中,表间如何连接回顾一下P14的1.4聚类、序列规则、数据演变等等挖掘将在以后的章节加以详细描述元模式:P100最上面的解释“基于操作导出的分层”(E-MAIL地址的例子)和模式分层相似,可以直接通过类似语法说明一个全序或者偏序。“基于规则的分层”(高利润、中利润、低利润):与集合分组分层相似假定描述是基于维location,age和income的挖掘。用户可以”rolluponlocation”,“dropage”,概化发现的模式。从DMQL的5要素看待这个示例,运行结果见书P111,表4-1标准横行的年代,就像SQL出台前的RDBMS。这个发展历史是非常相似的。
本文档为【4、数据挖掘原语、语言和系统结构】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
个人认证用户
xxj7584
暂无简介~
格式:ppt
大小:148KB
软件:PowerPoint
页数:0
分类:建造师考试
上传时间:2020-03-18
浏览量:0