首页 关联规则挖掘算法研究(1)

关联规则挖掘算法研究(1)

举报
开通vip

关联规则挖掘算法研究(1)关联规则挖掘算法研究(1) 摘 要 Apriori算法是发现频繁项目集的经典算法,但是该算法需反复扫描数据库,因此效率较低。本文介绍了Apriori算法的思想,并分析了该算法的性能瓶颈。在此基础上,针对Apriori算法提出了一种改进方法,该方法采用转置矩阵的策略,只扫描一次数据库即可完成所有频繁项目集的发现。与其他经典的算法相比,本文提出的算法在项目集长度较大时,性能明显提高。 关键字 关联规则,支持度,置信度,Apriori1 引言 关联规则挖掘就是在海量的数据中发现数据项之间的关系,是数据挖掘领域中研究的热点...

关联规则挖掘算法研究(1)
关联规则挖掘算法研究(1) 摘 要 Apriori算法是发现频繁项目集的经典算法,但是该算法需反复扫描数据库,因此效率较低。本文介绍了Apriori算法的思想,并分析了该算法的性能瓶颈。在此基础上,针对Apriori算法提出了一种改进方法,该方法采用转置矩阵的策略,只扫描一次数据库即可完成所有频繁项目集的发现。与其他经典的算法相比,本文提出的算法在项目集长度较大时,性能明显提高。 关键字 关联规则,支持度,置信度,Apriori1 引言 关联规则挖掘就是在海量的数据中发现数据项之间的关系,是数据挖掘领域中研究的热点问题。1993年Agrawal等人[1]首先提出了交易数据库中不同商品之间的关联规则挖掘,并逐渐引起了专家、学者的重视。关联规则挖掘问题可以分为:发现频繁项目集和生成关联规则两个子问题,其中发现所有的频繁项目集是生成关联规则的基础。近年来,发现频繁项目集成为了关联规则挖掘算法研究的重点,在经典的Apriori算法的基础上提出里大量的改进算法。Savasere等[2]设计了基于划分(partition)的算法,该算法可以高度并行计算,但是进程之间的通信是算法执行时间的主要瓶颈;Park等[3]通过实验发现寻找频集主要的计算是在生成频繁2-项集上,利用这个性质Park等引入杂凑(Hash)技术来改进产生频繁2-项集的方法,该算法显著的提高了频繁2-项集的发现效率;Mannila等[4]提出:基于前一遍扫描得到的信息,对此仔细地作组合分析,可以得到一个改进的算法了。针对Mannila的思想Toivonen[5]进一步提出:先使用从数据库中抽取出来的采样得到一些在整个数据库中可能成立的规则,然后对数据库的剩余部分验证这个结果。Toivonen的算法相当简单并显著地减少了I/O代价,但是一个很大的缺点就是产生的结果不精确,存在数据扭曲(data skew)。 上述针对经典Apriori算法的改进算法在生成频繁项目集时都需要多次扫描数据库,没有显著的减少I/O的代价。本文在分析了经典的Apriori算法的基础上,给出了一种改进的方法,该方法采用转置矩阵的策略,只扫描一次数据库即完成频繁项目集的发现,在项目集长度较大时,性能明显提高。2 Apriori算法2.1 基本概念 设I={i1, i2,…, im}是二进制文字的集合,其中的元素称为项(item)。定义交易(transaction)T为项的集合,并且T
本文档为【关联规则挖掘算法研究(1)】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_617345
暂无简介~
格式:doc
大小:6KB
软件:Word
页数:0
分类:工学
上传时间:2017-03-22
浏览量:21