数据挖掘算法工具包资料

数据挖掘算法工具包资料 太普软件(www.tipdm.com), 2005~2012 1 数据挖掘算法工具包数据挖掘算法工具包数据挖掘算法工具包数据挖掘算法工具包 (TipDM-Plug) Version Version Version Version 1111....6666 产品白皮书广州太普软件科技有限公司广州太普软件科技有限公司广州太普软件科技有限公司广州太普软件科技有限公司版权所有版权所有版权所有版权所有...

太普软件(www.tipdm.com), 2005~2012 1 数据挖掘算法工具包数据挖掘算法工具包数据挖掘算法工具包数据挖掘算法工具包 (TipDM-Plug) Version Version Version Version 1111....6666 产品白皮书广州太普软件科技有限公司广州太普软件科技有限公司广州太普软件科技有限公司广州太普软件科技有限公司版权所有版权所有版权所有版权所有地址：广州市经济技术开发区科学城 232 号网址： http://www.tipdm.com 邮箱： 5iai2008@gmail.com 热线： 40068-40020 邮编： 510663 电话：（020）85661483/85666585 太普软件(www.tipdm.com), 2005~2012 2 目录 1. 引言 ............................................................................................................................... 3 1.1. 产品简介 ................................................................................................................... 3 1.2. 软件技术 ................................................................................................................... 3 1.3. 开发环境（FLEX,JAVA） ....................................................................................... 3 2. 算法来源 ....................................................................................................................... 4 2.1. Weka .......................................................................................................................... 4 2.2. Matlab ....................................................................................................................... 4 2.3. R ................................................................................................................................ 4 3. 调用接口 ....................................................................................................................... 6 3.1. JAR接口................................................................................................................... 6 3.1.1. 接口包 ............................................................................................................... 6 3.1.2. 调用示例 ........................................................................................................... 7 3.2. WebService接口..................................................................................................... 10 3.2.1. 服务端技术 ..................................................................................................... 10 3.2.2. 接口发布地址 ................................................................................................. 10 3.2.3. 接口说明 ......................................................................................................... 10 3.2.4. Java客户端调用样例 ..................................................................................... 11 3.2.5. 客户端 Java开发附件列表 ............................................................................ 11 4. 算法接口 ..................................................................................................................... 12 4.1. 数据探索及预处理 ................................................................................................. 12 4.2. 分类与回归 ............................................................................................................. 13 4.3. 时序模式 ................................................................................................................. 15 4.4. 聚类分析 ................................................................................................................. 16 4.5. 关联规则 ................................................................................................................. 17 5. 联系我们 ..................................................................................................................... 18 太普软件(www.tipdm.com), 2005~2012 3 1.1.1.1. 引言引言引言引言 1.1. 产品简介产品简介产品简介产品简介顶尖数据挖掘平台（TipDM）的数据挖掘工具包，提供了 80 多种常用算法及函数，通过调用，能完成包括对数据进行预处理，包括空值处理、降维处理、离散处理，因子分析、主成分分析、抽样、过滤等，创建、训练、评估模型，预测，修改模型参数，误差分析等一系列功能。 TipDM 以数据挖掘技术为核心，并提供开放的应用接口，能够满足企业复杂的应用需求。随着企业信息化建设的深入，TipDM 必将成为企业数据分析的得力助手，为企业带来很好的经济效益和社会效益。 1.2. 软件技术软件技术软件技术软件技术 1）技术平台：J2EE平台 2）技术框架：轻量级高性能的Spring框架 3）数据层：支持多种数据库的数据层 4）表现层：采用Flex或HTML技术 5）运行模式：纯B/S模式 6）扩展接口：基于WebService的服务接口，采用XML的数据传输格式 7）安全架构：符合JAAS的安全架构。 1.3. 开发环境开发环境开发环境开发环境（（（（FLEX,JAVA）））） � 环境要求环境要求环境要求环境要求 1. JDK 1.6 2. MySQL5.1.2（或其它主流数据库） 3. MyEclipse 6.5（更高版本也可以，向下兼容） 4. Adobe Flex Builder3（更高版本也可以，向下兼容） 5. Flashplayer_10_ax_debug.exe（可以调试 flex程序） 6. Tomcat6.0（或其它主流应用服务） 太普软件(www.tipdm.com), 2005~2012 4 2.2.2.2. 算法来源算法来源算法来源算法来源 TipDM 提供的数据挖掘算法工具包主要基于 Weka、Matlab 及 R等工具的底层算法封装而成。 2.1. Weka WEKA 作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则等。 2005年 8月，在第 11届 ACM SIGKDD国际会议上，怀卡托大学的 Weka小组荣获了数据挖掘和知识探索领域的最高服务奖，Weka 系统得到了广泛的认可，被誉为数据挖掘和机器学习历史上的里程碑，是现今最完备的数据挖掘工具之一（已有十多年的发展历史）。Weka 的每月下载次数已超过万次。更多信息详见：http://www.cs.waikato.ac.nz/ml/weka/。 2.2. Matlab MATLAB用来做数据挖掘，特别是利用其简单的矩阵语言加工具箱函数来实现数据挖掘算法的示例，是比较合适的。 Statistics Toolbox 和 Neural Networks Toolbox 可以用来实现回归和分类； Optimization Toolbox 和 Genetic Algorithm and Direct Search Toolbox可以帮助聚类算法进行最优化运算；Fuzzy Logic Toolbox可以进行规则推理。上述工具箱是一些通用MATLAB的工具，下面几个函数更能体现其强大的数据挖掘能力。 � kmeans() k-均值聚类 � treefit() 决策树回归或分类 � svmclassify() 支持向量机分类 � knnclassify() k-近邻分类 � crossvalind() 交叉验证试验这些函数主要在 Statistics Toolbox 和 Bioinformatics Toolbox中，通过 MATLAB 的帮助文档可以获得更多信息。更多信息详见：http://www.mathworks.cn 2.3. R R 是一个用于统计计算的很成熟的免费软件。R的开源性，使得它自从 90年代初被开发出来至 太普软件(www.tipdm.com), 2005~2012 5 今，它的发展就一直没有间断过，很多国家都相继出现了关于讨论开发 R的综合网站。关于 R的各种新的附加模块一直都是层出不穷，大大的方便了各类研究人员和院校师生。更因为它的免费，在美国、日本有很多大学，老师都用 R来帮助自己讲课，学生也用 R处理各种数据来帮助自己交报告。更多信息详见：http://www.r-project.org。 太普软件(www.tipdm.com), 2005~2012 6 3.3.3.3. 调用调用调用调用接口接口接口接口 TipDM 提供的算法接口主要包括以下几类： 3.1. JAR接口接口接口接口 3.1.1. 接口包接口包接口包接口包 TipDM 算法工具包中的 JAR接口包主要有： 1. preprocess.jar：数据预处理算法包 2. classify.jar：分类与回归算法包 3. cluster.jar：聚类分析算法包 4. associate.jar：关联规则算法包 5. timeseries.jar：时间序列算法包下图为时间序列算法包中的主要接口： 太普软件(www.tipdm.com), 2005~2012 7 3.1.2. 调用示例调用示例调用示例调用示例 package anfis_classify; import com.mathworks.toolbox.javabuilder.MWException; import classify.anfis_classify; /** ***ANFIS自适应神经模糊推理系统实现分类预测 */ public class anfis_classify_class { public static void main(String[] args) throws MWException { // TODO Auto-generated method stub anfis_classify ma = new anfis_classify(); try{ double [][] get_data =new double [][]{ {1,1,1,1,1,1} , 太普软件(www.tipdm.com), 2005~2012 8 {2,5,5,4,3,3} , {3,3,5,3,1,2} , …… {26,3,5,4,4,3} , {27,5,5,4,4,5} , {28,5,5,3,3,4} , {29,5,5,1,1,4 } , } ; double [][] test_data =new double [][]{ {30,5,5,1,4,1} , {11,5,5,5,3,4} , {12,1,5,3,1,3} , {13,1,3,5,3,2} , …… {22,2,2,5,2,3} , {23,2,2,2,3,3} , {24,1,1,1,1,3} , {25,3,3,1,2,2} , }; double [][] train_data =new double [][]{ {30,5,5,1,4,1} , {11,5,5,5,3,4} , {12,1,5,3,1,3} , {13,1,3,5,3,2} , …… {22,2,2,5,2,3} , {23,2,2,2,3,3} , {24,1,1,1,1,3} , {25,3,3,1,2,2} , }; double [][] predict_data =new double [][]{ {30,5,5,1,4} };//这个预测的赋值，注意格式,只需要 X 的属性值，没有类号。 String figure_path="E:\\image";///图像保存路径,特别注意，这个路径要用 //英文的路径，不然 java 调用会出错。 float test_data_number = 2 ;//测试数据的个数 //空值则不保存图形 // String figure_name="rbf_time_series_figure";//图片的名称 太普软件(www.tipdm.com), 2005~2012 9 String train_figure_name="membership_functions_before_train, membership_functions_after_train,anfis_classify_train_figure, anfis_error_figure";//图片的名称 String test_figure_name="anfis_classify_test_figure";//图片的名称 float epochs=100; String mfType="gbellmf"; double [][] figure_set =new double [][]{ { 7} , {650}, {320}, }; //总函数 System.out.println(ma.anfis_classify(4,get_data,test_data_number, predict_data,epochs,mfType,figure_path,train_figure_name, test_figure_name,figure_set)[3]); //训练函数 System.out.println(ma.anfis_train(8,train_data,test_data,epochs, mfType,figure_path,train_figure_name,figure_set)[0]); //测试函数 Object ob[]=ma.anfis_train(8,train_data,test_data,epochs,mfType, figure_path,train_figure_name,figure_set); Object chkFis = ob[3]; System.out.println(ma.anfis_test(2,test_data,chkFis, figure_path,test_figure_name,figure_set)[0]); //预测函数 Object ob[]=ma.anfis_train(8,train_data,test_data,epochs, mfType,figure_path,train_figure_name,figure_set); Object Fis = ob[0]; System.out.println(ma.anfis_predict(1,predict_data,Fis)[0]); } catch(Exception ex){ ex.printStackTrace(); } } } 太普软件(www.tipdm.com), 2005~2012 10 3.2. WebService接口接口接口接口 3.2.1. 服务端技术服务端技术服务端技术服务端技术 Service框架：Apache CXF2.2.5 Service实例化容器：Spring 技术标准：JAX-WS 传输标准：XML 传输方式：HTTP 其他技术：Annotation零配置 3.2.2. 接口发布地址接口发布地址接口发布地址接口发布地址 http://www.tipdm.cn/forecast/services/ 3.2.3. 接口说明接口说明接口说明接口说明 1、创建方案接口 http://www.tipdm.cn/forecast/services/DmSchemeService?wsdl 接口函数接口函数接口函数接口函数：：：：createDmScheme 接口参数：（1） ticket：用户 ID （2） dmSchemeDTO：数据交互对象，方案公共对象，自定义类型复杂对象，定义如下， id 方案ID，新建方案传入参数null schemeName 方案名称 schemeDesc 方案描述 appType 应用类型 appTypeName 应用类型名称 algolOption 算法类型 belongUserId 所属用户，新建方案传入参数null createTime 创建时间，新建方案传入参数null lastModifyTime 最后修改时间，新建方案传入参数null showLabel 显示标签，新建方案传入参数null rank权级，新建方案传入参数 null 返回参数：CreateDmSchemeResult：数据交互对象，创建方案返回对象，自定义类型复杂对象，定义如下， code 返回代码 0为成功 101为参数错误 500系统内部错误 2xx代表业务错误 message 返回消息 schemeId 返回方案ID 2、获取方案列表 http://www.tipdm.cn/forecast/services/DmSchemeService?wsdl 接口函数接口函数接口函数接口函数：：：：getDmSchemeByUser 太普软件(www.tipdm.com), 2005~2012 11 接口参数：（1） ticket：用户 ID 返回参数：GetDmSchemeByUserResult，数据交互对象，创建方案返回对象，自定义类型复杂对象， code 返回代码 0为成功 101为参数错误 500系统内部错误 2xx代表业务错误 message 返回消息 dmSchemeList 返回方案列表，List自定义类型 3.2.4. Java客户端调用样例客户端调用样例客户端调用样例客户端调用样例 Java客户端调用，这里以采用的 CXF客户端零配置调用为例说明，其他语言开发请根据WSDL 文件进行开发。 1、加入 CXF需要的 JAR包。 2、将服务端 DTO、结果集、端点接口拷贝进工程，作为调用 Service的基础。 3、实现如例代码： private static AuthUserResult doAuthUser(String loginName, String password) { JaxWsProxyFactoryBean factory = new JaxWsProxyFactoryBean(); factory.setServiceClass(UserWebService.class); factory.setAddress("http://www.tipdm.cn/ services/UserService"); UserWebService userService = (UserWebService) factory.create(); AuthUserResult result = userService.authUser(loginName, password); return result; } 3.2.5. 客户端客户端客户端客户端 Java开发附件列表开发附件列表开发附件列表开发附件列表 ----Service 命名空间 com.caic.webservice.ws.api.result.WSResult ----基类 ----DTO 接口层 com.caic.webservice.ws.api.WsConstants ----基类 com.caic.webservice.ws.api.dto.DmSchemeDTO ----Service 接口层 com.caic.webservice.ws.api.DmSchemeWebService ----结果集 com.caic.webservice.ws.api.result.GetDmSchemeByUserResult com.caic.webservice.ws.api.result.CreateDmSchemeResult 太普软件(www.tipdm.com), 2005~2012 12 4.4.4.4. 算法接口算法接口算法接口算法接口 4.1. 数据探索及预处理数据探索及预处理数据探索及预处理数据探索及预处理数据探索是对导入系统中的数据进行初步研究，以便更好地理解它的特殊性质，有助于选择合适的数据预处理和数据分析技术。模型预测的质量不会超过抽取样本的质量。数据探索和预处理的目的是为了保证样本数据的质量，从而为保证预测质量打下基础。算法名称算法名称算法名称算法名称算法描述算法描述算法描述算法描述相关性分析相关性分析是考察两个变量之间相互关系的方向和程度的一种统计分析方法。更精确地说，当一个变量发生变化时，另一个变量如何变化，此时就需要通过计算相关系数来做深入的定量考察。当然，还有其他类型的相关系数用于测量两个以上变量之间的关系，如多元回归等。主成分分析主成分析分析（PCA）是指用几个较少的综合指标来代替原来较多的指标，而这些较少的综合指标既能尽可能多地反映原来较多指标的有用信息，且相互之间又是无关的。周期性分析分析数据变化过程中，某些特征重复出现，连续的两次出现的客观规律。在时序预测时，经常要对样本数据进行周期性分析，以更好地理解样本数据变化的特点，为时序预测分析提供指导依据。缺失值处理样本数据中经常存在一些缺失值，在进行预测建模前，需要对缺失值按照某些规则进行处理。处理方法主要有：1）删除；2）数据补齐（人工填写、平均值填充、特殊值填充、热卡填充、 K 最近距离邻法、回归、期望值最大化方法等）。坏数据处理如果抽取数据中存在坏数据（脏数据），则需要对坏数据进行预处理。通常的做法是采用绝对均值法或莱因达法等对样本中的坏点数据进行剔除处理。属性选择由给定的属性构造或添加新的属性，以帮助提高精度和对高维数据结构的理解，是具有最佳预测准确率的子集。数据规约将属性数据按比例缩放，使之落入到一个小的特定区间。找出最小属性集合，使得数据类的概率分布尽可能地接近使用所有属性的原分布。离散处理离散化技术用来减少给定连续属性的个数，这个过程通常是递归的，而且大量时间花在排序上。对于给定的数值属性，概念分层定义了该属性的一个离散化的值。特征提取主要对图像、声音、信号等数据源，通过图像处理、小波变换等建立一组新的、更紧凑的属性来表示数据的过程。如图像特征提取是指根据图像特征，提取反映图像本质的一些关键指标，以达到自动进行图像识别或分类的目的。 太普软件说明：更多算法详见：www.tipdm.cn 4.2. 分类与回归分类与回归分类与回归分类与回归分类是数据挖掘中应用得最多的方法的整体信息，即该类的内涵描述是利用训练数据集通过一定的算法而求得分类规则回归是利用历史数据找出变化规律预测关心的是精度和不确定性，分类与回归算法主要有： � 贝叶斯：朴素贝叶斯网络 � 决策树及表：决策表、 � 神经网络：BP神经网络神经网络 � 回归分析：线性回归、 � 其它算法：AdaBoostM1 主要算法介绍：算法名称算法名称算法名称算法名称 BP 神经网络 BP（Back Propagation 逆传播算法训练的多层前馈网络广泛的神经网络模型之一 LM 神经网络 Levenberg-Marquardt 结合的优化算法快，精确度高太普软件(www.tipdm.com), 2005~2012 www.tipdm.cn 分类是数据挖掘中应用得最多的方法。分类就是找出一个类别的概念描述，即该类的内涵描述，并用这种描述来构造模型，一般用规则或决策树模式表示是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测是利用历史数据找出变化规律，建立模型，并由此模型对未来数据的种类及特征进行预测，通常用预测方差来度量。朴素贝叶斯网络、贝叶斯信念网络、CART决策树、ID3决策树、C4.5决策树神经网络、LM神经网络、RBF神经网络、FNN神经网络、ANFIS 、逐步回归、逻辑回归、保序回归 AdaBoostM1算法、KStar算法、SVM支持向量机、K-最近邻分类算法描述算法描述算法描述算法描述 Back Propagation）神经网络是是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。 Marquardt是基于梯度下降法和牛顿法结合的优化算法，特点：迭代次数少，收敛速度精确度高。 13 ，它代表了这类数据一般用规则或决策树模式表示。分类分类可被用于规则描述和预测。并由此模型对未来数据的种类及特征进行预测。 ANFIS神经网络、WNN 最近邻分类输出示例输出示例输出示例输出示例 太普软件说明：更多算法详见：www.tipdm.cn FNN 模糊神经网络模糊神经网络有模糊权系数或者输入信号是模糊量的神经网络，是模糊系统与神经网络相结合的产物聚了神经网络与模糊系统的优点 RBF 径向基神经网络径向基函数(Radial Basis Function 是具有单隐层的三层前馈网络近网络，能够以任意精度逼近任意连续函数别适合于解决分类问题 ANFIS 自适应神经模糊推理系统自适应神经模糊推理 Inference System 糊推理系统等价的自适应网络的学习机制引入模糊系统觉和认知成分的自适应系统 WNN 小波神经网络小波神经网络是基于小波变换而构成的神经网络模型线性小波基取代通常的神经元非线性激励函数 (如 Sigmoid 结合起来,充分继承了两者的优点 SVM支持向量机支持向量机是的基础上发展起来的一种新的机器学习算法在解决小样本现出许多特有的优势本信息在模型的复杂性和学习能力之间寻求最佳折衷，以获得最好的推广能力 CART决策树分类与回归树 tree,CART），归方法，通过构建树个二叉树。太普软件(www.tipdm.com), 2005~2012 www.tipdm.cn 模糊神经网络（Fuzzy Neural Network,FNN）是具有模糊权系数或者输入信号是模糊量的神经网是模糊系统与神经网络相结合的产物，它汇聚了神经网络与模糊系统的优点 (Radial Basis Function, RBF)神经网络是具有单隐层的三层前馈网络。它是一种局部逼能够以任意精度逼近任意连续函数，特别适合于解决分类问题。模糊推理系统（Adaptive Neural Fuzzy Inference System,ANFIS）是功能上与一阶 T-S模糊推理系统等价的自适应网络，它是将神经网络的学习机制引入模糊系统，构成一个带有人类感觉和认知成分的自适应系统。网络（Wavelet Neural Network,WNN）是基于小波变换而构成的神经网络模型,即用非线性小波基取代通常的神经元非线性激励函数 Sigmoid 函数),把小波变换与神经网络有机地充分继承了两者的优点。支持向量机是V.Vapnik等人在研究统计学习理论的基础上发展起来的一种新的机器学习算法，它在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。支持向量机根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳以获得最好的推广能力。分类与回归树（ classification and regression ），是一种十分有效的非参数分类和回通过构建树、修剪树、评估树来构建一 14 太普软件 4.3. 时序模式时序模式时序模式时序模式时序模式是指通过时间序列搜索出的重复发生概率较高的模式数据预测未来的值，但这些数据的区别是变量所处时间的不同时序模式类算法主要有： � 指数平滑 � 多元回归 � GM灰色理论 � RBF神经网络 � ANFIS神经网络 � SVM支持向量机主要算法介绍：算法名称算法名称算法名称算法名称指数平滑使用指数平滑（行时间序列预测 GM 灰色理论使用灰色 GM(1,1) RBF 神经网络使用 RBF神经网络方法进行时间序列预测多元回归使用回归方法进行时间序列预测太普软件(www.tipdm.com), 2005~2012 时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样但这些数据的区别是变量所处时间的不同。算法描述算法描述算法描述算法描述使用指数平滑（Exponential Smoothing）方法进行时间序列预测 GM(1,1)模型进行时间序列预测神经网络方法进行时间序列预测使用回归方法进行时间序列预测 15 与回归一样，它也是用己知的输出示例输出示例输出示例输出示例 太普软件说明：更多算法详见：www.tipdm.cn 4.4. 聚类分析聚类分析聚类分析聚类分析聚类是把数据按照相似性归纳成若干类别聚类分析可以建立宏观的概念，聚类分析类算法主要有： � K-均值算法 � EM最大期望算法 � DBScan密度算法 � 改进K-均值算法 � 多层次聚类主要算法介绍： SVM 支持向量机使用 SVM支持向量机方法进行时间序列预测 ANFIS 自适应神经模糊推理系统使用 ANFIS 自适应神经模糊推理系统方法进行时间序列预测算法名称算法名称算法名称算法名称 K-均值算法 K-均值聚类(K 的一种非监督实时聚类算法础上将数据划分为预定的类数 EM最大期望算法最大期望（Expectation Dempster,Laind 的一种方法， MLE 估计。 DBScan密度算法 DBScan（Density Based Spatial Clustering of Applications with Noise 它根据对象周围的密度不断增长聚类声的空间数据库中发现任意形状的聚类太普软件(www.tipdm.com), 2005~2012 www.tipdm.cn 聚类是把数据按照相似性归纳成若干类别，同一类中的数据彼此相似，不同类中的数据相异，发现数据的分布模式，以及可能的数据属性之间的相互关系支持向量机方法进行时间序列预测自适应神经模糊推理系统方法进行时间序列预测算法描述算法描述算法描述算法描述 (K-means clustering)是 Mac Queen 提出的一种非监督实时聚类算法，在最小化误差函数的基础上将数据划分为预定的类数 K。 Expectation–Maximization,EM）算法是 Laind,Rubin 提出的求参数极大似然估计，它可以从非完整数据集中对参数进行 Density Based Spatial Clustering of Applications with Noise），是基于密度的聚类方法，它根据对象周围的密度不断增长聚类。它能从含有噪声的空间数据库中发现任意形状的聚类。 16 不同类中的数据相异。以及可能的数据属性之间的相互关系。输出示例输出示例输出示例输出示例 太普软件 4.5. 关联规则关联规则关联规则关联规则关联规则挖掘是由Rakesh Apwal 律性，就称为关联。数据关联是数据库中存在的一类重要的时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网阀值来度量关联规则的相关性，关联分析类算法主要有： � HotSpot关联规则 � Apriori关联规则 � FP-Tree关联规则 � HOTSPOT关联规则 � 灰色关联法主要算法介绍：说明：更多算法详见：www.tipdm.cn 多层次聚类这种方法对给定的数据集合进行层次的分解次的分解如何形成上方法)和分裂法算法名称算法名称算法名称算法名称 Apriori算法 Apriori 算法是一种最有影响的挖掘布尔关联规则频繁项集的算法心是基于两阶段频集思想的递推算法 FP-Tree算法针对 Apriori 的方法：FP 灰色关联法灰色关联分析是以分析和确定各因素之间的影响程度或若干个子因素序列) 对主因素太普软件(www.tipdm.com), 2005~2012 Rakesh Apwal等人首先提出的。两个或两个以上变量的取值之间存在某种规数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个还不断引入兴趣度、相关性等参数，使得所挖掘的规则更符合需求 www.tipdm.cn 这种方法对给定的数据集合进行层次的分解，根据层次的分解如何形成，它又可分为凝聚法(也称自底向和分裂法(也称为从上向下方法) 算法描述算法描述算法描述算法描述算法是一种最有影响的挖掘布尔关联规则频繁项集的算法心是基于两阶段频集思想的递推算法。 Apriori 算法的固有缺陷，J.Han 等提出了不产生候选挖掘频繁项集 FP-树频集算法。灰色关联分析是以分析和确定各因素之间的影响程度或若干个子因素对主因素(母序列) 的贡献程度而进行的一种分析方法 17 两个或两个以上变量的取值之间存在某种规关联分为简单关联、一般用支持度和可信度两个使得所挖掘的规则更符合需求。算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核等提出了不产生候选挖掘频繁项集灰色关联分析是以分析和确定各因素之间的影响程度或若干个子因素(子的贡献程度而进行的一种分析方法。 太普软件(www.tipdm.com), 2005~2012 18 5.5.5.5. 联系我们联系我们联系我们联系我们感谢您选择广州太普软件公司的数据挖掘产品，在系统的使用过程中如果遇到问题，请通过如下的方式与我们联系，我们将为用户提供周到满意的服务。主页主页主页主页：http://www.tipdm.com 电话电话电话电话：020-85661483 85666585 传真传真传真传真：020-28871586 热线热线热线热线：40068-40020 地址地址地址地址：广州经济技术开发区科学城科珠路 232 号邮编邮编邮编邮编：510663 邮箱邮箱邮箱邮箱：5iai2008@gmail.com

                    本文档为【数据挖掘算法工具包资料】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

数据挖掘算法工具包资料

你可能还喜欢