首页 网点选址数据挖掘算法研究

网点选址数据挖掘算法研究

举报
开通vip

网点选址数据挖掘算法研究网点选址数据挖掘算法研究 张滢 ,钱利红 ()西安通信学院 陕西 西安 710106 摘 要 :网点选址预测模型是网点选址的核心模型 ,如何分析现有的数据库 ,从中得出数据的本质特征和事物规律或模 式 ,依此来预测同类事物未来如何发展 。就解决网点选址所需的数据挖掘算法和相关模型的建立 ,任何一种挖掘分析模型 都是以数据挖掘的算法作为支撑的 ,算法在数据挖掘过程中的应用也是网点选址模型的重要一环 ,将介绍网点选址每种模 型可能会用到的算法 。 关键词 :网点选址 ;数据挖掘 ;预测模型 ;分类预测 ;数...

网点选址数据挖掘算法研究
网点选址数据挖掘算法研究 张滢 ,钱利红 ()西安通信学院 陕西 西安 710106 摘 要 :网点选址预测模型是网点选址的核心模型 ,如何 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 现有的数据库 ,从中得出数据的本质特征和事物规律或模 式 ,依此来预测同类事物未来如何发展 。就解决网点选址所需的数据挖掘算法和相关模型的建立 ,任何一种挖掘分析模型 都是以数据挖掘的算法作为支撑的 ,算法在数据挖掘过程中的应用也是网点选址模型的重要一环 ,将介绍网点选址每种模 型可能会用到的算法 。 关键词 :网点选址 ;数据挖掘 ;预测模型 ;分类预测 ;数值预测 () 文章编号 :1004 373 X 200622 090 02 中图分类号 : T P311 . 132 . 1 文献标识码 : A Mesh Point Selected Location Data Min ing Algor ithm Researc h Z HA N G Ying ,Q IA N L iho ng ( )Xi′an Co mmunicatio n In stit ute , Xi′an ,710106 , China Ab stract : The mesh point selected locatio n fo reca st mo del i s t he mesh point select ed locatio n co re mo del , ho w to analyze t he exi sti ng data ba se in o r der to o btain t he essential cha racteri stic of t he data and t he r ule of a t hing ,acco r ding w hich to fo re2 ca st similar t hings f ut ure develop ment . A ny kind of excavatio n a nalysi s mo del i s ba sed o n t he data mining al go rit hm and t he al2 go rit hm in t he data mining p rocess applicatio n i s al so impo rt ant in mesh point select ed locatio n mo del , t hi s a rticle int ro duce s t he mesh point selected w hich may be used i n locatio n each kind of mo del . Ke ywords : me sh point selected locatio n ; data mining ;fo reca st mo del ;cla ss fo reca st ; number fo reca st 网点选址的核心模型是网点选址预测模型 ,预测模型很容易将错误分类的影响包括在规则构建过程中 ,这对于 非对称错误分类情况是一个非常重要的因素 。 差异分析的本质是分析现有的数据库 ,从中得出数据的本质特征和 事物规律或模式 ,依此来预测同类事物未来如何发展 。预 的一个主要假设是预测变量服从多变量正 测模型有 2 种类型 :分类和数值预测 。采用的算法可以分 态分布 。该假设在很多分类分析中是不成立的 ,因为大多 为如下几种 :数的预测变量都是字符类型变量 。在这样的情况下 ,线性 ( 和二次函数可能不是最优的 。用分步回归 St ep wi se Re2 1 差异分析( DA) 分类预测 ) gressio n选择的变量也可能是不可靠的 。因此 ,预测的结 ( 差异分析的目标和其他一般的分类方式并无二致 ,即果或 者 正 确 率 可 能 错 得 很 严 重 J o hnso n a nd Wicher n , 将所有记录划分到定义好的分类中 。差异分析有 2 个规 ) 1992。其他 方法 快递客服问题件处理详细方法山木方法pdf计算方法pdf华与华方法下载八字理论方法下载 例如 lo gi stic 回归 ,p ro bit 回归和树型归 () ( ) 则 ,线性规则 li near r ule和二次规则 quadratic r ule。对 纳可能是更好的选择 。 于线性规则而言 ,根据好的和坏的或者说响应的和不响应回归模型2 Logist ic 的两类数据估计线性函数 。对于二次规则 ,也用 2 组数据 估计二次函数 。他们的根本不同在于不同数据分组的方 ( ) Lo gi stic 曲线对应 lo gi stic 模型 。该曲线是 0 ,1区间 差和协方差矩阵是否相同 。如果方差和协方差对于响应 )( 的 S 形曲线 ,并且在 X ?-?0 , 在?的情况下 EY i i 的和不响应的分组都相同 , 则是线性估计 , 否则就是二次 ) )( ( ?+?时 EY ?1 。该模型可以用公式 EY X i i = iβXi ( ) 估计 。然后该函数 线性或者二次就可以用于计算新观 e 表示 , 这里 Y 是第 i 个响应变量 , 对于响应来说该i βX i1 + e 测数据的值 。使用类似 SA S 的软件可以很容易地完成差 值为 1 , 对于不响应来说该值为 0 。X 是第 i 个解释变量的i 异分析估计 。 向量 , 可以是背景信息变量 , 地理变量和其他变量如信用 差异分析的一个优点是可以很容易地将每个样本对 历史等变量 。Lo gi stic 回归在分类分析中广为使用 。统计 于每个分类的先验概率包含在规则构建过程中 。并且也 学家和经济学家都强烈推荐使用该方法 。统计学家推荐 的原因是在差异分析的假设条件下 ,该方式已经经过理论收稿日期 :2006 07 18 90 ( () 二值效用理论一致 。并且 ,lo gi stic 回归模型的区间在 0 , B P。B P 是一种通用的监督学习算法 ,由 3 个步骤构成 : ) 1范围内 ,而线性概率模型则不是 。Lo gi stic 回归模型的 首先将一个数值型的输入模式输入网络的输入层 ; 将目标 主要假设在于响应概率服从 lo gi stic 分布 。很多统计学和 输出也作为训练数据的一部分 ;最后关联权值根据梯度下 计量经济学软件例如 SA S , S HA ZA M 和 L IMD EP 都可以降的误差最小化方法来调整 ,这样神经网络可以从“经验” 估计该模型参数 。中学习 。 神经网络方法比树型归纳更加健壮 ,原因在于在计算 树型归纳分类预测3 匹配函数时每个数据点权值是不断调整的 ,并且通过算法 调整优化了该方法 。神经网络技术的一个不足是他们一 树型归纳技术以决策树的形式构建预测模型 。算法 , 因此类别变量必须用 o ne般只接收数值型数据的输入 首先确定出最重要的变量 , 也就是对 分类 影 响 最大 的 变 of N 技术记录 。该模型也存在过度匹配的问题 , 此外 , 量 ,然后再确定其次重要的变量 。测试条件自动确定 , 树 有些神经网络模型无法收敛 ,他们无法收敛到分析人员可 型归纳的决策点称为节点 ,收集观测数据的末端则称为叶 以接受的稳定预测标准 。再次 ,有些分析人员认为神经网 节点 。在每一步 ,数据都分成两个或者多个组 , 并且应该 络是一 种 黑 箱 方 式 的 建 模 方 法 , 很 难 了 解 其 中 建 模 的 让所有的记录尽可能地划分在不同的组中使得混杂程度 2 ( ) 最小化 。混杂程度可以用公式 GIN I = ?1 - p计算 , 这 过程 。 i i 里 p 是类 i 的实例的比率 。从处理时间的角度而言 ,树型i 线性回归5 归纳是非常高效率的 ,并且树型归纳还提供了一个非常直 线性回归试图为一组数据点拟合一条直线 。线性回 观地分析结果的方法 。 归的一个优势是许多现有的计算机软件包都可以支持该 树的层次可以由 2 种方法控制 : 一种方法是定义最少 功能 ,结果比较直观 ,容易解释 ,并且速度也很快 。缺点在 观测数据量 , 例如规定每一个叶结点 只包 含 训 练数 据 的 于变量和应变量之间必须是线性的 。否则必须在线性方10 % ;另外一种方法是规定树允许的最大层次 。而裁减则 程中引入非线性因子 , 引入这些因子 只 能凭 借 大 胆的 猜 是另外一种控制树的层次的重要方法 。 测 ,并且是一个乏味的工作 。该算法的另一个不足是非正 决策树可以被训练到与训练数据中的真实值完全一 常数据对线性回归的分析结果的影响很大 。致 ,但从实际预测的角度而言 ,这并不是最好的 ,所以需要 裁减 。通过裁减 , 可以 提 高 测试 数 据 和预 测 分 析的 准 确 6 非线性回归 性 。裁减了树的尺寸 , 从而使树更具有可读性 , 也更便于 非线性回归是回归分析的又一种方法 ,他克服了线性理解和解释 。基本的裁减方法是最小描述长度方法 。树 回归的缺点 。统计软件如 SA S 都支持该模型 。但是该模 型归纳也有不少的缺点 ,其中一个就是有些分类器只支持 型的灵活性不够 ,无法处理所有可能的数据形态 。分析人 特定数据类型 。例如 , 有些分类器不支持连续型变量 , 需 员和决策人员必须去猜测可能满足现有数据的数学函数 。 要事先将连续型变量转换成离散型变量 ; 另外的一个不足 通常图形化和可视化的技术在模型选择时比较有用 。是决策树只能解决可以将解空间分解成连续小矩形的那 些问题 ;第三点不足是树型归纳不是最优的 。算法确定了 7 径向基函数( RBF) 一种分解方式后 , 在出现新的数据时不再进行修改 , 而这 一点大多数的神经网络都能支持 。并且 ,决策树还有碎片 RB F 是一项新的数值预测技术 。他比传统回归分析 的问题 。为了使碎片最少 ,可以裁减或调整一些低层的节 技术更健壮 、更灵活 。RB F 不利用单一的非线性函数 , 而 点以便有效缩减树的规模 ;第四个和最后一个不足是数型 是使用一个加权的非线性函数集合 。这些加权函数称为 () 归纳方法容易发生过度匹配 o ver fit 的问题 , 该模型可 径向基函数 。每个 RB F 函数在输入数据空间都有各自的 能会对训练数据非常有效 , 但是对新 数据 的 预 测则 表 现 适用区域 。 不佳 。区域选择 的 标 准 是 : 区 域 内 的 输 出 非 常 类 似 , 这 样 RB F 可以最好地拟合输出结果 。对于每个选择的区域 ,用 4 神经网络 预测区域平均值作为 RB F 中心 。在区域之间的数据点 , 神经网络技术是指基于神经网络的节点及其权值的根据所有中心的预测值的加权平均值来确定 ,离数据点越 架构的模型 。神经网络是相互连接的节点的集合 ,每个节 远中心的权值下降越快 。权值根据最小平方误差估计方 点有输入 、输出 , 并可以进行处理 。在可见的输入层和输 法确定 。由于只有一个隐藏层 , 因此速度更快 。相比 B P (),抵抗噪音的能力更强 。 网络 下转第 95 页 出层之间 ,可能有很多隐藏的处理层 。每一层的每一个处 91 [ 1 ] 夏海涛 ,詹志强 . 新一代网络管理技术 [ M ] . 北京 : 北京邮电( 必要维护性能监测任务列表 不管 EMS 是否支持性能监 大学出版社 ,2003 .) 测任务。为了在平台上重新启动或者跟数据整合层在网 [ 2 ] 孟洛明 . 网络管理研究中的问题 、现状和若干研究方向 [ J ] .络故障恢复后保证当前的性能监控任务是最新的 ,需要进 () 北京邮电大学学报 ,2003 ,26 2:1 8 .行性能监测任务的同步 。 [ 3 ] 孟洛明 . 现代网络管理技术 [ M ] . 北京 : 北京邮电大 学出版 5 结 语 社 ,2001 . 通用网关平台试图将各个子网管接口统一有机地整 [ 4 ] 詹志强 ,孟洛明 ,邱雪松 . 多专业网综合网管系统体系结构 合起来 , 整合各种数据格式 , 屏蔽多厂商多接口之间的差 () 的研究 [ M ] . 北京邮电大学学报 ,2003 ,26 1:55 59 . 异性 。使得综合网管系统能够比较全面的体现各个子网 [ 5 ] 金群峰 ,靳晓嘉 ,郭长锐 . 面向业务的综合网管系统的研究 域的信息以及比较全面统一地展现各个专业子网之间的 () 与实现 [J ] . 无线电工程 ,2005 ,35 6:17 19 .作者简介 张方勇 男 ,1981 年出生 ,重庆人 ,北京交通大学硕士研究生 。主要研究方向为网络管理 ,通信软件 。 杨芳南 女 ,1963 年出生 ,湖南人 ,北京交通大学计算机与信息技术学院网管研究室主任 ,高级工程师 。主要研究方 向为计算机软件 ,网络管理 ,通信软件 。 ()上接第 89 页 [ 3 ] 张磊 ,王希东 ,任伟 . 虚拟仪器测试系统中数据共享 的实现 话框模式 ,为以后的系统扩展打下了良好的基础 。该系统 () [J ] . 计算机自动测量与控制 ,2000 ,8 5:57 58 .充分利用了计算机串口和外设进行通讯的功能 ,还可以稍 + + [ 4 ] 陈元炎 ,邓宗明 . Vi sual C 6 . 0 编程使用技术于案例 [ M ] . 加改动与其余类型单片机进行通讯测试 ,希望能够广泛地 清华大学出版社 ,2002 .应用于通讯系统中 。由于串口使用简单 , 通讯方便 , 越来 [ 5 ] 孙育才 . MCS 51 系列单 片 机 微 型 计 算 机 及 应 用 [ M ] . 北越多的外设测试系统利用这种技术 。此测试系统具有使 京 :北京航空航天大学出版社 ,1988 . 用硬件少 、可靠性高的优点 。经实践证明 , 在多种环境下 [ 6 ] 余小 平 , 奚 大 顺 . PC 机 并 口 与 单 片 机 间 的 数 据 传 送 [ D ] .运行情况良好 。 2001 嵌入式系统及单片机国际学术交流会 论文 政研论文下载论文大学下载论文大学下载关于长拳的论文浙大论文封面下载 ,2001 . [ 7 ] 张海藩 . 软件工程导论 [ M ] . 北京 :清华大学出版社 ,1998 .参 考 文 献 [ 8 ] 马明建 ,周长城 . 数据采集与处理技术 [ M ] . 西安 : 西安交通 [ 1 ] 邵军 ,郑鑫 . 计算机串口与单片机通讯测试系统的实现 [ J ] . 大学出版社 ,1998 . () 现代电子技术 ,2003 ,24 10:49 51 . [ 9 ] 王绍燕 . C 机与单片机间通信程序的实现 [ J ] . 嵌入式系统 ,+ + [ 2 ] Cha rle s Wright . Vi sual C 程序员实用大全 [ M ] . 北 京 : 中 () 2002 , 3,B ,39 42 . 国水利水电出版社 ,2001 . 作者简介 孙 伟 男 ,1981 年出生 ,辽宁省大连人 ,硕士研究生在读 。 ()上接第 91 页 参 考 文 献 8 结 语 [ 1 ] [ 加 ]J iawei Ha n Micheline Ka mber [ M ] . 范明 ,孟小峰 ,译 . 北 网点选择是一个应用比较广泛的课题 ,他普遍适用于 京 : 机械工业出版社 ,2001 .银行/ 证券/ 商业等各类分布的机构组织 ,在网点选择中需 [ 2 ] Ma rtin T. Hagan , Ho wa r d B . Demut h , Ma r k H . Beale . 神经 要考虑的因素很多 ,本文根据一些经过验证的比较适用的 网络设计 [ M ] . 戴葵 ,译 . 北京 : 机械工业出版社 ,2002 . 统计挖掘算法进行了研究 。这些算法及初步的研究将会 [ 3 ] 张凤琴 ,张水平 ,万映辉 . 基于数据挖掘技术的入侵 检测系 在网点选择分析中提供可靠的科学依据和有益的帮助 。() 统 [J ] . 现代电子技术 ,2005 ,28 2:56 57 ,62 . 作者简介 张 滢 1975 年出生 ,陕西人 ,讲师 。主要从事电子技术教学和研究 。 95
本文档为【网点选址数据挖掘算法研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_337177
暂无简介~
格式:doc
大小:25KB
软件:Word
页数:0
分类:生活休闲
上传时间:2017-09-30
浏览量:16