首页 欧氏距离的加权处理对K_means法聚类效果的改进

欧氏距离的加权处理对K_means法聚类效果的改进

举报
开通vip

欧氏距离的加权处理对K_means法聚类效果的改进欧氏距离的加权处理对K_means法聚类效果的改进 小不等的类进行聚类时 ,可以达到较好的效果 。方法 以修正后的方差的倒数为权重 ,对欧氏距离的平方进行加权处 理 ,从而用“相对距离 ”代替“绝对距离 ”来计算样品点与类间的相似度 。结果 在对方差大小不等的 2个类进行聚类时 , 改进 K2m ean s法得到的正确率高于传统的 K2m ean s法 。结论 在对方差相差悬殊的两类进行聚类时 ,改进的 K2m ean s法 优于传统的 K2m ean s法 。 【关键词 】 聚类分析 欧氏距离 加权 (...

欧氏距离的加权处理对K_means法聚类效果的改进
欧氏距离的加权处理对K_means法聚类效果的改进 小不等的类进行聚类时 ,可以达到较好的效果 。方法 以修正后的方差的倒数为权重 ,对欧氏距离的平方进行加权处 理 ,从而用“相对距离 ”代替“绝对距离 ”来计算样品点与类间的相似度 。结果 在对方差大小不等的 2个类进行聚类时 , 改进 K2m ean s法得到的正确率高于传统的 K2m ean s法 。结论 在对方差相差悬殊的两类进行聚类时 ,改进的 K2m ean s法 优于传统的 K2m ean s法 。 【关键词 】 聚类 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 欧氏距离 加权 ( ) 中图分类号 : R195. 1 文献标识码 : A 文章编号 : 100625253 200801 20009 204 A deve loped K2m ean s m e thod ba sed on we igh ted Euc l idean d istan ce LU J ing 2jing, ZHAN G J in2x in, YUAN X iang2dong, et a l. S chool of Public H ea lth, S un 2Ya t S en U n iversity, Guangzhou 510080, Ch ina 【A b stra c t】 O b jec t ive The p u rpo se of th is d isse rta tion is to p ropo se a deve lop ed K2m ean s m e thod, wh ich is mo re effec2 tive than trad itiona l K2m ean s m e thod e sp ec ia lly when iden tifying c lu ste rs who se va riance s a re unequa . l M e thod s The re la tive d istance bu t no t ab so lu te d istance wa s u sed to ca lcu la te the d istance be tween the ind ividua l and the c lu ste r cen te r. R e la tive d is2 tance, a s wha t is ca lled, is defined a s the ra tio be tween the squa red Euc lidean d istance and the ad ju sted va riance of the c lu ste r. Re su lts W hen iden tifying c lu ste rs who se va riance s a re unequa l, the deve lop ed K2m ean s m e thod m ay lead to a h ighe r accu racy eva lua ted w ith ac tua l c lu ste rs. C on c lu s ion The deve lop ed K2m ean s m e thod is mo re effec tive than trad itiona l K2m ean s m e thod when iden tifying c lu ste rs who se va riance s a re unequa l. 【Key word s】 C lu ste r ana lysis Euc lidean d istance W e igh ting ()与类中心的欧氏距离有关 ,还与类的方差有关 ,如图 1。K2m ean s法作为快速聚类法 又称动态聚类法 中 最常用的一种 ,由于在计算速度上具有无可比拟的优 势 ,常被作为大样本聚类分析的首选 方案 气瓶 现场处置方案 .pdf气瓶 现场处置方案 .doc见习基地管理方案.doc关于群访事件的化解方案建筑工地扬尘治理专项方案下载 。其基本原 理为 :人为地或按照某种 标准 excel标准偏差excel标准偏差函数exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载 选择初始凝聚点 ;依据样 品点到各初始凝聚点的欧氏距离 ,将样品划分到与其 距离最近的类中 ,形成初始分类 ;再对初始分类进行修 [ 1 ] 正 ,直到分类比较合 理 , 不必 再 修正 为止 。由 于 该 方法在聚类过程中采取距离就近原则 ,故倾向于产生 [ 2 ] 大小相等的球状类 。而实际资料常 存在 几个 类 在 图 1 点 A 与方差相差悬殊的两类间的关系 “空间 ”所占容积大小不等的情况 。在这种情况下 , K2 m ean s法常常无法得到令人满意的结果 。目前 ,对 K2 我们通常使用的标准化方法是将样品点在各个维 m ean s法进行改进的研究主要是针对传统 K2m ean s法 度的坐标 ,减去所有样品点在对应维度的坐标值的均 [ 3 ] [ 4 26 ] 只适用于连续性变量 、对初始 凝聚 点 比较 敏感 数 ,再除以所有样品点在对应维度的坐标值的标准差 [ 7 ]以及易受极端点的影响 这几方面 。针对 K2m ean s法 这样的变换方式可以使样品点在各个维度的总变异都 倾向于产生大小相等的球状类这一缺点的研究尚未见 变为 1 ,但是在各个维度上 ,每个类的方差比并不会因 到 。本研究提出一种改进的 K2m ean s法 ,在对“空间 ” 标准化发生变化 。即各类方差不等的情况不会因标准 () 所占容积 对应于统计学中的“方差 ”大小不等的类 3 进行聚类时 ,可以达到较好的效果 。 ( )3基金项目 : 广东省科技 计划 项目进度计划表范例计划下载计划下载计划下载课程教学计划下载 项目 2004B33701010 作者单位 : 1 510080 中山大学公共卫生学院 广东省广州市 1 传统 K2m e a n s 法存在的问题2 广东省中山市疾病预防控制中心 K2m ean s法将样品点分入哪个类 ,取决于它同各个3 广东省人民医院体检中心 化而得到改善 。图 2清楚地展示了该问题 :2. 2. 1 初始凝聚点的选择 [ 8 ] K2m ean s法对初始凝聚点比较敏感 , 故如何选 择初始凝聚点至关重要 。在选择初 始 凝聚 点的 过 程 中 ,如果仅仅基于距离因素 ,往往会找到许多孤立点作 为初始凝聚点 。实际上 ,初始凝聚点除了尽量分散 ,能 使各类被恰当地区分之外 ,还应该具有一定的代表性 , 即具有较高的密度 。因此 ,在初始凝聚点的选择中 ,除 [ 9 ] 了考虑其散布程度外 ,还应考虑密度因素 。密度法 可以满足以上两点 。本文所提出的聚类方法 ,引入了 每类的方差 ,若仍以孤立点为初始凝聚点 ,聚类的效率 会受到很大影响 。因此 ,本文所提出的方法 ,运用密度 法作为确定初始凝聚点的方法 。 图 2a 标准化前两类在坐标轴上的投影 2. 2. 2 距离的定义 由于考虑了各类方差的影响 ,故定义样品到各类 的“相对距离 ”而非“绝对距离 ”作为聚类准则 。本文 的所谓相对距离 ,指样品点到类中心的欧氏距离平方 与类内方差之比 。考虑到极端点对方差的影响 ,故此 处对方差进行修正 。修正方法为选择与类中心的欧氏 距离平方最近的 80 %的样品点 ,计算方差 。 2( ) 公式 1 给出了类 k 的方差 S的定义 : k n 2 2 ( ) ( )? x- c/ n1 S= j k j Sk k x?A , j = 1 k 其中 , x 表示属于类 k 的样品点 ; A表示类 k 内的样品 k 点 x 所构成的空间 ; x表示样品点 x 在变量 j上的取j 值 ; c表示类 k 的中心点在变量 j上的取值; n表示类 k jS k 图 2b 标准化后两类在坐标轴上的投影 k 内的样本数量 。 众所周知 , 方差是用来考察类内所有样品点的变 图 2 a 中 ,类 ?在 b1、b2 维度的方差均为1 ,类 ? 异情况的 , 因此易受极端点的影响 。为消除极端点的 在 b1维度的方差为 1 ,而在 b2维度的方差为 9。图 2 b 影响 , 下面将要介绍的聚类方法对方差进行了修正 , 其是将左图中的数据进行标准化变换后所作的散点图 。 主要思想是 :将类 k 内各样品点与类 k 中心点之间的 可以看出 ,类 ?与类 ?在 b2 维度上方差悬殊的情况并 距离从小到大排序 , 取与类 k 距离最近的 80 % 的点 , 未因标准化而改变 。 计算方差 。公式为 如前所述 ,传统的 K2m ean s聚类方法未曾考虑各n 2 ′2 ′类之间方差不等的情况 。从图 1 可以预期 ,在各类方 ( ) ( )? x - c / n S =2 k j k j S k′x?A , j = 1 k 差悬殊的情况下 , K2m ean s法的错误率会比较大 。故 ′(表示与类 k 中心距离最近的部分散点 作者其中 , A k 考虑在聚类过程中引入方差 。) 的计算机模拟研究发现 , 取 80 %较为理想 所分布的 2 改进 K2m ean s方法的阐述′空间范围 ; x表示属于 A 的样品点 ; x表示样品点 x 在 k j 2. 1 基本思想 不同的类相似度可能不同 。故在计算变量 j上的取值; c 表示类 k的中心点在变量 j上的取 k j 样品与类的 ′′值 ; n表示 A内的样本数。 S k k 距离时 ,依据类内相似度的大小为其赋予相应的权重 。根据方差 , 可以得到权重 : 类内相似度可以通过类内方差 的大 小来 度 量 。方 差 2 ′ ( )w = 1 / S3 k k大 ,说明类内相似度比较小 ; 方差小 ,则说明类内相似 进而可以得到前面所提到的距离的计算方式 : 度比较大 。当类内相似度比较大时 ,为样品与类之间 n 2 k 2 ( )d( )= w 〃? x- c 4 ( )i, kk ij j 的欧氏距离赋予较大的权重 ;当类内相似度比较小时 ,j = 1 2. 3 算法实现 为其赋予较小的权重 。故将权重定义为方差的倒数 。 2. 2 算法描述采用 SA S软件编写改进的 K2m ean s法 的实 现 程 ?按照步骤 ?所形成的类 , 更新每个类的中心点 ,因子 ,分别为疲劳状况 、食欲不振 、腹泻 、肌肉酸痛 、淋 巴结肿胀 、咽喉疼痛 、胸闷 、微循环不良 、内分泌紊乱 并计算各类的修正方差 。 性功能减退以及精神症状 。以各因子的总分为标准将?重复执行步骤 ?和步骤 ?。当各类中心点的位 () ,总分小于 10分者为健康状态良好研究对象分为两类 臵不再变动时 位臵改变量 < 0. 0001 , 循环终止 。 组 ,总分大于等于 10分者为健康状态欠佳组 。具体流程如图 3所示 。 4 结果 对两组人群基本情况的描述见表 1。表 1 显示两组人群方差相差悬殊 。分别采用改进的 K2m ean s法 和传统的 K2m ean s法将研究对象按照健康状况分为两 类 。聚类分析结果显示 : 改进的 K2m ean s法与实际分 () 类具有一致性 见表 2 ,传统的 K2m ean s法与实际分 () 类也具有一致性 见表 3 。然而 ,改进的 K2m ean s法 分类正确率 96. 1 %高于传统的 K2m ean s法分类正确 率 91. 6 % ,前者的 Kapp a系数也高于后者 。 表 1 两类健康状态人群各因子的得分 健康状态良好者得分 健康状态欠佳者得分 因子 均数 标准差 均数 标准差 b0. 57 . 70 . 00 . 17 0211 b0. 25 0. 67 1. 78 1. 28 2 b0. 19 0. 44 1. 52 1. 20 3 b4 0. 85 1. 07 2. 04 1. 36 b5 0. 50 0. 68 1. 96 0. 71 b6 0. 18 0. 43 0. 96 0. 71 b7 0. 46 0. 78 1. 91 1. 20 b8 0. 59 0. 87 1. 87 1. 18 b 90. 30 0. 64 1. 65 1. 37 b10 0. 42 0. 79 1. 39 1. 20 b0. 10 0. 33 0. 91 1. 12 11 表 2 改进的 K2m ean s法分类结果与实际分类的比较 ( )改进的 K2m ean s法 % 实际分类 合计 良好 欠佳 ( )( )127 81. 4 0 0. 0 127 良好 ( )( )欠佳6 3. 8 23 14. 7 29 133 23 156 合计 Kappa = 0. 862, P < 0. 001 ,正确率为 96. 1 % 。 表 3传统 K2m ean s法分类结果与实际分类的比较 ( )传统 K2m ean s法 % 实际分类 合计 良好 欠佳 ( )( )114 73. 1 13 8. 3 127 良好 ( )( ) 0 0. 0 29 18. 5 29 欠佳图 3 改进 K2m ean s法的算法流程图 114 42 156 合计 2. 4 聚类效果的评价 Kappa = 0. 765, P < 0. 001 ,正确率为 91. 6 % 。 5 讨论 参 考 文 献 本研究主要针对传统 K2m ean s法对于方差相差悬 [ 1 ] Ste in ley D. K2m ean s c lu ste ring: A ha lf2cen tu ry syn the sis[ J ]. B ritish 殊的类进行聚类时效果不佳的问题 ,提出一种改进的 Jou rna l of M a them a tica l and Sta tistical P sycho logy, 2006 , 59: 1 234. K2m ean s法 。该 法 考 虑 到 不 同 类 内 相 似 度 不 同 的 情 [ 2 ] 谭勇荣 ,秋生. 一个基于 K2m ean s的聚类算法的实现 [ J ]. 湖北民 况 ,提出了散点与类间距离的修正方法 ,采用“相对距 ( ) 族学院学报 , 2004 , 22 1 : 69 271. [ 3 ] H uang Z. Exten sion s to the K2M ean s A lgo rithm fo r C lu stering L arge 离 ”代替传统 K2m ean s法所采用的“绝对距离 ”。对于 D a ta Se ts w ith Ca tego rica l V alue s [ J ]. D a ta M in ing and Know ledge 部分位于两类“中间地带 ”的散点 ,传统的 K2m ean s法 D iscovery, 1998 , 2: 283 2304. 会因其与类 ?的“绝对距离 ”略近于类 ?而将其划归 [ 4 ] 李飞 ,薛彬 ,黄亚楼. 初始中心优化的 K2M ean s聚类算法 [ J ]. 计 ( ) 算机科学 , 2002 , 29 7 : 94 296.为类 ?。本文所提出的改进的 K2m ean s法则考虑类内 [ 5 ] Yu2fang Zhang, J ia2li M ao Z X. AN EFF IC IEN T CLU STER IN G AL 2 变异度的大小 ,按照其与各类“相对距离 ”的大小将其 GOR ITHM [ C ]. P roceed ings of the Second In ternationa l Confe rence 进行归类 ,使散点与类中心间距离的计算更合理 ,从而 on M ach ine L earn ing and Cybe rne tics, X i′an, 2003. [ 6 ] 陈慧萍 , 贺会景 ,陈岚峰 ,等. 基于模拟退火思想的优化 K2m ean s提高了聚类的正确率 。经类别明确的实例验证 ,聚类 ( ) 算法 [ J ]. 河海大学常州分校学报 , 2006 , 20 4 : 29 232.结果更符合实际情形 。须指出的是 ,作者在实例分析 袁方 ,周志勇 , 宋鑫. 初始聚类中心优化的 K2m ean s算法 [ J ]. 计 [ 7 ] 中假定资料服从正态分布 ,当类间的方差相差悬殊时 , ( ) 算机工程 , 2007 , 33 3 : 65 266. [ 8 ] 万志华 ,欧阳为民 ,张平庸. 一种基于划分的动态聚类算法 [ J ]. 改进的 K2m ean s法优于传统 K2m ean s法的聚类效果 。 ( ) 计算机工程与设计 , 2005 , 26 1 : 177 2179.计算机模拟过程及结果讨论 ,作者将另文给出 。此外 , [ 9 ] 张尧庭 , 方开泰. 多元统计分析引 论 [ M ]. 北京 : 科 学出 版社 ,改进 K2m ean s法应用于多个维度以及多个分类的情况 1982. () 收稿日期 : 2007 210 209; 修回日期 : 2007 212 210 下效果如何 ,需进一步探讨 。 医 院 业 务 收 入 增 长 因 素 分 析 戴剑坤 【摘要 】 目的 探讨和研究影响医院业务收入增长的主要因素 。方法 运用因素指数分析法 ,通过对我院 2005 年 和 2006年业务收入的变动因素进行分析 ,确定医院业务收入的变动程度和方向 。结果 医院业务收入的增长主要受门 诊和住院工作量的影响 ,其次受人均费用的影响 。结论 我院业务收入的增长呈健康发展态势 。 【关键词 】 业务收入 增长因素 指数分析 ( ) 中图分类号 : R195. 1 文献标识码 : A 文章编号 : 100625253 200801 20012 202 [ 1 ] W TO 和新的社会环境对医疗行业的影响 ,程度 ,以进一步 规范 编程规范下载gsp规范下载钢格栅规范下载警徽规范下载建设厅规范下载 医疗行为 、合理创收 ,加强对影响业务收 随着我国加入 [ 2 ] 医院将面对巨大的挑战 。医疗市场的逐步开放会导致市场的 入可控因素的管理 ,为医院优化决策提供准确信息和科学依 重新划分和资源重组 ,医疗体制的改革会从根本上改变医院的 据 。 运行机制 ,高新技术 与 设 备 的 引 进 会 导 致 医 院 运 营 成 本 的 增 1 资料与方法 1. 1 资料来源于我院 2005 年 、2006 年财务报表和统计报表 ,加 ,医院的医疗行为会受到多方约束 ,患者对医疗质量 、服务水 平和费用的关注将会加强 。本文就我院 2006 年业务收入因素 数据真实可靠 ,见表 1。 进行分析 ,探讨工作量 、单位平均费用变动对医院收入的影响 表 1 2005—2006年业务收入情况 工作量 人均费用 /元 业务收入 /元 2005 年 2006 年 2005 年 2006 年 2005 年 2006 年 假定期 Q Q PPPQ PQ PQ 01010 01 10 1 192 677 182 563 58. 58 . 44 . 66 . 72 . 54 7111 287 01913 042 30110 694 541门诊 11 053 12 966 2 116. 90 2 107. 90 23 398 096. 70 27 331 031. 40 27 447 725. 40 住院 34 685 114. 36 40 373 332. 12 38 142 266. 94 合计 作者单位 : 655331 沾益县人民医院 云南省
本文档为【欧氏距离的加权处理对K_means法聚类效果的改进】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
is_637320
暂无简介~
格式:doc
大小:70KB
软件:Word
页数:11
分类:生活休闲
上传时间:2017-11-13
浏览量:44