基于进化策略的K-means聚类算法

基于进化策略的K-means聚类算法基于进化策略的K-means聚类算法第3卷第3期江南大学(自然科学版) 2004年6月JournalofSouthernYangtzeUniversity(NaturalScienceEdition) VoI.3No.3 Ju2004 文章?号:1671--7147(2004)03—0245—04 基于进化策略的K—means聚类算法阎岭,蒋静坪 (浙江大学电气工程学院,浙江杭州310027) 摘要:针对K—means聚类算法易陷入局部极小以及K值选取的问题,提出一类基于进化策略的可以有...

基于进化策略的K-means聚类算法第3卷第3期江南大学(自然科学版) 2004年6月JournalofSouthernYangtzeUniversity(NaturalScienceEdition) VoI.3No.3 Ju2004 文章?号:1671--7147(2004)03—0245—04 基于进化策略的K—means聚类算法阎岭,蒋静坪 (浙江大学电气工程学院,浙江杭州310027) 摘要:针对K—means聚类算法易陷入局部极小以及K值选取的问题,提出一类基于进化策略的可以有效地搜索最优聚类中心和聚类个数K;还提出了确定K值范围的聚类算法, 经验公式,以减小搜索空间,提高搜索效率,并给出了理论分析.相对遗传算法而言,本方法鳊码简单,种群较小. 对Fisher'siris数据集的仿真实验表明,该方法得到最优解的可能性比经典算法大得多. 关键词:进化策略;K-means聚类;全局最优中圈分类号:TP301.6文献标识码:A K-meansClusteringBasedonEvolutionStrategy YANLing.JIANGJing—ping (CollegeofElectricalEngineering.ZhejiangUniversity.Ha~gzhou310027.China) Abstract:K— meansclusteringhastWOdisadvantages.Thefirstoneiseasytobetrappedinlocal minimum,andtheanotheroneisdifficulttodeterminethenumberofclustersK.Toaddressthe problems,thepaperproposes3newK— meansalgorithmsbasedonEvolutionStrategy.Theyown theeasiercodingschemeandthesmallerpopulationthanGeneticAlgorithm.Thesealgorith ms areappliedtoclusterFisherSirisdatasetandworkverywell,especiallywhenthepriori Knowledgeareinsufficient. Keywords:evolutionstrategy;K-meansclustering;globaloptimum K-means聚类算法简单有效,已经应用到许多领域,包括模式识别,图像和语音数据压缩,径向基神经网络学习算法等.但是,该算法本质上是一种局部搜索技术,它采用所谓的爬山法(hill-climbing) 来搜寻最优解,因此必然会存在局部极小的问题. 而且,目前没有较好的方法来确定K值,这对聚类效果会产生较大的影响. 进化计算(EC),包括遗传算法(GA),进化策略 (ES),进化规划(EP),是一种模拟自然随机优化算法,不依赖对象的数学模型,具有全局搜索能力,已经成功应用于多种优化问题[1].文Ez]应用遗传算法优化聚类算法,效果较好,但是仍然需要试凑K 值;而且遗传编码的选择也是一个较难解决的问题.如果选用常规的二进制编码,染色体的长度会随着维数的增加或精度的提高而显着增加.如果选用其他的编码方式,会导致算法的复杂,这无疑会影响GA的有效性.采用ES进行聚类分析的研究相对较少.由于ES采用实数直接编码,以及处理约束的简单性,使得ES优化聚类算法更为简单有效. 作者提出了基于进化策略的K-means聚类算收撬日期:2003一ll一27I修订日期;2004—03—10. 作奢筒介:阎岭(1976一).男.山东德州人.控制理论与控制工程专业博士研究生. 蒋静坪(1935一),男,浙江宁波人.教授.博士生导师.主要从】|'进化计算.智能控制与机器人控制. 246江南大学(自然科学版)第3卷法,可以自动搜索最佳的聚类数K.进化策略可以全局搜索,具备较强的局部极值逃逸能力;而且,对于初始值不敏感.作者还提出了确定K取值范围的经验公式,可以有效减小搜索空间,提高搜索效率. 1K—means聚类算法设R是P维实数集x一(z.,z.,…,z)是任一有限数据集,K-means聚类算法的目标函数是 n上 J一??(1) 其中:d—IIz—c0为第个数据点到第i个聚类中心的距离;c.,c.,…,是K个聚类中心,c? Rp,?(0,1),表示第个数据属于(一1)或不属于(一0)第i类. 其步骤为:任意选定一组K个初始聚类中心,按欧氏距离把x一(z.,z.,…,z)分到K类中去; 重新计算每一类的均值,即聚类中心,直到中心不再发生改变.显然,该算法无法确定K值,存在局部极小的问题,而且与初始聚类中心的选择有极大的相关性. 2基于进化策略的聚类算法应用ES而不是GA主要是基于两点考虑.其一是ES是实数直接编码的,因此目标向量的长度仅随着待优化变量数目的增长而线性地增长.如果采用常规的GA二进制编码,目标向量的长度会增加到难以忍受的程度.其二是ES处理约束问题比较容易,可以保证该算法能够搜索更大的参数空间.但是这并不意味着认为进化策略优于遗传算法或者相反,正如NFL定理指出的那样,无法设计出一种算法,在解决所有优化问题的时候,都优于其他算法,而只能认为该算法在此领域占有优势乳. 2.1进化策略简介 ES是一种简单高效的启发式多点随机搜索算法,它更倾向于应用进化论中变异和选择的概念. 不断地变异和选择,使群体的适应度不断提高,最终得到最优的个体.由于本文中待优化变量包括实数和整数,所以采用了一种稍加变化的(,)一ES 算法[5].简述如下: (,)一ES一(I,,;m,s,盯;f,g)(2) 其中,I是由实数和整数组成的向量,代表种群中的一个个体;和分别表示父代和子代的个数; ,,l是变异算子,即ES中的主要算子;s代表选择的方只能从个子代中选取;盯法,在这里下一代的父代, 是变异步长,在ES算法中,不仅仅变量变异,变异步长盯也要进行变异;f是目标函数;g是约束条件. 目标参数和步长参数的变异公式如下: i一?exp(rl?N(0,1)+r2?Nf(0,1)), i一1,2…,Q(3) I,i—+f*N(0,1), i一1,2…,Ql(4) I,一+ko*N(0,1)j, i—Ql+1,Ql+2,…,Q(5) 其中,N(0,1)和N(0,1)是0均值, 标准差为1 的正态分布随机数;Q.是实数值目标参数的个数; Q—Q.是整数值目标参数的个数,L]是取整符号.r. 是标准差向量盯的整体步长参数,r.是盯的每个分量盯的步长参数. 为了更好地获得全局最优解,当盯变得非常小时,给它重新赋一个初值1,增强它跳出局部极小的能力.同时,在每一次进化过程中,记录迄今最优的个体,但不参加下一代的竞争. 2.2给定K值时的进化编码和适值函数的建立为简单起见,首先考虑给定K值时的进化聚类算法.对于聚类的参数的编码,有两种方式.在第一种方式中,设个数据要分成K类,每个个体Ij一 (i,…,i)是一个整数串,表示一种分类结果, 其中?(1,2,…K),表示第,1个数据属于第i 类.变异产生的子代,表示新产生的分类组合.计算每一类的均值,得到聚类中心.当达到给定的性能指标时,算法结束.在第二种方案中,每个个体i,一 (i,,…,)是一个实数串,表示K个数据聚类中心.变异产生的子代,表示新的聚类中心. 对于两种方案,均选用相同的适值函数: .K" ??一c0. F一半土兰———一(6)?0 c一c0. …p?^ (6)式的意义是:同一类的输入样本与聚类中心的欧式距离越近,不同聚类中心的欧式距离越远,则聚类结果的合理性越好.进化策略的任务是搜索适值函数F的最小值.进化策略的流程如图1所示. 2.3未给定K值时的进化编码和适值函数的建立在实际应用中,尤其在先验知识不足的情况下,很难得到一个较好的K值,传统的K均值聚类只能用试凑的方法人为地指定K值,这一点对聚类结果的精度影响很大.因此,作者提出,在搜索聚类中心的同时,也应该搜索K值.其编码方式为:在第一种聚类方案的基础上,在每个个体Ii中增加一个分量f,即 If一{,,,…,)(7) 第3期阎岭等:基于进化策略的K—means聚类算法247 Ii是一个整数串,表示一种分类结果,其中f.=矗, 表示聚类个数;其余各个分量与未给定K值编码方式的含义相同,只是其取值范围会根据K值的变化而相应地改变.搜索空间为?k"个点.'=1 初始化父代个体根mO)-(s)式进行产生子代个体变异. 据编码方式得到聚类方案计算适值函数.选取最优和次优个体作为新的父代.保留最优值是否达到给定\Y / JrNl 是否达到给定\YJ,.. 的繁衍代数?l爆曩0' 圈1进化策略的流程脚1AflowchartofevoluUonclustering 2.4提高搜索效率的经验公式众所周知,进化算法是一种随机搜索算法,效率较低.如果能缩小搜索空间,就能够有效地提高搜索效率.因此提出如下经验公式: 2?K?Lj(8) 厶 (8)式的意义是,对于大多数实际问题,最少分为2 类,否则就失去了聚类的意义;最大分为L昙j类,即厶平均最少每l类有2个数据,否则无实际意义.下面对于(8)式的作用给出理论分析: 不失一般性,只考虑样本数,z为偶数的情况,,z 为奇数时推导过程类似. 引理若口?0且bi>0(—l,2,…,,1),则满足 ?n一一证}= ?b'i=1 口l+口2+…+口一 bl+b2+…+b 口lI口2I bl+b2+…+b.bl+b2+…+b. … +—1——牟—(9).bl+b2+…+b… ?{?0且bf>0(=1,2,…,,1) . ? . ?...+ i=1 E一毕. 令m号,则根据(8)式给定K值范围后,搜索空间有?k"个点.其与?k"的比值为t=2t=1 ?k"t一2一 ?k"一1'一1 ?k"?[+(矗+m)"]'=1t=1 根据引理和(9)式得到 ?+(矗+)"]'一1 ? ?? (9) 皇==:|]...:土兰!.f101 k"+(2矗)"l+2"8(1+2")… (10)式表明,利用(8)式,搜索空间会显着减小,尤其是当,z较大的时候.例如,设数据样本数为2O,代入(1O)式可得缩小范围后搜索空间的点数小于原当,l更大时,这个比例会更来的0.0052.显然, 小.因此,(8)式可以有效地提高搜索效率.实际上 (8)式估计仍然过于保守,尤其对于,z较大的情况, 该范围可以进一步缩小,以减小搜索空间,提高算法收敛的速度.当然,(8)式只是根据众多实际情况归纳出的一个经验公式,理论上存在不满足(8)式的可能.因此作者建议,进行运算时,首先应用(8) 式确定K值的范围,然后搜索最优个体;如果无法收敛,则去掉(8)式,K值的范围确定为l,,z,重新搜索最优个体. 2.5仿真实例及分析 1920年前后,植物学家收集了3种虹膜(鸢尾属植物),每种5O个,共计150个样本的数据,包括萼片长度,宽度和花瓣的长度,即着名的Fishers iris数据集.这些数据的分类结果是已知的,有助于各种方法之间进行比较. 为了便于比较,分别采用传统的K均值聚类和上述3种基于进化策略的聚类方法,对Fisher'siris 一 ? ? 一 ?? 248江南大学(自然科学版)第3卷数据集各做了1O次仿真,仿真结果见表1.其中采远远小于一般遗传算法的种群规模. 用进化策略的地方,父代个数为2,子代个数为14, 表1仿真结果 Tab.1SimuIntionresult 进化策略可以搜索出全局最从表1可以看出, 优解,结果比较稳定.而传统的聚类方法则有两次落人局部极小.但是进化策略所需要的进化代数较多,其中,在给定K值的情况下,分别是传统聚类方法的迭代次数的17.82和25.17倍.在未给定K值的情况下,第3种方法可以自动搜索出最佳的K_-- 3,进化代数是传统方法迭代次数的221.78倍.但是为了得到一个可靠的结果,在实时性要求不强的情况下,该方法还是具有较大的优越性. 3结语本文通过简述了K—means聚类的不足,提出了参考文献: 两种给定K值时的基于进化策略的聚类算法,较好地解决了局部极小的问题;针对K值选取的问题, 提出了可同时寻优K值的基于进化策略的聚类算法,可搜索到最优K值,使得类内距最小,类外距最大.并且给出确定K取值范围的经验公式,可有效减小搜索空间,提高搜索效率.相对于遗传算法,本法也具有编码简单,种群小的特点.通过对Fishers iris数据集的仿真实验,表明该算法是有效的.但是该方法也存在一些不足,所需要的进化代数较多, 只适用于对实时性要求不高的场合. [1]BACKT.Paralleloptimizationofevolutionalgorithms[R].ParallelProblemSolvingfro mNature-ppSNm.Jerusalem. 1994.' [2]刘健庄,谢维信,黄建军.等.聚类分析的遗传算法方法D].电子.1995.23(11):81—83. [3]李敏强.寇纪淞.林丹.等.遗传算法的基本理论与应用[M].北京:科学出版社,2002. [4]WOLPERTDH.MACREADYWG.Nofreelunchtheoremsforoptimization[J].IEEET~ rtion蚰Evolutionm'y (~mputation?1997.1(1):67—82. [5]JINYAOCHU.KnowledgeinEvolutionaryLearningSystems[M].Aachen:ShakerVerla g.2001. (责任编辑:秦和平,彭守敏)

                    本文档为【基于进化策略的K-means聚类算法】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

基于进化策略的K-means聚类算法

你可能还喜欢