第二讲聚类Kmeans算法跟运用 (K-means cluster)

第二讲聚类Kmeans算法跟运用 (K-means cluster)CLEMENTINECLEMENTINE1212----SEGMENTATIONSEGMENTATION（（KK--MEANSMEANS））何谓集群分析何谓集群分析((CLUSTERINGCLUSTERINGANALYSISANALYSIS))集群分析是一种将样本观察值进行分析，具有某些共同特性者予以整合在一起，再将之分配到特定的群体，最后形成许多不同集群的一种分析方法。Clementine12.0中提供的集群分析方法有三种：1.K-means2.Two-step3.KohonenKK--MEANSMEANS的理论...

CLEMENTINECLEMENTINE1212----SEGMENTATIONSEGMENTATION（（KK--MEANSMEANS））何谓集群分析何谓集群分析((CLUSTERINGCLUSTERINGANALYSISANALYSIS))集群分析是一种将样本观察值进行分析，具有某些共同特性者予以整合在一起，再将之分配到特定的群体，最后形成许多不同集群的一种分析方法。Clementine12.0中提供的集群分析方法有三种：1.K-means2.Two-step3.KohonenKK--MEANSMEANS的理论背景的理论背景K-Means是集群分析(ClusterAnalysis)中一种非阶层式((Nonhierarchical))的演算方法，由J.B.MacQueen于1967年正式发表，也是最早的组群化计算技术。其中，非阶层式则是指在各阶段分群过程中，将原有的集群予以打散，并重新形成新的集群。K-Means是一种前设式群集算法，也就是说必须事前设定群集的数量，然后根据此设定找出最佳群集结构。而K-Means算法最主要的概念就是以集群内资料平均值为集群的中心。KK--MEANSMEANS演算步骤演算步骤设定K值计算距離并分群重新找寻新的中心点重新计算新的距離并分群KK--MEANSMEANS演算步骤演算步骤不断重复步骤三四，直到所设计的停止条件发生。一般是以没有任何对象变换所属集群为停止绦件，也就是所谓的square-errorcriterion：代表集群的中心(平均数)，是集群内的物件，则代表集群。210iKipCiEpm=Î=-=ååimipiiCiKK--MEANSMEANS的基本需求与优缺点的基本需求与优缺点建立K-means模型的要求：需要一个以上的In字段。方向为Out、Both、None的字段将被忽略。优点：建立K-means模型不需要分组数据。对于大型数据集，K-means模型常常是最快的分群方法。缺点：对于初始值的选择相当敏感，选择不同的初始值，可能会导致不同的分群结果。基本操作介绍基本操作介绍模型名称Auto：选择该选项后，模型名称将为“Kmeans”Custom：选择该选项为可以在后面输入用户定义的模型名称。使用分割数据：如果用户定义了分割数据集，选择训练集作为建模数据集，并利用测试集对模型评价指定生成的群数，默认值为5生成距离字段：如果选择了这一项，生成模型将包括一个具有每个记录与其所属集群中心距离的字段。显示群集邻近距离（Showclusterproximity）：选择该选项以在生成模型的输出结果中包含集群中心距离。显示集群（Clusterdisplay）：指定生成集群类别字段的格式。类别可以用String（字符）表示，使用指定的Labelprefix（标签前缀）（如“cluster1”、“cluster2”），或者用Number（数字）表示。优化（Optimize）：提高算法效率的选项，具体有两种方式：*速度（speed）：选择Speed使算法执行加快，但是占用更多的内存。*内存（memory）：选择Memory使执行速度减慢，但是节约内存。ExpertExpert操作介绍操作介绍对集合字段元重新编码（Encodingvalueforsets）：指定0到1.0之间的一个值用于把集合字段元重新编码成一组数值型字段。默认值是0.5的平方根（大约为0.707107），以为重编码后的旗标变量字段提供合适的加权。值越接近1.0，集合型字段元权重越比数值型字段大。停止条件（Stopon）：指定训练模型的终止准则。*Default:（预设）终止准则是迭代20次或者差异<0.000001,其中任一项达到就停止。*Custom:指定自己的终止准则。最大迭代次数（MaximumIterations）：该选项允许在迭代指定次数后终止训练。调节容忍度（Changetolerance）：该选项允许在一次迭代中类中心之间的最大差异小于指定水平时终止训练。实例应用实例应用------资料介绍资料介绍现有资料drink.sav，收集了16种饮料的热量（calorie）、咖啡因（caffeine）、钠（sodium）及价格（price）四个变数的值。现在希望利用这四个变量对这16种饮料进行聚类。实例应用实例应用------ 流程图流程图实例应用实例应用------TYPETYPE节点节点此数据的输入字段皆为连续型的数据。实例应用实例应用------KK--MEANSMEANS设置节点设置节点在此设定为3群。实例应用实例应用------金块（金块（MODELMODEL））数据流建立后，执行该数据流，结果与以k-means同名的结点显示在管理器的models窗口中，浏览该结点，点击窗口上的model按钮中的expandall按钮可以得到详细的分类信息，如图：（可见数据被分为三类，每类的字段分别为2，7，7）此图包含了k-means集群的详细信息，每个集群都被贴了标签（cluster1至cluster3）且有每个类的记录，在每个集群中各个变量数据的均值，标准值,还有每个集群中心和其他集群中心的距离。实例应用实例应用------金块（金块（VIEWERVIEWER））纵向看图表显示了各个变量对所在集群所作的贡献，横看是每个变量在集群分析中对各个集群所作的贡献，图表右边有表示各个变量在集群分析中的重要性，可以看到第二和第三个变量相对其他两个变量比较重要，对集群分析结果的影响比较大。实例应用实例应用------金金块块（（SUMMARYSUMMARY））summary包括关于训练数据的信息，估计过程，及由模型定义的类。当用户第一次浏览一个生成的K-Means节点时，Summary结果一开始是消失的。为了看所感兴趣的结果，使用该项目左边的扩展控件来展示结果，或使用ExpandAll按钮来展示所有结果。相反地，使用扩展控件来使用户所想要隐藏的特定结果隐藏，或使用CollapseAll按钮来使所有结果隐藏。THEEND!!!

                    本文档为【第二讲  聚类Kmeans算法跟运用 (K-means cluster)】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：￥30.0 已有0 人下载

立即下载

第二讲 聚类Kmeans算法跟运用 (K-means cluster)

你可能还喜欢

第二讲聚类Kmeans算法跟运用 (K-means cluster)