数据挖掘_习题及参考答案

数据挖掘_习题及参考答案第1页共27页习题参考答案第1章绪论1.1数据挖掘处理的对象有哪些？请从实际生活中举出至少三种。答：数据挖掘处理的对象是某一专业领域中积累的数据，对象既可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同,可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web数据信息。实际生活的例子：①电信行业中利用数据挖掘技术进行客户行为分析，包含客户通话记录、通话时间、所开通的服务...

第1页共27页习题参考答案第1章绪论1.1数据挖掘处理的对象有哪些？请从实际生活中举出至少三种。答：数据挖掘处理的对象是某一专业领域中积累的数据，对象既可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同,可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web数据信息。实际生活的例子：①电信行业中利用数据挖掘技术进行客户行为分析，包含客户通话记录、通话时间、所开通的服务等，据此进行客户群体划分以及客户流失性分析。②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析，帮助天文学家发现其他未知星体。③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。④市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。1.2给出一个例子，说明数据挖掘对商务的成功是至关重要的。该商务需要什么样的数据挖掘功能？它们能够由数据查询处理或简单的统计分析来实现吗？答：例如，数据挖掘在电子商务中的客户关系管理起到了非常重要的作用。随着各个电子商务网站的建立，企业纷纷地从“产品导向”转向“客户导向”，如何在保持现有的客户同时吸引更多的客户、如何在客户群中发现潜在价值，一直都是电子商务企业重要任务。但是，传统的数据分析处理，如数据查询处理或简单的统计分析，只能在数据库中进行一些简单的数据查询和更新以及一些简单的数据计算操作，却无法从现有的大量数据中挖掘潜在的价值。而数据挖掘技术却能使用如聚类、关联分析、决策树和神经网络等多种方法，对数据库中庞大的数据进行挖掘分析，然后可以进行客户细分而提供个性化服务、可以利用挖掘到的历史流失客户的特征来防止客户流失、可以进行产品捆绑推荐等，从而使电子商务更好地进行客户关系管理，提高客户的忠诚度和满意度。1.3假定你是Big-University的软件工程师，任务是设计一个数据挖掘系统，分析学校课程数据库。该数据库包括如下信息：每个学生的姓名、地址和状态(例如，本科生或研究生)、所修课程，以及他们的GPA。描述你要选取的结构，该结构的每个成分的作用是什么？答：任务目的是分析课程数据库，那么首先需要有包含信息的关系型数据库系统，以便查找、提取每个属性的值；在取得数据后，需要有特征选择模块，通过特征选择，找出要分析的属性；接下来需要一个数据挖掘算法，或者数据挖掘软件，它应该包含像分类、聚类、关联分析这样的分析模块，对选择出来的特征值进行分析处理；在得到结果后，可以用可视化软件进行显示。1.4假定你作为一个数据挖掘顾问，受雇于一家因特网搜索引擎公司。通过特定的例子说明，数据挖掘可以为公司提供哪些帮助，如何使用聚类、分类、关联规则挖掘和离群点检测等技术为企业服务。答：(1)使用聚类发现互联网中的不同群体，用于网络社区发现；第2页共27页(2)使用分类对客户进行等级划分，从而实施不同的服务；(3)使用关联规则发现大型数据集中间存在的关系，用于推荐搜索。如大部分搜索了“广外”的人都会继续搜索“信息学院”，那么在搜索“广外”后会提示是否进进一步搜索“信息学院”。(4)使用离群点挖掘发现与大部分对象不同的对象，用于分析针对网络的秘密收集信息的攻击。1.5定义下列数据挖掘功能：关联、分类、聚类、演变分析、离群点检测。使用你熟悉的生活中的数据，给出每种数据挖掘功能的例子。答：关联是指发现样本间或样本不同属性间的关联。例如，一个数据挖掘系统可能发现的关联规则为：major(X,“computingscience”)⇒owns(X,“personalcomputer”)[support=12%,confidence=98%]其中，X是一个表示学生的变量。该规则指出主修计算机科学并且拥有一台个人计算机的学生所占比例为12%，同时，主修计算机专业的学生有98%拥有个人计算机。分类是构造一系列能描述和区分数据类型或概念的模型(或功能)，分类被用作预测目标数据的类的标签。例如，通过对过去银行客户流失与未流失客户数据的分析，得到一个预测模型，预测新客户是否可能会流失。聚类是将数据划分为相似对象组的过程，使得同一组中对象相似度最大而不同组中对象相似度最小。例如，通过对某大型超市客户购物数据进行聚类，将客户聚类细分为低值客户、高值客户以及普通客户等。数据演变分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析。离群点检测就是发现与众不同的数据。可用于发现金融领域的欺诈检测。1.6根据你的观察，描述一个可能的知识类型，它需要由数据挖掘方法发现，但本章未列出。它需要一种不同于本章列举的数据挖掘技术吗？答：建立一个局部的周期性作为一种新的知识类型，只要经过一段时间的偏移量在时间序列中重复发生，那么在这个知识类型中的模式是局部周期性的。需要一种新的数据挖掘技术解决这类问题。1.7讨论下列每项活动是否是数据挖掘任务：(1)根据性别划分公司的顾客。(2)根据可赢利性划分公司的顾客。(3)计算公司的总销售额。(4)按学生的标识号对学生数据库排序。(5)预测掷一对骰子的结果。(6)使用历史记录预测某公司未来的股票价格。(7)监视病人心率的异常变化。(8)监视地震活动的地震波。(9)提取声波的频率。答：(1)不是，这属于简单的数据库查询。(2)不是，这个简单的会计计算；但是新客户的利润预测则属于数据挖掘任务。(3)不是，还是简单的会计计算。第3页共27页(4)不是，这是简单的数据库查询。(5)不是，由于每一面都是同等概率，则属于概率计算；如概率是不同等的，根据历史数据预测结果则更类似于数据挖掘任务。(6)是，需要建立模型来预测股票价格，属于数据挖掘领域中的预测模型。可以使用回归来建模，或使用时间序列分析。(7)是，需要建立正常心率行为模型，并预警非正常心率行为。这属于数据挖掘领域的异常检测。若有正常和非正常心率行为样本，则可以看作一个分类问题。(8)是，需要建立与地震活动相关的不同波形的模型，并预警波形活动。属于数据挖掘领域的分类。(9)不是，属于信号处理。第2章数据处理基础2.1将下列属性分类成二元的、分类的或连续的，并将它们分类成定性的(标称的或序数的)或定量的(区间的或比率的)。例子：年龄。回答：分类的、定量的、比率的。(a)用AM和PM表示的时间。(b)根据曝光表测出的亮度。(c)根据人的判断测出的亮度。(d)医院中的病人数。(e) 书的ISBN号。(f)用每立方厘米表示的物质密度。答：(a)二元，定量，比率；(b)连续，定量，比率；(c)分类，定性，标称；(d)连续，定量，比率；(e)分类，定性，标称；(f)连续，定量，比率。2.2你能想象一种情况，标识号对于预测是有用的吗？答：学生的ID号可以预测该学生的毕业日期。2.3在现实世界的数据中，元组在某些属性上缺失值是常有的。请描述处理该问题的各种方法。答：处理遗漏值问题的策略有如下几种。(1)删除数据对象或属性。一种简单而有效的策略是删除具有遗漏值的数据对象。然而，即使部分给定的数据对象也包含一些信息，并且，如果许多对象都有遗漏值，则很难甚至不可能进行可靠的分析。尽管如此，如果一个数据集只有少量的对象具有遗漏值，则忽略他们可能是合算的。一种相关的策略是删除具有遗漏值的属性。然而，做这件事要小心，因为被删除的属性可能对分析是至关重要的。(2)估计遗漏值。有时，遗漏值可以可靠地估计。例如，在考虑以较平滑的方式变化的具有少量但大大分散的遗漏值的时间序列，遗漏值可以使用其他值来估计(插值)。作为另一个例子，考虑一个具有许多相似数据点的数据集。在这种情况下，与具有遗漏值的点邻近的点的属性值常常可以用来估计遗漏的值。如果属性是连续的，则可以使用最近邻的平均属性值；如果属性是分类的，则可以取最近邻中最常出现的第4页共27页属性值。(3)在分析时忽略遗漏值。许多数据挖掘方法都可以修改，忽略遗漏值。例如。假定正在对数据对象聚类，需要计算数据对象间的相似性；如果对于某属性，两个对象之一或两个对象都有遗漏值，则可以仅使用没有遗漏值的属性来计算相似性。当然，这种相似性只是紧邻的，但是除非整个属性数目很少，或者遗漏值的数量很大，否则这种误差影响不大。同样的，许多分类方法都可以修改，处理遗漏值。2.4以下规范方法的值域是什么？(a)min-max规范化。(b)z-score规范化。(c)小数定标规范化。答：(a)[new_min,new_max]；(b)(-∞,+∞)；(c)(-1.0，1.0)。2.5假定用于分析的数据包含属性age，数据元组中age的值如下(按递增序)：13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。(a)使用按箱平均值平滑对以上数据进行平滑，箱的深度为3。解释你的步骤。评论对于给定的数据，该技术的效果。(b)对于数据平滑，还有哪些其它方法？答：(a)已知数据元组中age的值如下(按递增序)：13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70，且箱的深度为3，划分为(等频)箱：箱1：13,15,16箱2：16,19,20箱3：20,21,22箱4：22,25,25箱5：25,25,30箱6：33,33,33箱7：35,35,35箱8：35,36,40箱9：45,46,52箱10：70用箱均值光滑：箱1：15,15,15箱2：18,18,18箱3：21,21,21箱4：24,24,24箱5：27,27,37箱6：33,33,33箱7：35,35,35箱8：37,37,37箱9：48,48,48箱10：70；第5页共27页(b)对于数据平滑，其它方法有：(1)回归：可以用一个函数(如回归函数)拟合数据来光滑数据；(2)聚类：可以通过聚类检测离群点，将类似的值组织成群或簇。直观地，落在簇集合之外的值视为离群点。2.6使用习题2.5给出的age数据，回答以下问题：(a)使用min-max规范化，将age值35转换到[0.0，1.0]区间。(b)使用z-score规范化转换age值35，其中，age的标准偏差为12.94年。(c)使用小数定标规范化转换age值35。(d)指出对于给定的数据，你愿意使用哪种方法。陈述你的理由。答：(a)已知最大值为70，最小值为13，则可将35规范化为：386.013-7013-35=；(b)已知均值为30，标准差为12.94，则可将35规范化为：386.04.91230-35=；(c)使用小数定标规范化可将35规范化为：35.010035=；(d)对于给定的数据，你愿意使用min-max规范化。理由是计算简单。2.7使用习题2.5给出的age数据(a)画一个宽度为10的等宽的直方图。(b)为以下每种抽样技术勾画例子：有放回简单随机抽样，无放回简单随机抽样，聚类抽样，分层抽样。使用大小为5的样本和层“青年”,“中年”和“老年”。答：(a)如下为宽度为10的等宽的直方图：(b)已知样本大小为5和层“青年”，“中年”和“老年”，(1)有放回简单随机抽样：30,33,30,25,30(2)无放回简单随机抽样：30,33,33,35,25(3)聚类抽样：16,25,33,35,46(4)分层抽样：25,35,522.8以下是一个商场所销售商品的价格清单(按递增顺序排列，括号中的数表示前面数字出现次数)1(2)、5(5)、8(2)、10(4)、12、14(3)、15(5)、18(8)、20(7)、21(4)、25(5)、28、30(3)。请分别用等宽的方法和等高的方法对上面的数据集进行划分。答：(1)等宽方法：划分为3个数据集，每个数据集的宽度为价格10。价格在1—10之间出现次数为13；价格在11—20之间出现的次数为24；价格在21—30之间出现的次数为13。(2)等高方法：划分为2个数据集，每个数据集的高度为出现的次数4。出现次数1—4第6页共27页之间的价格为1、8、10、12、14、21、28、30，共8个数据；出现次数5—8之间的价格为5、15、18、20、25，共5个数据。2.9讨论数据聚合需要考虑的问题。答：数据聚合需要考虑的问题有：(1)模式识别：这主要是实体识别问题；(2)冗余：一个属性是冗余的，即它能由另一个表导出，如果属性或维的命名不一致，也可能导致冗余，可以用相关分析来检测；(3)数据值冲突的检测与处理：有些属性因表示比例或编码不同，会导致属性不同。2.10假定我们对一个比率属性x使用平方根变换，得到一个新属性x*。作为分析的一部分，你识别出区间(a,b)，在该区间内，x*与另一个属性y具有线性关系。(a)换算成x,(a,b)的对应区间是什么？(b)给出y关联x的方程。答：(a)(a^2，b^2)；(b)Y=kx^0.5+C(k,C是常数)。2.11讨论使用抽样减少需要显示的数据对象个数的优缺点。简单随机抽样(无放回)是一种好的抽样方法吗？为什么是，为什么不是？答：抽样减少需要显示的数据对象个数的优点是减少处理数据的费用和时间。缺点是不能利用总体的已知信息和代表总体数据的信息。简单随机抽样(无放回)不是一种好的抽样方法，不能充分地代表不太频繁出现的对象类型和每个对象被选中的概率不一样。2.12给定m个对象的集合，这些对象划分成K组，其中第i组的大小为mi。如果目标是得到容量为n<m的样本，下面两种抽样方案有什么区别？(假定使用有放回抽样)(a)从每组随机地选择n×mi/m个元素。(b)从数据集中随机地选择n个元素，而不管对象属于哪个组。答：(a)组保证了可以在每个组里面得到等比例的样本，而(b)组在每个组里面抽取的样本的个数是随机的，不能保证每个组都能抽到样本。2.13一个地方公司的销售主管与你联系，他相信他已经设计出了一种评估顾客满意度的方法。他这样解释他的方案：“这太简单了，我简直不敢相信，以前竟然没有人想到，我只是记录顾客对每种产品的抱怨次数，我在数据挖掘的书中读到计数具有比率属性，因此，我的产品满意度度量必定具有比率属性。但是，当我根据我的顾客满意度度量评估产品并拿给老板看时，他说我忽略了显而易见的东西，说我的度量毫无价值。我想，他简直是疯了，因为我们的畅销产品满意度最差，因为对它的抱怨最多。你能帮助我摆平他吗？”(a)谁是对的，销售主管还是他的老板？如果你的答案是他的老板，你做些什么来修正满意度度量？(b)对于原来的产品满意度度量的属性类型，你能说些什么？答:(a)老板是对的。更好的衡量方法应该如下：不满意率(产品)=每种产品的抱怨次数/该产品的总销售量(b)原来衡量方法的属性类型是没有意义的。例如，两件商品有相同的顾客满意度可能会有不同的抱怨次数，反之亦然。第7页共27页2.14考虑一个文档-词矩阵，其中ijtf是第i个词(术语)出现在第j个文档中的频率，而m是文档数。考虑由下式定义的变量变换：iijijdfmtftflog'⋅=其中，idf是出现i个词的文档数，称作词的文档频率(documentfrequency)。该变换称作逆文档频率变换(inversedocumentfrequency)。(a)如果出现在一个文档中，该变换的结果是什么？如果术语出现在每个文档中呢？(b)该变换的目的可能是什么？答：(a)如果该词出现在每一个文档中，它的词权就会为0，但是如果这个词仅仅出现在一个文档中，它就有最大的词权，例如，logm。(b)这个变换反映了以下一个现象：当一个词出现在每一个文档中，对于文档与文档之间，该词没有区分能力，但是那些只是某一两篇文档出现的词，其区分文档的能力就较强。2.15对于下面的向量x和y，计算指定的相似性或距离度量。(a)x=(1，1，1，1)，y=(2，2，2，2)余弦相似度、相关系数、欧几里得。(b)x=(0，1，0，1)，y=(1，0，1，0)余弦相似度、相关系数、欧几里得、Jaccard系数。(c)x=(2，-1,0，2，0，-3)，y=(-1，1，-1，0，0，-1)余弦相似度、相关系数。答：(a)余弦相似度、相关系数、欧几里得分别是0.5，0，2；(b)余弦相似度、相关系数、欧几里得、Jaccard系数分别是0，1，2，0；(c)余弦相似度、相关系数分别是0，0。2.16简单地描述如何计算由以下类型的变量描述的对象间的相异度：(a)不对称的二元变量(b)分类变量(c)比例标度型(ratio-scaled)变量(d)数值型变量答：(a)使用Jaccard系数计算不对称的二元变量的相异度；(b)采用属性值匹配的方法(属性值匹配，相似度为1，否则为0)可以计算用分类变量描述的对象间的相异度；(c)对比例标度变量进行对数变换，对变换得到的值采用与处理区间标度变量相同的方法来计算相异度；(d)可采用欧几里得距离公式或曼哈顿距离公式计算。2.17给定两个向量对象，分别表示为p1(22，1，42，10)，p2(20，0，36，8)：(a)计算两个对象之间的欧几里得距离(b)计算两个对象之间的曼哈顿距离(c)计算两个对象之间的切比雪夫距离(d)计算两个对象之间的闵可夫斯基距离，用x=3答：(a)计算两个对象之间的欧几里得距离458103642012022222212=−+−+−+−=)()()()(d第8页共27页(b)计算两个对象之间的曼哈顿距离11810364201202212=−+−+−+−=||||||||d(c)计算两个对象之间的闵可夫斯基距离，其中参数r=3333333122338103642012022=−+−+−+−=||||||||d2.18以下表格包含了属性name，gender，trait-1，trait-2，trait-3，及trait-4，这里的name是对象的id，gender是一个对称的属性，剩余的trait属性是不对称的，描述了希望找到的笔友的个人特点。假设有一个服务是试图发现合适的笔友。namegendertrait-1trait-2trait-3trait-4KeavnMNPPNCarolineFNPPNErikMPNNP对不对称的属性的值，值P被设为1，值N被设为0。假设对象(潜在的笔友)间的距离是基于不对称变量来计算的。(a)计算对象间的简单匹配系数；(b)计算对象间的Jaccard系数；(c)你认为哪两个人将成为最佳笔友？哪两个会是最不能相容的？(d)假设我们将对称变量gender包含在我们的分析中。基于Jaccard系数，谁将是最和谐的一对？为什么？答：(a)计算对象间的简单匹配系数SMC(Keavn,Caroline)=(2+2)/(0+0+2+2)=1SMC(Keavn,Erik)=(0+0)/(2+2+0+0)=0SMC(Caroline,Erik)=(0+0)/(2+2+0+0)=0(b)计算对象间的Jaccard系数Jaccard(Keavn,Caroline)=2/(2+0+0)=1Jaccard(Keavn,Erik)=0/(0+2+2)=0Jaccard(Caroline,Erik)=0/(0+2+2)=0(c)根据属性的匹配程度，Keavn和Caroline将成为最佳笔友，Caroline和Erik会是最不能相容的。(d)若将对称变量gender包含在分析中，设值M被设为1，值F被设为0，Jaccard(Keavn,Caroline)=2/(2+1+0)=2/3Jaccard(Keavn,Erik)=1/(1+2+2)=1/5Jaccard(Caroline,Erik)=0/(0+2+3)=0因为Jaccard(Keavn,Caroline)最大，因此，Keavn和Caroline是最和谐的一对。2.19给定一个在区间[0，1]取值的相似性度量，描述两种将该相似度变换成区间[0，∞]中的相异度的方法。答：取倒数减一：1),(1),(−=qpsqpd第9页共27页取对数：)),(log(),(qpsqpd−=第3章分类与回归3.1简述决策树分类的主要步骤。答：决策树生成的过程如下：(1)对数据源进行数据预处理,得到训练集和测试集；(2)对训练集进行训练；(3)对初始决策树进行树剪枝；(4)由所得到的决策树提取分类规则；(5)使用测试数据集进行预测，评估决策树模型；3.2给定决策树，选项有：(1)将决策树转换成规则，然后对结果规则剪枝，或(2)对决策树剪枝，然后将剪枝后的树转换成规则。相对于(2)，(1)的优点是什么？答：相对于(2)，(1)的优点是：由于第一种方法已经将决策树转换成规则，通过规则，可以很快速的评估决策树以及其子树紧凑程度，不能提高规则的估计准确率的任何条件都可以减掉，从而泛化规则；3.3计算决策树算法在最坏情况下的时间复杂度是重要的。给定数据集D，具有m个属性和|D|个训练记录，证明决策树生长的计算时间最多为)log(DDm××。答：假设训练集拥有|D|实例以及m个属性。我们需要对树的尺寸做一个假设，假设树的深度是由log|D|决定，即O(log|D|)。考虑一个属性在树的所有节点上所要做的工作量。当然不必在每一个节点上考虑所有的实例。但在树的每一层，必须考虑含有|D|个实例的整个数据集。由于树有log|D|个不同的层，处理一个属性需要的工作量是)log(DD×。在每个节点上所有属性都要被考虑，因此总的工作量为)log(DDm××。3.4考虑表3-23所示二元分类问题的数据集。表3-23习题3.4数据集AB类标号TF+TT+TT+TF-TT+FF-FF-FF-TT-TF-(1)计算按照属性A和B划分时的信息增益。决策树归纳算法将会选择那个属性？(2)计算按照属性A和B划分时Gini系数。决策树归纳算法将会选择那个属性？第10页共27页答：按照属性A和B划分时，数据集可分为如下两种情况：A=TA=F+40-33(1)划分前样本集的信息熵为E=-0.4log20.4-0.6log20.6=0.9710按照属性A划分样本集分别得到的两个子集(A取值T和A取值F)的信息熵分别为:0.985273log7374log74E22TA=−−==030log3033log33E22FA=−−==按照属性A划分样本集得到的信息增益为：2813.0103107=−−=∆==FATAEEE按照属性B划分样本集分别得到的两个子集(B取值T和B取值F)的信息熵分别为:0.811341log4143log43E22TB=−−==0.650065log6561log61E22FB=−−==按照属性B划分样本集得到的信息增益为：0.2565106104=−−=∆==FBTBEEE因此，决策树归纳算法将会选择属性A。(2)划分前的Gini值为G=1-0.42-0.62=0.48按照属性A划分时Gini指标:0.489873741G22TA=−−==030331G22FA=−−==Gini增益0.1371103107=−−=∆==FATAGGG按照属性B划分时Gini指标:0.375043411G22TB=−−==0.27786561122=−−==FBGGini增益0.1633106104=−−=∆==FBTBGGG因此，决策树归纳算法将会选择属性B。3.5证明：将结点划分为更小的后续结点之后，结点熵不会增加。证明：根据定义可知，熵值越大，类分布越均匀；熵值越小，类分布越不平衡。假设原有的结点属于各个类的概率都相等，熵值为1，则分出来的后续结点在各个类上均匀分布，此时熵值为1，即熵值不变。假设原有的结点属于个各类的概率不等，因而分出来的B=TB=F+31-15第11页共27页后续结点不均匀地分布在各个类上，则此时的分类比原有的分类更不均匀，故熵值减少。3.6为什么朴素贝叶斯称为“朴素”？简述朴素贝叶斯分类的主要思想。答：朴素贝叶斯之所以称之为朴素是因为，它假设属性之间是相互独立的。朴素贝叶斯分类的主要思想为：利用贝叶斯定理，计算未知样本属于某个类标号值的概率，根据概率值的大小来决定未知样本的分类结果。(通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。)3.7考虑表3-24数据集，请完成以下问题：表3-24习题3.7数据集记录号ABC类1000+2001-3011-4011-5001+6101+7101-8101-9111+10101+(1)估计条件概率)|(+AP，)|(+BP，)|(+CP，)|(−AP，)|(−BP，)|(−CP。(2)根据(1)中的条件概率，使用朴素贝叶斯方法预测测试样本(A=0，B=1，C=0)的类标号；(3)使用Laplace估计方法，其中p=1/2，l=4，估计条件概率)|(+AP，)|(+BP，)|(+CP，)|(−AP，)|(−BP，)|(−CP。(4)同(2)，使用(3)中的条件概率(5)比较估计概率的两种方法，哪一种更好，为什么？答：(1))|(+AP=3/5)|(+BP=1/5)|(−AP=2/5)|(−BP=2/5)|(−CP=1(2)假设P(A=0,B=1,C=0)=K则K属于两个类的概率为：P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(+)/K=P(A=0|+)P(B|+)P(C=0|+)×P(+)/K=0.4×0.2×0.2×0.5/K=0.008/KP(-|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(-)/K=P(A=0|-)P(B|-)P(C=0|-)×P(-)/K=0.4×0.2×0×0.5/K=0/K则得到，此样本的类标号是+。第12页共27页(3)P(A|+)=(3+2)/(5+4)=5/9P(A|-)=(2+2)/(5+4)=4/9P(B|+)=(1+2)/(5+4)=1/3P(B|-)=(2+2)/(5+4)=4/9P(C|-)=(0+2)/(5+4)=2/9(4)假设P(A=0,B=1,C=0)=K则K属于两个类的概率为：P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(+)/K=P(A=0|+)P(B|+)P(C=0|+)×P(+)/K=(4/9)×(1/3)×(1/3)×0.5/K=0.0247/KP(-|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(-)/K=P(A=0|-)P(B|-)P(C=0|-)×P(-)/K=(5/9)×(4/9)×(2/9)×0.5/K=0.0274/K则得到，此样本的类标号是-。(5)当条件概率为0的时候，条件概率的预测用Laplace估计方法比较好，因为我们不想整个条件概率计算结果为0.3.8考虑表3-25中的一维数据集。表3-25习题3.8数据集X0.53.04.54.64.95.25.35.57.09.5Y--+++--+--根据1-最近邻、3-最近邻、5-最近邻、9-最近邻，对数据点x=5.0分类，使用多数表决。答：1-最近邻：+3-最近邻：-5-最近邻：+9-最近邻：-3.9表3-26的数据集包含两个属性X与Y，两个类标号“+”和“-”。每个属性取三个不同值策略：0,1或2。“+”类的概念是Y=1，“-”类的概念是X=0andX=2。表3-26习题3.9数据集实例数XY+-00010010002001001110021101000201001200220100第13页共27页(1)建立该数据集的决策树。该决策树能捕捉到“+”和“-”的概念吗？(2)决策树的准确率、精度、召回率和F1各是多少？(注意，精度、召回率和F1量均是对“+”类定义)(3)使用下面的代价函数建立新的决策树，新决策树能捕捉到“+”的概念么？+=−=+−−=+===jijijijiC,,10),(如果实例个数实例个数如果如果(提示：只需改变原决策树的结点。)答：(1)在数据集中有20个正样本和500个负样本，因此在根节点处错误率为52020)520500,52020max(1=−=E如果按照属性X划分，则：X=0X=1X=2+01010-2000300EX=0=0/310=0EX=1=0/10=0EX=2=10/31052010310105203100520100520200=×−×−×−=∆EX如果按照属性Y划分，则：Y=0Y=1Y=2+0200-200100200EY=0=0/200=0EY=1=20/120EY=2=0/200=0012020520120=×−=∆EX因此X被选为第一个分裂属性，因为X=0和X=1都是纯节点，所以使用Y属性去分割不纯节点X=2。Y=0节点包含100个负样本，Y=1节点包含10个正样本和100个负样本，Y=2节点包含100个负样本，所以子节点被标记为“—”。整个结果为：类标记=−=+其他,1,X(2)预测类+-+1010实际类-0500第14页共27页accuracy:520510=0.9808，precision:1010=1.0recall:2010=0.5，F-measure:5.00.10.15.02+∗∗=0.6666(3)由题可得代价矩阵为预测类+-+0500/20=25实际类-10决策树在(1)之后还有3个叶节点，X=2∧Y=0，X=2∧Y=1，X=2∧Y=2。其中X=2∧Y=1是不纯节点，误分类该节点为“+”类的代价为：10∗0+100∗1=100，误分该节点为“—”类的代价为：10∗25+100∗0=250。所以这些节点被标记为“+”类。分类结果为：()−=∧=∨=+=其他类标记121YXX3.10什么是提升？陈述它为何能提高决策树归纳的准确性？答：提升是指给每个训练元组赋予权重，迭代地学习k个分类器序列，学习得到分类器Mi之后，更新权重，使得其后的分类器Mi+1“更关注”Mi误分的训练元组，最终提升的分类器M*组合每个个体分类器，其中每个分类器投票的权重是其准确率的函数。在提升的过程中，训练元组的权重根据它们的分类情况调整，如果元组不正确地分类，则它的权重增加，如果元组正确分类，则它的权重减少。元组的权重反映对它们分类的困难程度，权重越高，越可能错误的分类。根据每个分类器的投票，如果一个分类器的误差率越低，提升就赋予它越高的表决权重。在建立分类器的时候，让具有更高表决权重的分类器对具有更高权重的元组进行分类，这样，建立了一个互补的分类器系列。所以能够提高分类的准确性。3.11表3-27给出课程数据库中学生的期中和期末考试成绩。表3-27习题3.11数据集期中考试期末考试XY72845063817774789490867559498379657733528874第15页共27页8190(1)绘制数据的散点图。X和Y看上去具有线性联系吗？(2)使用最小二乘法，由学生课程中成绩预测学生的期末成绩的方程式。(3)预测期中成绩为86分的学生的期末成绩。答：(1)数据图如下所示：0102030405060708090100020406080100系列1X和Y具有线性联系。(2)Y=a+b*Xa=Y0+b*X0b=(∑xiyi-nX0Y0)/(∑xi2-nX02)X0=(∑xi)/nY0=(∑yi)/n求得a=32.0279，b=0.5816。(3)由(2)中表可得，预测成绩为86分的学生的期末成绩为82.0455。3.12通过对预测变量变换，有些非线性回归模型可以转换成线性模型。指出如何将非线性回归方程βaxy=转换成可以用最小二乘法求解的线性回归方程。XYX*YX^2预测Y172846048518473.9031250633150250061.1079381776237656179.1375474785772547675.0663594908460883686.6983686756450739682.0455759492891348166.3423883796557688980.3007965775005422569.83191033521716108951.22071188746512774483.20871281907290656179.1375SUM8668886608865942第16页共27页答：令βxw=，对样本数据做变换),....,2,1(nixwii==β，利用(wi，Yi)(i=1，2，⋯，n)解出y=aw中的a，再代入βaxy=即得到y对x的回归方程。第4章聚类分析4.1什么是聚类？简单描述如下的聚类方法：划分方法，层次方法，基于密度的方法，基于模型的方法。为每类方法给出例子。答：聚类是将数据划分为相似对象组的过程，使得同一组中对象相似度最大而不同组中对象相似度最小。主要有以下几种类型方法：(1)划分方法给定一个有N个元组或者记录的数据集，分裂法将构造K个分组，每一个分组就代表一个聚类，K<N。而且这K个分组满足下列条件：第一，每一个分组至少包含一条记录；第二，每一条记录属于且仅属于一个分组(注意：这个要求在某些模糊聚类算法中可以放宽)；对于给定的K，算法首先给出一个初始的分组方法，以后通过反复迭代的方法改变分组，使得每一次改进之后的分组方案都较前一次好，而所谓好的标准就是：同一分组中的记录越近越好，而不同分组中的记录越远越好。使用这个基本思想的算法有：K-MEANS算法、K-MEDOIDS算法、CLARANS算法。(2)层次方法这种方法对给定的数据集进行层次似的分解，直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中，初始时每一个数据记录都组成一个单独的组，在接下来的迭代中，它把那些相互邻近的组合并成一个组，直到所有的记录组成一个分组或者某个条件满足为止。代表算法有：BIRCH算法、CURE算法、CHAMELEON算法等。(3)基于密度的方法基于密度的方法与其它方法的一个根本区别是：它不是基于各种各样的距离，而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是：只要一个区域中的点的密度大过某个阈值，就把它加到与之相近的聚类中去。代表算法有：DBSCAN算法、OPTICS算法、DENCLUE算法等。(4)基于模型的方法基于模型的方法给每一个聚类假定一个模型，然后去寻找能够很好的满足这个模型的数据。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在假定就是：目标数据集是由一系列的概率分布所决定的。基于模型的方法主要有两类：统计学方法和神经网络方法(SOM)。4.2假设数据挖掘的任务是将如下的8个点(用(x,y)代表位置)聚类为三个簇。A1(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C2(4,9)。距离函数是Euclidean函数。假设初始我们选择A1,B1和C1为每个簇的中心，用k-means算法来给出(a)在第一次循环执行后的三个簇中心；(b)最后的三个簇中心及簇包含的对象。答：(a)如图，第17页共27页(b)如图，4.3聚类被广泛地认为是一种重要的数据挖掘方法，有着广泛的应用。对如下的每种情况给出一个应用例子：(a)采用聚类作为主要的数据挖掘方法的应用；(b)采用聚类作为预处理工具，为其它数据挖掘任务作数据准备的应用。答：(a)如电子商务网站中的客户群划分。根据客户的个人信息、消费习惯、浏览行为等信息，计算客户之间的相似度，然后采用合适的聚类算法对所有客户进行类划分；基于得到的客户群信息，相关的店主可以制定相应的营销策略，如交叉销售，根据某个客户群中的其中一个客户的购买商品推荐给另外一个未曾购买此商品的客户。(b)如电子商务网站中的推荐系统。电子商务网站可以根据得到的客户群，采用关联规则或者隐马尔科夫模型对每个客户群生成消费习惯规则，检测客户的消费模式，这些规则或模式可以用于商品推荐。其中客户群可以通过聚类算法来预先处理获取得到。第18页共27页4.4假设你将在一个给定的区域分配一些自动取款机以满足需求。住宅区或工作区可以被聚类以便每个簇被分配一个ATM。但是，这个聚类可能被一些因素所约束，包括可能影响ATM可达性的桥梁，河流和公路的位置。其它的约束可能包括对形成一个区域的每个地域的ATM数目的限制。给定这些约束，怎样修改聚类算法来实现基于约束的聚类？答：约束的存在会使得原来被定义在同一个簇的对象之间的距离发生变化。这时可以考虑将这些约束因素融入到距离的计算公式中，如在存在桥梁、河流和公路的区域中，可通过对象之间的连通性以及路径来计算距离；而地域ATM数目的限制问题则可在聚类的初始化阶段解决，如在K-MEANS的初始化时，可根据区域的个数来确定簇个数K的值，然后所选择的初始化种子尽可能分布在距离各个ATM附近的地方。4.5给出一个数据集的例子，它包含三个自然簇。对于该数据集，k-means(几乎总是)能够发现正确的簇，但二分k-means不能。答：有三个完全一样的球型簇，三个簇的点的个数和分布密度以及位置均完全相同。其中两个簇关于第三个簇完全对称，则在k-means方法中可以很轻易找出这三个簇，但用二分k-means则会把处于对称中心的那个簇分成两半。4.6总SSE是每个属性的SSE之和。如果对于所有的簇，某变量的SSE都很低，这意味什么？如果只对一个簇很低呢？如果对所有的簇都很高？如果仅对一个簇高呢？如何使用每个变量的SSE信息改进聚类？答：(a)如果对于所有的簇，某属性的SSE都很低，那么该属性值变化不大，本质上等于常量，对数据的分组没什么用处。(b)如果某属性的SSE只对一个簇很低，那么该属性有助于该簇的定义。(c)如果对于所有的簇，某属性的SSE都很高，那么意味着该属性是噪声属性。(d)如果某属性的SSE仅对一个簇很高，那么该属性与定义该簇的属性提供的信息不一致。在少数情况下，由该属性定义的簇不同于由其他属性定义的簇，但是在某些情况下，这也意味着该属性不利于簇的定义。(e)消除簇之间具有小分辨力的属性，比如对于所有簇都是低或高SSE的属性，因为他们对聚类没有帮助。对于所有簇的SSE都高且相对其他属性来说SSE也很高的属性特别麻烦，因为这些属性在SSE的总和计算中引入了很多的噪声。4.7使用基于中心、邻近性和密度的方法，识别图4-19中的簇。对于每种情况指出簇个数，并简要给出你的理由。注意，明暗度或点数指明密度。如果有帮助的话，假定基于中心即K均值，基于邻近性即单链，而基于密度为DBSCAN。第19页共27页图4-19题4.7图答：(a)基于中心的方法有2个簇。矩形区域被分成两半，同时2个簇里都包含了噪声数据；基于邻近性的方法有1个簇。因为两个圆圈区域受噪声数据影响而形成一个簇；基于密度的方法有2个簇，每个圆圈区域代表一个簇，而噪声数据会被忽略。(b)基于中心的方法有1个簇，该簇包含图中的一个圆环和一个圆盘；基于邻近性的方法有2个簇，外部圆环代表一个簇，内层圆盘代表一个簇；基于密度的方法有2个簇，外部圆环代表一个簇，内层圆盘代表一个簇。(c)基于中心的方法有3个簇，每个三角形代表一个簇；基于邻近性的方法有1个簇，三个三角形区域会联合起来因为彼此相互接触；基于密度的方法有3个簇，每个三角形区域代表一个簇。即使三个三角形相互接触，但是所接触的区域的密度比三角形内的密度小。(d)基于中心的方法有2个簇。两组线被分到两个簇里；基于邻近性的方法有5个簇。相互缠绕的线被分到一个簇中；基于密度的方法有2个簇。这两组线定义了被低密度区域所分割的两个高密度的区域。4.8传统的凝聚层次聚类过程每步合并两个簇。这样的方法能够正确地捕获数据点集的(嵌套的)簇结构吗？如果不能，解释如何对结果进行后处理，以得到簇结构更正确的视图。答:传统的凝聚层次聚类过程关键是每步合并两个最相似的簇，直至只剩下一个簇才停止聚类。该聚类方法并不能产生嵌套的簇结构。但我们可以采用树结构的方法来捕捉形成的层次结构，每次合并都记录父子簇之间的关系，最后形成一个清晰的树状层次簇结构。4.9我们可以将一个数据集表示成对象节点的集合和属性节点的集合，其中每个对象与每个属性之间有一条边，该边的权值是对象在该属性上的值。对于稀疏数据，如果权值为0，则忽略该边。双划分聚类(Bipartite)试图将该图划分成不相交的簇，其中每个簇由一个对象节点集和一个属性节点集组成。目标是最大化簇中对象节点和属性节点之间的边的权值，并且最小化不同簇的对象节点和属性节点之间的边的权值。这种聚类称作协同聚类(co-clustering)，因为对象和属性之间同时聚类。(a)双划分聚类(协同聚类)与对象和属性集分别聚类有何不同？(b)是否存在某些情况，这些方法产生相同的结果？(c)与一般聚类相比，协同聚类的优点和缺点是什么？答:(a)对于普通聚类，只有一组约束条件被运用，要么与对象相关，要么与属性相关。对于协同聚类，两组约束条件同时被运用。因此，单独地划分对象和属性无法产生相同的结果。(b)是的。例如，如果一组属性只与一个特定的簇对象相关，如在所有其他簇中的对象权值为0；相反地，这组对象在一个簇中对所有其他属性的权值为0，那么由协同聚类发现的簇会与分别通过对象和属性聚类的结果一样。以文本聚类作为例子，有一组文本组成的簇仅包含了某部分的词或短语，相反地，某些词或短语也仅出现在部分文本里。(c)协同聚类的优点是能自动产生由属性描述的簇，这种描述信息带有更强的表达能力，在第20页共27页现实应用中，较由对象描述的簇更有用(如在客户细分中，有属性描述的簇能为营销战略决策提供更为直接的辅助作用)。但具有强区分能力的属性有时候出现严重的重叠现象，这种情况下协同聚类产生的结果并不理想，如出现重叠率很高的聚类结果。4.10下表中列出了4个点的两个最近邻。使用SNN相似度定义，计算每对点之间的SNN相似度。点第一个近邻第二个近邻143234342431答：SNN即共享最近邻个数为其相似度。点1和点2的SNN相似度：0（没有共享最近邻）点1和点3的SNN相似度：1（共享点4这个最近邻）点1和点4的SNN相似度：1（共享点3这个最近邻）点2和点3的SNN相似度：1（共享点4这个最近邻）点2和点4的SNN相似度：1（共享点3这个最近邻）点3和点4的SNN相似度：0（没有共享最近邻）4.11对于SNN相似度定义，SNN距离的计算没有考虑两个最近邻表中共享近邻的位置。换言之，可能希望基于以相同或粗略相同的次序共享最近邻的两个点以更高的相似度。(a)描述如何修改SNN相似度定义，基于以粗略相同的次序共享近邻的两个点以更高的相似度；(b)讨论这种修改的优点和缺点。答：(a)i)把两个最近邻表中共享近邻按照距离从小达大排列，然后以一个最近邻表为基准，调整另一个最近邻表中近邻的位置，总共调整步数为r，其中共享的最近邻个数为n，则相似度可以简单定义为ε+rn或+εrnlog，其中ε为平滑参数，可以简单设置为1=ε。ii)找出两个最近邻表中的最长子序列，最长子序列长度为L,共享的最近邻个数为N，则相似度为LN×。(b)以上相似度计算方法更好地体现了共享近邻在最近邻表中位置的因素对相似度评价的影响，增大了略同次序共享近邻的相似度；缺点是计算复杂度增大。4.12一种稀疏化邻近度矩阵的方法如下：对于每个对象，除对应于对象的k-最近邻的项之外，所有的项都设置为0。然而，稀疏化之后的邻近度矩阵一般是不对称的。(a)如果对象a在对象b的k-最近邻中，为什么不能保证b在对象a的k-最近邻中？(b)至少建议两种方法，可以用来使稀疏化的矩阵是对称的。答：(a)可能出现对象a的密度较大而对象b的密度小的情况。另一种典型情况是：在一个只包含k+1个正常对象和一个异常对象的数据区域中，异常对象b的k个最近邻为k+1个正常对象中距离其最近的k个对象，但正常对象a的k个最近邻不可能包含异常对象（这是因为异常对象b本来就是距离正常对象最远的点，因此，它与正常对象a的距离会大于任何其它正常对象与a之间的距离）(b)第21页共27页i)在两个对象a和b中，只要其中一个对象在另一个对象的最近另列表中，我们就设置Mba=Mab=1（Mab是指邻近度矩阵中a行和b列交叉项的值）；ii)当某个对象a不在另一对象b的k最近邻中时，不管另一对象b是否在该对象a的最近邻中，我们设置Mba=Mab=0。4.13给出一个簇集合的例子，其中基于簇的接近性的合并得到的簇集合比基于簇的连接强度(互连性)的合并得到的簇集合更自然。答：簇集合例子如下图所示：图(a)图(b)图(a)两个簇合并后的接近性显然较图(b)要差，因此，如果是基于簇的接近性来合并图中的簇，则会合并图(b)的两个簇，合并得到的簇结构几乎与原来的每个簇一样。第5章关联分析5.1列举关联规则在不同领域中应用的实例。答：在医学领域：发现某些症状与某种疾病之间的关联，为医生进行疾病诊断和治疗提供线索；在商业领域：发现商品间的联系，为商场进行商品促销及摆放货架提供辅助决策信息；在地球科学领域：揭示海洋、陆地和大气过程之间的关系。5.2给出如下几种类型的关联规则的例子，并说明它们是否是有价值的。(a)高支持度和高置信度的规则；(b)高支持度和低置信度的

                    本文档为【数据挖掘_习题及参考答案】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

数据挖掘_习题及参考答案

你可能还喜欢