数据挖掘概念与技术(第三版)部分习题集标准答案

数据挖掘概念与技术(第三版)部分习题集标准答案,.1.4数据仓库和数据库有何不同？有哪些相似之处？答：区别：数据仓库是面向主题的，集成的，不易更改且随时间变化的数据集合，用来支持管理人员的决策，数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成，是面向操作型的数据库，是组成数据仓库的源数据。它用表组织数据，采用ER数据模型。相似：它们都为数据挖掘提供了源数据，都是数据的组合。翻译结果HYPERLINK"http://fanyi.baidu.com/"\l"#####"重试抱歉，系统响应超时，请稍后再试支持中文、英文免费在线翻译支持网页翻译，在输...

,.1.4数据仓库和数据库有何不同？有哪些相似之处？答：区别：数据仓库是面向主题的，集成的，不易更改且随时间变化的数据集合，用来支持管理人员的决策，数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成，是面向操作型的数据库，是组成数据仓库的源数据。它用表组织数据，采用ER数据模型。相似：它们都为数据挖掘提供了源数据，都是数据的组合。翻译结果HYPERLINK"http://fanyi.baidu.com/"\l"#####"重试抱歉，系统响应超时，请稍后再试支持中文、英文免费在线翻译支持网页翻译，在输入框输入网页地址即可提供一键清空、复制功能、支持双语对照查看，使您体验更加流畅1.3定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。答：特征化是一个目标类数据的一般特性或特性的汇总。例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Gradepointaversge)的信息，还有所修的课程的最大数量。􀁺区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如，具有高GPA的学生的一般特性可被用来与具有低GPA的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA的学生的75%是四年级计算机科学专业的学生，而具有低GPA的学生的65%不是。􀁺关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。例如，一个数据挖掘系统可能发现的关联规则为：major(X,“computingscience”)⇒owns(X,“personalcomputer”)[support=12%,confidence=98%]其中，X是一个表示学生的变量。这个规则指出正在学习的学生，12%（支持度）主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。􀁺分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。􀁺聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式，将观测组织成类分层结构，把类似的事件组织在一起。􀁺数据演变分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析2.3假设给定的数据集的值已经分组为区间。区间和对应的频率如下。―――――――――――――――――――――――――――――――――――――年龄频率―――――――――――――――――――――――――――――――――――――1~52005~1545015~2030020~50150050~8070080~11044―――――――――――――――――――――――――――――――――――――计算数据的近似中位数值。解答：先判定中位数区间：N=200+450+300+1500+700+44=3194；N/2=1597∵200+450+300=950<1597<2450=950+1500；∴20~50对应中位数区间。∴median=32.97岁。2.2假定用于分析的数据包含属性age。数据元组的age值（以递增序）是：13，15，16，16，19，20，20，21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45，46，52，70。答：(a)该数据的均值是什么？中位数是什么？均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70)/27=29.96中位数应是第14个,即x14=25=Q2。(b)该数据的众数是什么？讨论数据的峰（即双峰、三峰等）。这个数集的众数有两个：25和35,发生在同样最高的频率处,因此是双峰众数。(c)数据的中列数是什么？数据的中列数是最大数和最小数的均值。即：midrange=(70+13)/2=41.5。(d)你能（粗略地）找出数据的第一个四分位数（Q1）和第三个四分位数（Q3）吗？数据集的第一个四分位数应发生在25%处，即在(N+1)/4=（27+1）/4=7处。所以：Q1=20。而第三个四分位数应发生在75%处,即在3×(N+1)/4=21处。所以：Q3=35(e)给出数据的五数概括。一个数据集的分布的5数概括由最小值、第一个四分位数、中位数、第三个四分位数、和最大值构成。它给出了分布形状良好的汇总+并且这些数据是：13、20、25、35、70。(f)画出数据的盒图。(g)分位数—分位数图与分位数图的不同之处是什么？分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样,他可以展示所有数的分位数信息,而为独立变量测得的值（纵轴）相对于它们的分位数（横轴）被描绘出来。但分位数—分位数图用纵轴表示一种单变量分布的分位数,用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域,且点按照两种分布分位数值展示。一条线（y=x）可画到图中+以增加图像的信息。落在该线以上的点表示在y轴上显示的值的分布比x轴的相应的等同分位数对应的值的分布高。反之,对落在该线以下的点则低。2.4假设医院检测随机选择的18个成年人年龄和身体脂肪数据，得到如下结果：(a)计算年龄和脂肪百分比的均值、中位数和标准差.年龄均值=(23+23+27+27+39+41+47+49+50+52+54+54+56+57+58+58+60+61)/18=836/18=46.44,中位数=(50+52)/2=51,标准差=方差的平方根=开根号（1/n[∑(Xi)2-1/n(∑Xi)2]）=开根号1/18[2970.44]=12.85.脂肪百分比均值=28.78,中位数=30.7,标准差=8.99.(b)绘制年龄和脂肪百分比的盒图(c)根据这两个属性,绘制散布图,各q-q图q-q图散布图(d)根据z-score规范化来规范化这两个属性（P46）(e)计算相关系数(皮尔逊积矩系数).这两个变量是正相关还是负相关?ra,b=∑(ai-A)(bi-B)/NσAσB=（∑(aibi)-NAB）/NσAσB=（∑(aibi)-18*46.44*28.78）/18*12.85*8.99=0.82相关系数是0.82。变量呈正相关。3.3使用习题2.4给出的age数据回答下列问题：(a)使用分箱均值光滑对以上数据进行光滑，箱的深度为3。解释你的步骤。评述对于给定的数据，该技术的效果。(b)如何确定数据中的离群点？(c)对于数据光滑，还有哪些其他方法？解答：(a)使用分箱均值光滑对以上数据进行光滑，箱的深度为3。解释你的步骤。评述对于给定的数据，该技术的效果。用箱深度为3的分箱均值光滑对以上数据进行光滑需要以下步骤：步骤1：对数据排序。（因为数据已被排序，所以此时不需要该步骤。）步骤2：将数据划分到大小为3的等频箱中。箱1：13，15，16箱2：16，19，20箱3：20，21，22箱4：22，25，25箱5：25，25，30箱6：33，33，35箱7：35，35，35箱8：36，40，45箱9：46，52，70步骤3：计算每个等频箱的算数均值。步骤4：用各箱计算出的算数均值替换每箱中的每个值。箱1：44/3，44/3，44/3箱2：55/3，55/3，55/3箱3：21，21，21箱4：24，24，24箱5：80/3，80/3，80/3箱6：101/3，101/3，101/3箱7：35，35，35箱8：121/3，121/3，121/3箱9：56，56，56(b)如何确定数据中的离群点？聚类的方法可用来将相似的点分成组或“簇”，并检测离群点。落到簇的集外的值可以被视为离群点。作为选择，一种人机结合的检测可被采用，而计算机用一种事先决定的数据分布来区分可能的离群点。这些可能的离群点能被用人工轻松的检验，而不必检查整个数据集。(c)对于数据光滑，还有哪些其他方法？其它可用来数据光滑的方法包括别的分箱光滑方法，如中位数光滑和箱边界光滑。作为选择，等宽箱可被用来执行任何分箱方式，其中每个箱中的数据范围均是常量。除了分箱方法外，可以使用回归技术拟合成函数来光滑数据，如通过线性或多线性回归。分类技术也能被用来对概念分层，这是通过将低级概念上卷到高级概念来光滑数据。3.5如下规范化方法的值域是什么？答：(a)min-max规范化。值域是[new_min,new_max]。(b)z-score规范化。值域是[(old_min－mean)/σ，(old_max－mean)/σ]，总的来说，对于所有可能的数据集的值域是(－∞，+∞)。(c)小数定标规范化。值域是(－1.0,1.0)。3.7使用习题2.4给出的age数据，回答以下问题：(a)使用min-max规范化将age值35变换到[0.0，1.0]区间。(b)使用z-score规范化变换age值35，其中age的标准差为12.94岁。(c)使用小数定标规范化变换age值35。(d)对于给定的数据，你愿意使用哪种方法？陈述你的理由。解答：3.9假设12个销售价格记录组已经排序如下：5，10，11，13，15，35，50，55，72，92，204，215。使用如下每种方法将其划分成三个箱。(a)等频（等深）划分。(b)等宽划分。(c)聚类。解答：(a)等频（等深）划分。bin15,10,11,13bin115,35,50,55bin172,91,204,215(b)等宽划分。,.每个区间的宽度是：(215-5)/3=70bin15,10,11,13,15,35,50,55,72bin191bin1204,215(c)聚类。我们可以使用一种简单的聚类技术：用2个最大的间隙将数据分成3个箱。bin15,10,11,13,15bin135,50,55,72,91bin1204,2153.11使用习题2.4给出的age数据，(a)画出一个等宽为10的等宽直方图；(b)为如下每种抽样技术勾画例子：SRSWOR，SRSWR，聚类抽样，分层抽样。使用大小为5的样本和层“青年”，“中年”和“老年”。解答：(a)画出一个等宽为10的等宽直方图；876543210152535455565(b)为如下每种抽样技术勾画例子：SRSWOR，SRSWR，聚类抽样，分层抽样。使用大小为5的样本和层“青年”，“中年”和“老年”。元组：T113T1022T1935T215T1125T2035T316T1225T2135T416T1325T2236T519T1425T2340T620T1530T2445T720T1633T2546T821T1733T2652T922T1835T2770SRSWOR和SRSWR：不是同次的随机抽样结果可以不同，但前者因无放回所以不能有相同的元组。SRSWOR(n=5)SRSWR(n=5)T416T720T620T720T1022T2035T1125T2135T2652T2546聚类抽样：设起始聚类共有6类，可抽其中的m类。Sample1Sample2Sample3Sample4Sample5Sample6T113T620T1125T1633T2135T2652T215T720T1225T1733T2236T2770T316T821T1325T1835T2340T416T922T1425T1935T2445T519T1022T1530T2035T2546Sample2Sample5T620T2135T720T2236T821T2340T922T2445T1022T2546T113youngT1022youngT1935middleageT215youngT1125youngT2035middleageT316youngT1225youngT2135middleageT416youngT1325youngT2236middleageT519youngT1425youngT2340middleageT620youngT1530middleageT2445middleageT720youngT1633middleageT2546middleageT821youngT1733middleageT2652middleageT922youngT1835middleageT2770seniorT416youngT1225youngT1733middleageT2546middleageT2770Senior4.3假定数据仓库包含三维：time,doctor和patient;和两个度量：count和charge;其中，charge是医生对病人一次诊治的收费。(a)列举三种流行的数据仓库建模模式答：三类模式一般用于建模数据仓库架构的星形模型，雪花模型和事实星座模型。(b)使用(a)列举的模式之一，画出上面的数据仓库的模式图数据仓库的星形模型（C）由基本方体[day,doctor,patient]开始，为列出2004年每位医生的收费总数，应当执行哪些OLAP操作？沿课程（course）维从course_id“上卷”到department。沿时间（time）维从day“上卷”到year。取time=2004，对维time作“切片”操作沿病人（patient）维从个别病人“上卷”到全部病人。(d)为得到同样结果，写一个SQL查询。假定数据存放在关系数据库中，其模式为fee(day，month，year，doctor，hospital，patient，count，charge)。答：SQL查询语句如下：selectdoctor,SUM(charge)fromfeewhereyear=2004groupbydoctor4.4假定BigUniversity的数据仓库包含如下4个维：student(student_name,area_id,major,status,university)，course(course_name,department)，semester(semester,year)和instructor(dept,rank)；2个度量：count和avg_grade。在最低概念层，度量avg_grade存放学生的实际课程成绩。在较高概念层，avg_grade存放给定组合的平均成绩。(a)为该数据仓库画出雪花形模式图。(b)由基本方体[student,course,semester,instructor]开始，为列出BigUniversity每个学生的CS课程的平均成绩，应当使用哪些特殊的OLAP操作。(c)如果每维有5层（包括all），如“student 模板对最大的k,列出频繁k项集包含最大的k的频繁k项集的所有强关联规则（包括它们的支持度S和置信度c）.(b)在粒度（例如：itemi可以是“Sunset-Milk”）对于下面的规则模板对最大的k，列出频繁k项集（但不输出任何规则）。6.14下面的相依表汇总了超级市场的事务数据。其中，hotdogs表示包含热狗的事务，hotdogs表示不包含热狗的事务，hamburgers表示包含汉堡包的事务，hamburgers表示不包含汉堡包的事务，（a）假定挖掘出了关联规则。给定最小支持度阀值25%，最小置信度阀值50%，该关联规则是强规则吗？答：根据规则，support=2000/5000=40%，confidence=2000/3000=66.7%.该关联规则是强规则.（b）根据给定的数据，买hotdogs独立于买humburgers吗？如果不是，二者之间存在何种相关联系。答：corr{hotdog;hamburger}=P({hotdog,hamburger})/(P({hotdog})P({hamburger})=0.4/(0.5×0.6)=1.33>1.所以，买hotdogs不是独立于买humburgers。两者存在正相关关系8.1简述决策树分类的主要步骤。8.5给定一个具有50个属性（每个属性包含100个不同值）的5GB的数据集，而你的台式机有512M内存。简述对这种大型数据集构造决策树的一种有效算法。通过粗略地计算机主存的使用说明你的答案是正确的。这个问题我们将使用雨林算法。假设有C类标签。最需要的内存将是avc-set为根的树。计算avc-set的根节点，我们扫描一次数据库，构建avc-list每50个属性。每一个avc-list的尺寸是100×C，avc-set的总大小是100×C×50，对于合理的C将很容易适应512MB内存，计算其他avc-sets也是使用类似的方法，但他们将较小，因为很少属性可用。在并行计算时，我们可以通过计算avc-set节点来减少同一水平上的扫描次数，使用这种每节点小avc-sets的方法，我们或许可以适应内存的水平。8.7下表由雇员数据库的训练数据组成。数据已泛化。例如：age“31...35”表示年龄在31-35之间。对于给定的行，count表示department,status,age和salary在该行具有给定值的元组数。设status是类标号属性。（a）如何修改基本决策树算法，以便考虑每个广义数据元组（即每一行）的count?(b)使用修改的算法，构造给定数据的决策树。(c)给定一个数据元组，它在属性department,age和salary的值分别为“systems”,“26..30”,和“46K..50K”。该元组status的朴素贝叶斯分类是什么？9.2支持向量机（SVM）是一种具有高准确率的分类方法。然而，在使用大型数据元组集进行训练时，SVM的处理速度很慢。讨论如何克服这一困难，并为大型数据集有效的SVM算法。

                    本文档为【数据挖掘概念与技术(第三版)部分习题集标准答案】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：￥17.0 已有0 人下载

立即下载

数据挖掘概念与技术(第三版)部分习题集标准答案

你可能还喜欢