首页 数据挖掘题库带答案

数据挖掘题库带答案

数据挖掘题库带答案数据挖掘-题库带答案1、最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡()答案：正确2、决策将日益基于数据和分析而作出,而并非基于经验和直觉()答案：错误解析：决策将日益基于数据和分析而作出,而并非基于经验和直觉3、2011年被许多国外媒体和专家称为“大数据元年”()答案：错误解析：2013年被许多国外媒体和专家称为“大数据元年”4、我国网民数量居世界之首,每天产生的数据量也位于世界前列()答案：正确5、商务智能的联机分析处理工具依赖于数据库和数据挖掘。()答案：错误解析：商务智能的联机分析处理工具依赖于数据...

数据挖掘-题库带答案1、最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡()答案：正确2、决策将日益基于数据和分析而作出,而并非基于经验和直觉()答案：错误解析：决策将日益基于数据和分析而作出,而并非基于经验和直觉3、2011年被许多国外媒体和专家称为“大数据元年”()答案：错误解析：2013年被许多国外媒体和专家称为“大数据元年”4、我国网民数量居世界之首,每天产生的数据量也位于世界前列()答案：正确5、商务智能的联机分析处理工具依赖于数据库和数据挖掘。()答案：错误解析：商务智能的联机分析处理工具依赖于数据仓库和多维数据挖掘6、数据整合、处理、校验在目前已经统称为EL()答案：错误解析：数据整合、处理、校验在目前已经统称为ETL7、大数据时代的主要特征()A、数据量大B、类型繁多C、价值密度低D、速度快时效高答案：ABCD8、下列哪项不是大数据时代的热门技术()A、数据整合B、数据预处理C、数据可视化D、SQL答案：D9、()是一种统计或数据挖掘解决方案 ,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。A、预测B、分析C、预测分析D、分析预测答案：C10、大数据发展的前提?答案：解析：硬件成本的降低,网络带宽的提升,云计算的兴起,网络技术的发展,智能终端的普及,电子商务、社交网络、电子地图等的全面应用,物联网的兴起11、调研、分析大数据发展的现状与应用领域。?答案：解析：略12、大数据时代的主要特征?答案：解析：数据量大(Volume)第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。类型繁多(Variety)第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。价值密度低(Value)第三个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。速度快、时效高(Velocity)第四个特征是处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。13、列举大数据时代的主要技术?答案：解析：预测分析:预测分析是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模拟等许多其他用途而部署。随着现在硬件和软件解决方案的成熟,许多公司利用大数据技术来收集海量数据、训练模型、优化模型,并发布预测模型来提高业务水平或者避免风险;当前最流行的预测分析工具当属IBM公司的SPSS,SPSS这个软件大家都已经很熟悉了,它集数据录入、整理、分析功能于一身。用户可以根据实际需要和计算机的功能选择模块,SPSS的分析结果清晰、直观、易学易用，而且可以直接读取EXCEL及DBF数据文件，现已推广到多种各种操作系统的计算机上。NoSQL数据库：非关系型数据库包括Key-value型(Redis)数据库、文档型(MonogoDB)数据库、图型(Neo4j)数据库;虽然NoSQL流行语火起来才短短一年的时间,但是不可否认,现在已经开始了第二代运动。尽管早期的堆栈代码只能算是一种实验,然而现在的系统已经更加的成熟、稳定。搜索和认知商业：当今时代大数据与分析已经发展到一个新的高度,那就是认知时代,认知时代不再是简单的数据分析与展示,它更多的是上升到一个利用数据来支撑人机交互的一种模式,例如前段时间的围棋大战,就是一个很好的应用、现已经逐步推广到机器人的应用上面,也就是下一个经济爆发点--人工智能,互联网人都比较熟悉国内的BAT,以及国外的apple、google、facebook、IBM、微软、亚马逊等等;可以大致看一下他们的商业布局,未来全是往人工智能方向发展,当然目前在认知商业这一块IBM当属领头羊，特别是当前主推的watson这个产品，以及取得了非常棒的效果;关于更多认知商业资料流式分析：目前流式计算是业界研究的一个热点，最近Twitter、LinkedIn等公司相继开源了流式计算系统Storm、Kafka等，加上Yahoo!之前开源的S4,流式计算研究在互联网领域持续升温，流式分析可以对多个高吞吐量的数据源进行实时的清洗、聚合和分析;对存在于社交网站、博客、电子邮件、视频、新闻、电话记录、传输数据、电子感应器之中的数字格式的信息流进行快速处理并反馈的需求。内存数据结构:通过动态随机内存访问(DRAM)、Flash和SSD等分布式存储系统提供海量数据的低延时访问和处理;分布式存储系统：分布式存储是指存储节点大于一个、数据保存多副本以及高性能的计算网络;利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息，它不但提高了系统的可靠性、可用性和存取效率，还易于扩展。当前开源的HDFS还是非常不错数据可视化:数据可视化技术是指对各类型数据源(包括hadoop上的海量数据以及实时和接近实时的分布式数据)进行显示;当前国内外数据分析展示的产品很多，如果是企业单位以及政府单位建议使用cognos,安全、稳定、功能强大、支持大数据、非常不错的选择。数据整合:通过亚马逊弹性MR(EMR)、Hive、Pig、Spark、MapReduce、Couchbase、Hadoop和MongoDB等软件进行业务数据整合；数据预处理:数据整合是指对数据源进行清洗、裁剪，并共享多样化数据来加快数据分析;数据校验:对分布式存储系统和数据库上的海量、高频率数据集进行数据校验，去除非法数据，补全缺失。数据整合、处理、校验在目前已经统称为ETL,ETL过程可以把结构化数据以及非结构化数据进行清洗、抽取、转换成你需要的数据、同时还可以保障数据的安全性以及完整性、关于ETL的产品推荐使用datastage就行、对于任何数据源都可以完美处理。14、数据挖掘就是知识发现的过程()答案：错误解析：数据挖掘是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤15、数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程()答案：正确16、DataMining有相当大的比重是由高等统计学中的多变量分析所支撑()答案：正确17、现实意义中的数据挖掘分析对象是真实的海量数据;这些数据之间存在一定的逻辑关系;数据大多是模糊的、随机的、不完整的、无意义的噪声数据()答案：错误解析：现实意义中的数据挖掘分析对象是真实的海量数据;这些数据之间没有一定的逻辑关系;数据大多是模糊的、随机的、不完整的、无意义的噪声数据18、数据挖掘主要构建四大类模型包括:分类、聚类、预测和关联()答案：正确19、基于事物发展的延续性和随机性预测事物未来的发展属于时间序列分析()答案：正确20、数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。A、大量的B、不完全的C、有噪声的D、模糊的答案：ABCD21、下列哪个领域没有应用数据挖掘技术A、农业B、金融C、教育D、以上全部应用答案：D22、依据历史数据形成刻画用户特征的类标识,进而可以预测未来数据的归类情况,属于()A、聚类B、分类C、预测D、关联答案：B23、在事先不知道数据分类的情况下,根据数据之间的相似程度进行划分,目的是使得同类别的数据对象之间的差别尽可能的小,不同类别的数据对象之间的差别尽可能的大。属于()A、聚类B、分类C、预测D、关联答案：A24、基于输入的用户信息,通过模型的训练学习,找出数据中的规律和趋势,以确定未来目标数据的预测值()A、聚类B、分类C、预测D、关联答案：C25、从购物篮商品集中找出商品与商品之间的关系,有助于发丌同商品之间的联系()A、聚类B、分类C、预测D、关联答案：D26、阐述数据挖掘与数据分析的区别?答案：27、数据挖掘就是知识发现的过程()答案：错误28、数据挖掘被认为是从数据中发现有用知识的整个过程()答案：错误解析：知识发现(KDD)被认为是从数据中发现有用知识的整个过程29、数据挖掘被认为是KDD过程中的一个特定步骤，它是用专门算法从数据中抽取模式。答案：正确30、知识发现的原始数据，可以是结构化的，如数据库中的数据;也可以是半结构化的，如文本、图形和图像数据;但不能是异构型数据()答案：错误解析：可以是结构化的，如数据库中的数据;也可以是半结构化的，如文本、图形和图像数据;甚至是分布在网络上的异构型数据。31、发现知识的方法可以是数学的，也可以是非数学的;可以是演绎的，也可以是归纳的()答案：正确32、从大量的数据中经过深层分析，获得有利于商业运作、提高竞争力的信息，就像从矿石中淘金一样，数据挖掘也因此而得名()答案：正确33、CRISP-DM过程是正确的顺序是:商业理解一数据准备一理解数据一建立模型--模型评估--结果发布()答案：错误解析：商业理解--理解数据--数据准备--建立模型--模型评估--结果发布34、CRISP-DM是“跨行业数据挖掘标准过程”的简写()答案：正确35、整个挖掘过程是一个不断反馈的过程答案：对选择题；36、知识发现的英文简写是()TOC\o"1-5"\h\zA、DKDB、KDDC、DMD、DA答案：B37、数据挖掘的英文简写是()A、DKDB、KDDC、DMD、DA答案：C38、CRISP-DM过程模型过程包括0个阶段A、5B、6C、7D、8答案：B39、CRISP-DM是哪个术语的简写()A、跨行业数据挖掘标准过程B、数据分析C、数据挖掘标准D、数据挖掘过程答案：A40、下面哪个CRISP-DM过程是正确的()A、商业理解--理解数据--数据准备--模型评估--建立模型--结果发布B、商业理解--理解数据--建立模型--数据准备--模型评估--结果发布C、商业理解--理解数据--数据准备--建立模型--模型评估--结果发布D、商业理解--数据准备--理解数据--建立模型--模型评估--结果发布答案：C41、KDD过程主要包括()A、数据准备B、数据挖掘C、结果表达D、结果表示答案：ABCD42、判断题:SPSSM中的一个图标代表一个操作()答案：正确43、判断题:单击选项板上的节点,自动把新节点连接到数据流区域中的“中心”节点上()答案：错误解析：双击选项板上的节点,自动把新节点连接到数据流区域中的“中心”节点上44、源节点是连接到初始数据源的节点,源节点只能发送数据()答案：正确45、终端节点是生成输出、图形、表格和模型的节点,可以连接到任何节点()答案：错误解析：终端节点是生成输出、图形、表格和模型的节点,不能从终端节点连接到任何节点46、填空题:一系列连接在一起的节点被称作答案：解析：工作流47、用来将数据读入SPSSModeler中答案：解析：源节点48、SPSSModeler可以运行在和两种模式下答案：解析：SPSSModeler可以运行在客户端和服务器端两种模式下11.当节点在选项板中被选中后,会变成()红色黄色淡蓝色绿色49、在选项板上()节点,自动放置节点到数据流区域A、单击B、双击C、选中D、右键单击答案：B50、SPSSM中所有的节点都放在()A、数据流区B、项目窗口C、工具栏D、选项板区答案：D51、在Modeler中数据使用下列类型0A、连续型:用于描述数值。B、离散型:用于当一个具体值的精确数量未知时描述字符串。C、标志型:用于只取两个具体值的数据，如T或F,Y或N,0或1。答案：ABC52、位于SPSSM窗口中间部分的是()区A、工具箱B、流管理C、数据流编辑D、工程管理答案：C53、位于SPSSM主窗口左侧下方的窗口是()A、工具箱B、流管理C、数据流编辑D、工程管理窗口答案：D54、节点工具箱窗口位于主窗口的()A、下方B、左侧C、右侧D、上方答案：A55、()是组成数据流的最小单位A、节点B、文件C、数据D、超节点答案：A56、SPSSM中()用于存放数据流中最常用的节点A、收藏夹B、源C、字段选项D、建模答案：A57、SPSSM中0用于存放绘制各种统计图形的节点A、收藏夹B、源C、字段选项D、图形答案：D58、SPSSM中()存放读入各种外部数据的节点A、收藏夹B、源C、字段选项D、建模答案：B59、SPSSM中0用于存放针对字段操作的节点A、收藏夹B、源C、字段选项D、建模答案：C60、SPSSM中0存放建立各种数据模型的节点A、收藏夹B、源C、字段选项D、建模答案：D61、SPSSM中()用于存放显示数据集其基本统计特征的节点A、收藏夹B、输出C、字段选项D、建模答案：B62、SPSSM中0存放将数据转换成其他格式的节点A、收藏夹B、导出C、字段选项D、建模答案：B63、通过窗口上的上下按钮可以使窗口呈现“可见”和“不可见”状态()答案：正确64、管理数据流是Modeler的核心操作()答案：正确65、源选项卡中的节点作为起始节点,可以有父节点连接()答案：错误解析：源选项卡中的节点作为起始节点,不能有父节点连接66、缓冲节点用于建立一个数据缓冲区,存放数据流执行至此的中间结果()答案：正确67、在Modeler中从“源”节点的“可变文件”读入TXT数据()答案：正确68、变量类型可以从数据挖掘和数据存储两个角度划分:答案：正确69、Modeler中变量分为实例化和非实例化两种状态:错Modeler中变量分为实例化、半实例化和非实例化两种状态答案：70、当变量的存储类型和取值都未知时,变量为()状态A、实例化B、半实例化C、非实例化D、赋值答案：C71、当变量的存储类型和取值都已经确定时,变量为()状态:A、实例化B、半实例化C、非实例化D、赋值答案：72、当仅知道变量的存储类型,但取值范围未知时,变量为()状态A、实例化B、半实例化C、非实例化D、赋值答案：B73、在数据挖掘的实际问题中,人么更多考虑变量的存储类型:错在数据挖掘的实际问题中,人么更多考虑变量的计量类型答案：74、变量类型可以从数据挖掘和数据存储两个角度划分:答案：正确75、Modeler中，表示客户的年龄、家庭人数的变量是类型变量0答案：错误解析：表示客户的年龄、家庭人数的变量是数值型变量76、Modeler中，表示性别、职业的变量是定序型变量0答案：错误解析：表示性别、职业的变量是定类型变量()77、Modeler中,表示学历和收入水平的变量是定序型变量()答案：正确78、Modeler中，学号等编号变量或者长文字等复杂数据变量,往往是无类型变量,无类型变量可以参与数据建模()答案：错误解析：学号等编号变量或者长文字等复杂数据变量,往往是无类型变量,无类型变量不可以参与数据建模79、Modeler中，缺省型是一种尚未明确的变量类型()答案：正确80、Modeler中，连续数值型变量可采用整数型或者实数型类型存储()答案：正确81、Modeler中,多分类型变量可采用整数型或字符串型存储—答案：对选择题:；82、Modeler中，()选项卡用于指定读入数据的基本格式A、【数据】B、【文件】C、【过滤】D、【类型】答案：B83、Modeler中，()选项卡用于指定所读变量的存储类型和输入格式A、【数据】B、【文件】C、【过滤】D、【类型】答案：A84、Modeler中，()选项卡用于指定读数据时不读哪些变量,还可以重新修改变量名A、【数据】B、【文件】C、【过滤】D、【类型】答案：C85、Modeler中，()选项卡用于指定变量的计量类型,对变量的缺失值和取值合理性进行检查A、【数据】B、【文件】C、【过滤】D、【类型】答案：D86、Modeler中，数据理解主要包括()A、数据质量评估B、数据调整C、数据的有序浏览D、多维度汇总答案：ABCD87、Modeler中，可以通过【字段选项】中的()进行变量说明A、【源】B、【节点】C、【合并】D、【类型】答案：D88、Modeler中,离群点和极端值的调整方法中：（）表示剔除离群点和极端值A、无效B、丢弃C、强制替换丢弃极值D、强制替换使极值无效答案：B89、Modeler中,离群点和极端值的调整方法中:（）用系统缺失值$null$代替离群点或极端值A、无效B、丢弃C、强制替换丢弃极值D、强制替换使极值无效答案：A90、Modeler中,离群点和极端值的调整方法中：（）表示按照强制方法修正离群点,并提出极端值A、无效B、丢弃C、强制替换丢弃极值D、强制替换使极值无效答案：C91、Modeler中,离群点和极端值的调整方法中：（）表示按照强制方法修正离群点,并将极端值调整为系统缺失值A、无效B、丢弃C、强制替换丢弃极值D、强制替换使极值无效答案：D92、填空:Modeler中，可以通过【输出】选项卡中的—节点评估数据质量答案：【数据审核】；93、Modeler中,【类型】节点可以添加到数据流中的任何位置答案：正确94、Modeler中的空,就是传统意义上的空字符串()答案：错误解析：Modeler中的空，并非一般意义上的空串，它可以使数值,也可以是空格，还可以是$null$95、，在Modeler中,分析顾客的收入对其消费的影响时，收入就是输入变量，消费就是目标变量答案：正确96、Modeler中，借助【数据】节点的执行结果，可自动保留质量高的变量，剔除质量不高的变量()答案：错误解析:Modeler中,借助【数据审核】节点的执行结果,可自动保留质量高的变量,剔除质量不高的变量97、单变量排序只根据一个变量的升序或者降序排列数据答案对答案：98、【记录选项】选项卡中的【汇总】节点可实现数据的分类汇总()答案：正确99、分类汇总是根据一个变量对数据分组后,计算其他指定变量的基本描述统计量()答案：错误解析：单变量分类汇总是根据一个变量对数据分组后,计算其他指定变量的基本描述统计量100、判断题:CLEM可用于描述算数表达式和条件表达式0答案：正确101、判断题:在Modeler中,可通过【字段选项】选项卡中的【填充】节点实现对变量的重新计算答案：正确102、判断题:【字段选项】中的【导出】节点可实现变量类别的调整()答案：错误解析：【字段选项】中的【重新分类】节点可实现变量类别的调整103、判断题:【字段选项】中的【导出】节点可实现派生新变量()答案：正确104、判断题:有些统计分析方法对变量的分布有限定,当不满足要求时,通过【变换】节点,来将原有变量变更为服从正态分布的新变量()答案：正确105、判断题:可以通过【记录选项】中的【筛选】节点,来实现对数据的精简和抽样()答案：错误解析：可以通过【记录选项】中的【样本】节点,来实现对数据的精简和抽样106、判断题:可以通过【记录选项】中的【样本】节点,来实现对数据的条件选取()答案：错误解析：可以通过【记录选项】中的【选择】节点,来实现对数据的条件选取107、选择题:Modeler中，【填充】的【设置】选项卡中()，表示指定一个或多个重新计算的变量名A、填入字段B、替换为C、替换D、设置答案：A108、选择题:Modeler中，【填充】的【设置】选项卡中(),指定重新计算的计算方法A、填入字段B、替换为C、替换D、设置答案：B109、选择题:Modeler中,【填充】的【设置】选项卡中，【替换】提供了几种变量值重新计算的条件,其中()表示所有样本都重新计算A、始终B、空值C、无效值D、空值与无效值答案：A110、Modeler中,【填充】的【设置】选项卡中，【替换】提供了几种变量值重新计算的条件,其中()用【替换为】框的计算结果替代变量中的系统缺失值$null$A、始终B、空值C、无效值D、空值与无效值答案：C111、Modeler中,【填充】的【设置】选项卡中，【替换】提供了几种变量值重新计算的条件,其中()用【替换为】框的计算结果替代变量中的空A、始终B、空值C、无效值D、空值与无效值答案：B112、Modeler中,【填充】的【设置】选项卡中，【替换】提供了几种变量值重新计算的条件,其中()用【替换为】框的计算结果替代变量中的系统缺失值$null$和空A、始终B、空值C、无效值D、空值与无效值答案：D113、信息论的基本出发点认为：第一，信息传递是通过一个传递系统实现；第二()答案：传递系统处于一个随机干扰的环境中114、置信度越大，所允许的悲观误差估计越()答案：115、被减去的子树越大，最终的决策树越()答案：小116、一个只有一个根节点答案：正确117、没有下层的节点成为叶节点答案：正确118、某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()A、关联规则发现B、聚类C、分类D、自然语言处理答案：A119、以下两种描述分别对应哪两种对分类算法的评价标准?()A、警察抓小偷,描述警察抓的人中有多少个是小偷的标准。B、描述有多少比例的小偷给警察抓了的标准。Precision,RecallRecall,PrecisionC、Precision,ROCD、Recall,ROC答案：A120、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?()A、频繁模式挖掘B、分类和预测C、数据预处理D、数据流挖掘答案：C121、当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()A、分类B、聚类C、关联分析D、隐马尔可夫链答案：B122、什么是KDD?()A、数据挖掘与知识发现B、领域知识发现C、文档知识发现D、动态知识发现答案：A123、使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?()A、探索性数据分析B、建模描述C、预测建模D、寻找模式和规则答案：A124、为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?()A、探索性数据分析B、建模描述C、预测建模D、寻找模式和规则125、建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?()A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则答案：C126、用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?()A、根据内容检索B、建模描述C、预测建模D、寻找模式和规则答案：A127、下面哪种不属于数据预处理的方法?()A、变量代换B、离散化C、聚集D、估计遗漏值答案：D128、假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?()A、第一个B、第二个C、第三个D、第四个答案：B129、上题中,等宽划分时(宽度为50),15又在哪个箱子里?()A、第一个B、第二个C、第三个D、第四个答案：A130、下面哪个不属于数据的属性类型:()A、标称B、序数C、区间D、相异答案：D131、在上题中,属于定量的属性类型是:()A、标称B、序数C、区间D、相异答案：C132、只有非零值才重要的二元属性被称作:()A、计数属性B、离散属性C、非对称的二元属性D、对称属性答案：C133、以下哪种方法不属于特征选择的标准方法:()A、嵌入B、过滤C、包装D、抽样答案：D134、下面不属于创建新属性的相关方法的是:()A、特征提取B、特征修改C、映射数据到新的空间D、特征构造答案：B135、考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是()A、2TOC\o"1-5"\h\zB、3C、3.5D、5答案：C136、下面哪个属于映射数据到新的空间的方法?()A、傅立叶变换B、特征加权C、渐进抽样D、维归约答案：A137、熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是:()A、1比特B、2.6比特C、3.2比特D、3.8比特答案：B138、假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:()A、0.821TOC\o"1-5"\h\zB、1.224C、1.458D、0.716答案：D139、假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:()A、18.3B、22.6C、26.8D、27.9答案：A140、考虑值集{12243324556826},其四分位数极差是:()A、31B、24C、55D、3答案：A141、一所大学内的各年纪人数分别为: 一年级 200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:()A、一年级B、二年级C、三年级D、四年级答案：A142、下列哪个不是专门用于可视化时间空间数据的技术:()A、等高线图B、饼图C、曲面图D、矢量场图答案：B143、在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:()A、有放回的简单随机抽样B、无放回的简单随机抽样C、分层抽样D、渐进抽样答案：D144、数据仓库是随着时间变化的,下面的描述不正确的是()A、数据仓库随时间的变化不断增加新的数据内容;B、捕捉到的新数据会覆盖原来的快照;C、数据仓库随事件变化不断删去旧的数据内容;D、数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.答案：C145、关于基本数据的元数据是指:()A、基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B、基本元数据包括与企业相关的管理方面的数据和信息;C、基本元数据包括日志文件和简历执行处理的时序调度信息;D、基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.答案：D146、下面关于数据粒度的描述不正确的是:()A、粒度是指数据仓库小数据单元的详细程度和级别;B、数据越详细,粒度就越小,级别也就越高;C、数据综合度越高,粒度也就越大,级别也就越高;D、粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.答案：C147、有关数据仓库的开发特点,不正确的描述是:()A、数据仓库开发要从数据出发;B、数据仓库使用的需求在开发出去就要明确;C、数据仓库的开发是一个不断循环的过程,是启发式的开发;D、在数据仓库环境中，并不存在操作型环境中所固定的和较确切的处理流，数据仓库中数据分析和处理更灵活,且没有固定的模式答案：A148、在有关数据仓库测试,下列说法不正确的是:()A、在完成数据仓库的实施过程中，需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试.B、当数据仓库的每个单独组件完成后，就需要对他们进行单元测试.C、系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试.D、在测试之前没必要制定详细的测试计划 .答案：D149、OLAP技术的核心是：()A、在线性;B、对用户的快速响应;C、互操作性.D、多维分析;答案：D150、关于OLAP的特性，下面正确的是：()(1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性A、(1)(2)(3)B、(2)(3)(4)C、(1)(2)(3)(4)D、(1)(2)(3)(4)(5)答案：D151、关于OLAP和OLTP的区别描述,不正确的是：()A、OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.B、与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.C、OLAP的特点在于事务量大，但事务内容比较简单且重复率高.D、OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的.答案：C152、OLAM技术一般简称为”数据联机分析挖掘”，下面说法正确的是：()A、OLAP和OLAM都基于客户机/服务器模式，只有后者有与用户的交互性；B、由于OLAM的立方体和用于OLAP的立方体有本质的区别.C、基于WEB的OLAM是WEB技术与OLAM技术的结合.D、OLAM服务器通过用户图形借口接收用户的分析指令，在元数据的知道下，对超级立方体作一定的操作.答案：D153、关于OLAP和OLTP的说法，下列不正确的是：()A、OLAP事务量大,但事务内容比较简单且重复率高.B、OLAP的最终数据来源与OLTP不一样.C、OLTP面对的是决策人员和高层管理人员.D、OLTP以应用为核心，是应用驱动的.答案：A154、设火={1,2,3}是频繁项集,则可由X产生_()_个关联规则。TOC\o"1-5"\h\zA、4B、5C、6D、7答案：C155、概念分层图是_()_图。A、无向无环B、有向无环C、有向有环D、无向有环答案：B156、频繁项集、频繁闭项集、最大频繁项集之间的关系是：()A、频繁项集频繁闭项集=最大频繁项集B、频繁项集=频繁闭项集最大频繁项集C、频繁项集频繁闭项集最大频繁项集D、频繁项集=频繁闭项集=最大频繁项集157、考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()A、1,2,3,4B、1,2,3,5C、1,2,4,5D、1,3,4,5答案：C158、下面选项中t不是s的子序列的是()A、s=<{2,4},{3,5,6},{8}>t=<{2},{3,6},{8}>B、s=<{2,4},{3,5,6},{8}>t=<{2},{8}>C、s=<{1,2},{3,4}>t=<{1},{2}>D、s=<{2,4},{2,4}>t=<{2},{4}>答案：C159、在图集合中发现一组公共子结构,这样的任务称为()A、频繁子集挖掘B、频繁子图挖掘C、频繁数据项挖掘D、频繁模式挖掘答案：B160、下列度量不具有反演性的是()A、系数B、几率C、Cohen度量D、兴趣因子答案：D161、下列_()_不是将主观信息加入到模式发现任务中的方法。A、与同一时期其他数据对比B、可视化C、基于模板的方法D、主观兴趣度量答案：A162、下面购物篮能够提取的3-项集的最大数量是多少ID购买项答案：C；163、牛奶,啤酒,尿布答案：164、面包,黄油,牛奶答案：165、牛奶,尿布,饼干答案：166、面包,黄油,饼干答案：167、啤酒,饼干,尿布答案：168、牛奶,尿布,面包,黄油答案：169、面包,黄油,尿布答案：170、啤酒,尿布答案：171、啤酒,饼干A、1B、2C、3D、4答案：172、以下哪些算法是分类算法,()A、,DBSCANB、,C4.5C、,K-MeanD、,EM答案：B173、以下哪些分类方法可以较好地避免样本的不平衡问题,()A、,KNNB、,SVMC、,BayesD、,神经网络答案：A174、决策树中不包含一下哪种结点,()A、，根结点(rootnode)B、，内部结点(internalnode)C、，外部结点(externalnode)D、，叶结点(leafnode)答案：C175、以下哪项关于决策树的说法是错误的()A、冗余属性不会对决策树的准确率造成不利的影响B、子树可能在决策树中重复多次C、决策树算法对于噪声的干扰非常敏感D、寻找最佳决策树是NP完全问题答案：C176、在基于规则分类器的中，依据规则质量的某种度量对规则排序，保证每一个测试记录都是由覆盖它的“最好的”规格来分类，这种方案称为()A、基于类的排序方案B、基于规则的排序方案C、基于度量的排序方案D、基于规格的排序方案。177、以下哪些算法是基于规则的分类器()A、C4.5B、KNNC、Na?veBayesD、ANN答案：A178、如果规则集R中不存在两条规则被同一条记录触发，则称规则集R中的规则为();A、，无序规则B、，穷举规则C、，互斥规则D、，有序规则答案：C179、如果对属性值的任一组合,R中都存在一条规则加以覆盖，则称规则集R中的规则为()A、,无序规则B、,穷举规则C、,互斥规则D、,有序规则答案：B180、如果规则集中的规则按照优先级降序排列,则称规则集是()A、,无序规则B、,穷举规则C、,互斥规则D、,有序规则答案：D181、如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为()A、,无序规则B、,穷举规则C、,互斥规则D、,有序规则答案：A182、考虑两队之间的足球比赛:队0和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1获胜的概率为()A、,0.75B、,0.35C、,0.4678D、,0.5738答案：C183、以下关于人工神经网络(ANN)的描述错误的有()A、,神经网络对训练数据中的噪声非常鲁棒B、,可以处理冗余特征C、,训练ANN是一个很耗时的过程D、,至少含有一个隐藏层的多层神经网络答案：A184、通过聚集多个分类器的预测来提高分类准确率的技术称为()A、，组合(ensemble)B、，聚集(aggregate)C、，合并(combination)D、，投票(voting)答案：A185、简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集中，这种聚类类型称作()A、层次聚类B、划分聚类C、非互斥聚类D、模糊聚类186、在基本K均值算法里，当邻近度函数采用()的时候，合适的质心是簇中各点的中位数。A、曼哈顿距离B、平方欧几里德距离C、余弦距离D、Bregman散度答案：A187、()是一个观测值，它与其他观测值的差别如此之大，以至于怀疑它是由不同的机制产生的。A、边界点B、质心C、离群点D、核心点答案：C188、BIRCH是一种()。A、分类器B、聚类算法C、关联分析算法D、特征选择算法答案：B189、检测一元正态分布中的离群点，属于异常检测中的基于()的离群点检测。A、统计方法B、邻近度C、密度D、聚类技术答案：A190、()将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度，它是一种凝聚层次聚类技术。A、MIN(单链)B、MAX(全链)C、组平均D、Ward方法答案：C191、()将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术。A、MIN(单链)B、MAX(全链)C、组平均D、Ward方法答案：D192、DBSCAN在最坏情况下的时间复杂度是()。A、O(m)B、O(m2)C、O(logm)D、O(m*logm)答案：B193、在基于图的簇评估度量表里面，如果簇度量为proximity(Ci,C),簇权值为mi,那么它的类型是()。A、基于图的凝聚度B、基于原型的凝聚度C、基于原型的分离度D、基于图的凝聚度和分离度答案：C194、关于K均值和DBSCAN的比较，以下说法不正确的是()。A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。D、K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇。195、以下是哪一个聚类算法的算法流程:①构造k-最近邻图。②使用多层图划分算法划分图。③repeat:合并关于相对互连性和相对接近性而言，最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。()。A、MSTB、OPOSSUMC、ChameleonD、Jarvis-Patrick(JP)答案：C196、考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不会共享许多近邻,所以应该选择()的相似度计算方法。A、平方欧几里德距离B、余弦距离C、直接相似度D、共享最近邻答案：D197、以下属于可伸缩聚类算法的是()。A、CUREB、DENCLUEC、CLIQUED、OPOSSUM答案：A198、以下哪个聚类算法不是属于基于原型的聚类()。A、模糊c均值B、EM算法C、SOMD、CLIQUE答案：D199、关于混合模型聚类算法的优缺点,下面说法正确的是()。A、当簇只包含少量数据点，或者数据点近似协线性时，混合模型也能很好地处理。B、混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布。C、混合模型很难发现不同大小和椭球形状的簇。D、混合模型在有噪声和离群点时不会存在问题答案：B200、以下哪个聚类算法不属于基于网格的聚类算法()。A、STINGB、WaveClusterC、MAFIAD、BIRCH答案：D201、一个对象的离群点得分是该对象周围密度的逆。这是基于()的离群点定义。A、概率B、邻近度C、密度D、聚类答案：C202、下面关于Jarvis-Patrick(JP)聚类算法的说法不正确的是()。A、JP聚类擅长处理噪声和离群点，并且能够处理不同大小、形状和密度的簇。B、JP算法对高维数据效果良好，尤其擅长发现强相关对象的紧致簇。C、JP聚类是基于SNN相似度的概念。D、JP聚类的基本时间复杂度为O(m)。二、多选题答案：D203、通过数据挖掘过程所推倒出的关系和摘要经常被称为:()A、模型B、模式C、模范D、模具204、寻找数据集中的关系是为了寻找精确、方便并且有价值地总结了数据的某一特征的表示,这个过程包括了以下哪些步骤?(A、BCD)A、决定要使用的表示的特征和结构B、决定如何量化和比较不同表示拟合数据的好坏C、选择一个算法过程使评分函数最优D、决定用什么样的数据管理原则以高效地实现算法。答案：205、数据挖掘的预测建模任务主要包括哪几大类问题?()A、分类B、回归C、模式发现D、模式匹配答案：AB206、数据挖掘算法的组件包括:(A、BCD)A、模型或模型结构B、评分函数C、优化和搜索方法D、数据管理策略答案：207、以下哪些学科和数据挖掘有密切联系?()A、统计B、计算机组成原理C、矿产挖掘D、人工智能答案：AD208、在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法有:()A、忽略元组B、使用属性的平均值填充空缺值C、使用一个全局常量填充空缺值D、使用与给定元组属同一类的所有样本的平均值E、使用最可能的值填充空缺值答案：ABCDE209、下面哪些属于可视化高维数据技术()A、矩阵B、平行坐标系C、星形坐标D、散布图E、Chernoff脸答案：ABCE210、对于数据挖掘中的原始数据,存在的问题有:()A、不一致B、重复C、不完整D、含噪声E、维度高答案：ABCDE211、下列属于不同的有序数据的有:()A、时序数据B、序列数据C、时间序列数据D、事务数据E、空间数据答案：ABCE212、下面属于数据集的一般特性的有:()A、连续性B、维度C、稀疏性D、分辨率E、相异性答案：BCD213、下面属于维归约常用的线性代数技术的有:()A、主成分分析B、特征提取C、奇异值分解D、特征加权E、离散化答案：AC214、下面列出的条目中,哪些是数据仓库的基本特征:()A、数据仓库是面向主题的B、数据仓库的数据是集成的C、数据仓库的数据是相对稳定的D、数据仓库的数据是反映历史变化的E、数据仓库是面向事务的答案：ACD215、以下各项均是针对数据仓库的不同说法,你认为正确的有()A、数据仓库就是数据库B、数据仓库是一切商业智能系统的基础C、数据仓库是面向业务的，支持联机事务处理(OLTP)D、数据仓库支持决策而非事务处理E、数据仓库的主要目标就是帮助分析，做长期性的战略制定答案：BCDE216、联机分析处理包括以下哪些基本分析功能?()A、聚类B、切片C、转轴D、切块E、分类答案：BCD217、利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以下的购物篮中产生支持度不小于3的候选3-项集,在候选2-项集中需要剪枝的是ID项集答案：BD；218、面包、牛奶答案：219、面包、尿布、啤酒、鸡蛋答案：220、牛奶、尿布、啤酒、可乐答案：221、面包、牛奶、尿布、啤酒答案：222、面包、牛奶、尿布、可乐A、啤酒、尿布B、啤酒、面包C、面包、尿布D、啤酒、牛奶答案：223、下表是一个购物篮,假定支持度阈值为40%,其中是频繁闭项集。TID项答案：(AD)；224、abc答案：225、abcd答案：答案：227、acde答案：228、deA、abcB、adC、cdD、de答案：229、Apriori算法的计算复杂度受_()_影响。A、支持度阀值B、项数(维度)C、事务数D、事务平均宽度答案：ABCD230、非频繁模式_()_A、其支持度小于阈值B、都是不让人感兴趣的C、包含负模式和负相关模式D、对异常数据项敏感答案：AD231、以下属于分类器评价或比较尺度的有:()A、,预测准确度B、,召回率C、,模型描述的简洁度D、,计算复杂度答案：ACD232、在评价不平衡类问题分类的度量方法有如下几种,()A、，F1度量B、,召回率(recall)C、，精度(precision)D、，真正率(turepositiverate,TPR)答案：ABCD233、贝叶斯信念网络(BBN)有如下哪些特点，()A、，构造网络费时费力B、，对模型的过分问题非常鲁棒C、，贝叶斯网络不适合处理不完整的数据D、，网络结构确定后，添加变量相当麻烦答案：AB234、如下哪些不是最近邻分类器的特点，()A、，它使用具体的训练实例进行预测，不必维护源自数据的模型B、，分类一个测试样例开销很大C、，最近邻分类器基于全局信息进行预测D、，可以生产任意形状的决策边界答案：C235、如下那些不是基于规则分类器的特点，()A、，规则集的表达能力远不如决策树好B、，基于规则的分类器都对属性空间进行直线划分，并将类指派到每个划分C、，无法被用来产生更易于解释的描述性模型D、，非常适合处理类分布不平衡的数据集答案：AC236、以下属于聚类算法的是()。A、K均值B、DBSCANC、AprioriD、Jarvis-Patrick(JP)答案：ABD237、()都属于簇有效性的监督度量A、轮廓系数B、共性分类相关系数C、熵D、F度量答案：CD238、簇有效性的面向相似性的度量包括（）。A、精度B、Rand统计量C、Jaccard系数D、召回率答案：BC239、ABCD）这些数据特性都是对聚类分析具有很强影响的A、高维性B、规模C、稀疏性D、噪声和离群点答案：240、在聚类分析当中,（）等技术可以处理任意形状的簇。A、MIN（单链）B、MAX（全链）C、组平均D、Chameleon答案：AD241、AB）都属于分裂的层次聚类算法。A、二分K均值B、MSTC、ChameleonD、组平均三、判断题答案：242、数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。答案：正确243、数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。3.图挖掘技术在社会网络分析中扮演了重要的角色。答案：对；对；244、模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。答案：错误245、寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。答案：错误246、离群点可以是合法的数据对象或者值。答案：正确247、离散属性总是具有有限个值。答案：错误248、噪声和伪像是数据错误这一相同表述的两种叫法。答案：错误249、用于分类的离散化方法之间的根本区别在于是否使用类信息。答案：正确250、特征提取技术并不依赖于特定的领域。答案：错误251、序列数据没有时间戳。答案：正确252、定量属性可以是整数值或者是连续值。答案：正确253、可视化技术对于分析的数据类型通常不是专用性的。答案：错误254、DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。答案：正确255、OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息，是继数据库技术发展之后迅猛发展起来的一种新技术。答案：正确256、商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结构强加于商务之上，一旦系统设计完毕，其程序和规则不会轻易改变;而前者则是一个学习型系统，能自动适应商务不断变化的要求。答案：正确257、数据仓库中间层OLAP服务器只能采用关系型OLAP答案：错误258、数据仓库系统的组成部分包括数据仓库，仓库管理，数据抽取，分析工具等四个部分.答案：错误259、Web数据挖掘是通过数据库仲的一些属性来预测另一个属性，它在验证用户提出的假设过程中提取信息.答案：错误260、关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。答案：错误261、利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。答案：正确262、先验原理可以表述为:如果一个项集是频繁的，那包含它的所有项集也是频繁的。答案：错误263、如果规则不满足置信度阈值，则形如的规则一定也不满足置信度阈值，其中是X的子集。答案：正确264、具有较高的支持度的项集具有较高的置信度。答案：错误265、聚类是这样的过程:它找出描述并区分数据类或概念的模型，以便能够使用模型预测类标记未知的对象类。答案：clustering；或函数；错;266、分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。答案：正确267、对于SVM分类算法,待分样本集中的大部分样本不是支持向量，移去或者减少这些样本对分类结果没有影响。答案：正确268、Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法，待分样本的分类结果取决于各类域中样本的全体。答案：错误269、分类模型的误差大致分为两种:训练误差和泛化误差.答案：trainingerror；generalizetionerror；对；270、在决策树中，随着树中结点数变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题。答案：错误271、SVM是这样一个分类器，他寻找具有最小边缘的超平面，因此它也经常被称为最小边缘分类器答案：minimalmarginclassifier；错；272、在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。答案：错误273、聚类分析可以看作是一种非监督的分类。答案：正确274、K均值是一种产生划分聚类的基于密度的聚类算法，簇的个数由算法自动地确定。答案：错误275、给定由两次运行K均值产生的两个不同的簇集，误差的平方和最大的那个应该被视为较优。答案：错误276、基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集。答案：正确277、如果一个对象不强属于任何簇，那么该对象是基于聚类的离群点。答案：正确278、从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。—40.DBSCAN是相对抗噪声的，并且能够处理任意形状和大小的簇。答案：错；对；

                    本文档为【数据挖掘题库带答案】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

数据挖掘题库带答案

你可能还喜欢