首页 数据挖掘选择题

数据挖掘选择题

数据挖掘选择题1•未来房价的预测，这种属于数据挖掘的哪类问题？（D）分类B.聚类C.关联规则D.回归分析2.以下哪些算法是关联规则挖掘？（D）DBSCANB.ID3C.K—MeansD.Apriori3•下列哪个描述是正确的？（C）回归和聚类都是有指导的学习回归和聚类都是无指导的学习回归是有指导的学习，聚类是无指导的学习D.回归是无指导的学习，聚类是有指导的学习4•当分析顾客消费行业，以便有针对性的向其推荐感兴趣的服务，属于什么问题?（C）分类B.聚类C.关联规则D.主成分分析5•关联规则的评价指标是？（C）均方误差、均方根误差...

1•未来房价的预测，这种属于数据挖掘的哪类问题？（D）分类B.聚类C.关联规则D.回归分析2.以下哪些算法是关联规则挖掘？（D）DBSCANB.ID3C.K—MeansD.Apriori3•下列哪个描述是正确的？（C）回归和聚类都是有指导的学习回归和聚类都是无指导的学习回归是有指导的学习，聚类是无指导的学习D.回归是无指导的学习，聚类是有指导的学习4•当分析顾客消费行业，以便有针对性的向其推荐感兴趣的服务，属于什么问题?（C）分类B.聚类C.关联规则D.主成分分析5•关联规则的评价指标是？（C）均方误差、均方根误差B.Kappa统计、显著性检验C.支持度、置信度D.平均绝对误差、相对误差6•下列关于凝聚层次聚类的说法，说法正确的是？（B）一旦两个簇合并，该操作还能撤销算法的终止条件是仅剩下一个簇空间复杂度O（m21）具有全局优化目标函数7•决策树中不包含以下哪种节点？（C）根节点B.内部节点C.外部节点D.叶节点8•我们想在大数据集上训练决策树，为了使用较少时间，我们可以（C）增加树的深度增加学习率（learningrate）减少树的深度减少树的数量关于欠拟合（under-fitting），下面哪个说法是正确的？（C）训练误差较大，测试误差较小训练误差较小，测试误差较大训练误差较大，测试误差较大训练误差不变，测试误差较大以下哪种技术对于减少数据集的维度会更好？（A）删除缺少值太多的列删除数据差异较大的列删除不同数据趋势的列都不是以下不属于影响聚类算法结果的主要因素有（A）已知类别的样本质量B.分类准则C.特征选取D.模式相似性测度影响基本K-均值算法的主要因素有（B）样本输入顺序模式相似性测度聚类准则样本的数量一监狱人脸识别准入系统用来识别待进入人员的身份，此系统一共包括识别4种不同的人员：狱警，小偷，送餐员，其他。下面哪种学习方法最适合此种应用需求：（B）二分类问题B.多分类问题C.层次聚类问题D.k-中心点聚类问题一般，k-NN最近邻方法在（B）的情况下效果较好样本较多但典型性不好B.样本较少但典型性好C.样本呈团状分布D.样本呈链状分布“点击率问题”是这样一个预测问题,99%的人是不会点击的,而1%的人是会点击进去的,所以这是一个非常不平衡的数据集.假设,现在我们已经建了一个模型来分类,而且有了99%的预测准确率,我们可以下的结论是（C）模型预测准确率已经很高了，我们不需要做什么了模型预测准确率不高，我们需要做点什么改进模型无法下结论以上都不对当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分类？（B）分类B.聚类C.关联规则D.主成分分析Apriori算法的计算复杂度不受影响？（B）支持度阈值B.时间C.事务数D.项数（维度）3•下列算法中不属于监督式学习算法的是（D）K-近邻算法线性回归逻辑回归K-Means算法4•下列两个变量之间的关系中，哪一个是线性关系（D）学生的性别与他（她）的数学成绩人的工作环境与他的身体健康状况儿子的身高与父亲的身高正方形的边长与周长线性回归能完成的任务是（B）预测离散值B.预测连续值C.分类D.聚类以下哪个方法不可以直接来对文本分类（A）KmeansB.决策树C.支持向量机D.KNN7•评估模型之后，得出模型存在偏差，下列哪种方法可能解决这一问题（B）减少模型中特征的数量B.向模型中增加更多的特征C.增加更多的数据D.以上全是8•关于主成分分析PCA说法不正确的是（C）我们必须在使用PCA前规范化数据我们应该选择使得模型有最大variance的主成分我们应该选择使得模型有最小variance的主成分我们可以使用PCA在低纬度上做数据可视化以下说法正确的是（C）一个机器学习模型，如果有较高准确率，总是说明这个分类器是好的如果增加模型复杂度，那么模型的测试错误率总是会降低如果增加模型复杂度，那么模型的训练错误率总是会降低我们不可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习10•如果在大型数据集上训练决策树。为了花费更少的时间来训练这个模型，下列哪种做法是正确的？（C）增加树的深度增加学习率减小树的深度减少树的数量11•协同过滤算法解决的是数据挖掘中的哪类问题（C）A.分类问题B.聚类问题C.推荐问题D.自然语言处理问题逻辑回归适用于以下哪个问题（C）回归问题聚类问题二分类问题多分类问题以下对k-means聚类算法解释正确的是（C）能自动识别类的个数，随即挑选初始点为中心点计算能自动识别类的个数，不是随即挑选初始点为中心点计算不能自动识别类的个数，随即挑选初始点为中心点计算不能自动识别类的个数,不是随即挑选初始点为中心点计算当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？（B）A.分类B.聚类C.关联规则发现D.主成分分析推荐系统为客户推荐商品，自动完成个性化选择商品的过程，满足客户的个性化需求,推荐基于（D）,推测客户将来可能的购买行为。客户的朋友客户的个人信息客户的兴趣爱好客户过去的购买行为和购买记录1•未来房价的预测，这种属于数据挖掘的哪类问题？（D）分类B.聚类C.关联规则D.回归分析2•以下哪些算法是关联规则挖掘？（D）DBSCANB.ID3C.K-MeansD.Apriori3•下列哪个描述是正确的？（C）回归和聚类都是有指导的学习回归和聚类都是无指导的学习回归是有指导的学习，聚类是无指导的学习回归是无指导的学习，聚类是有指导的学习4•当分析顾客消费行业，以便有针对性的向其推荐感兴趣的服务，属于什么问题?（C）A.分类B.聚类C.关联规则D.主成分分析5•关联规则的评价指标是？（C）A.均方误差、均方根误差B.Kappa统计、显著性检验C.支持度、置信度D.平均绝对误差、相对误差6•下列关于凝聚层次聚类的说法，说法正确的是？（B）A.一旦两个簇合并，该操作还能撤销B.算法的终止条件是仅剩下一个簇C.空间复杂度D.具有全局优化目标函数7•决策树中不包含以下哪种节点？（C）A.根节点B.内部节点C.外部节点D.叶节点8•我们想在大数据集上训练决策树，为了使用较少时间，我们可以（C）A.增加树的深度B.增加学习率（learningrate）C.减少树的深度D.减少树的数量关于欠拟合（under-fitting），下面哪个说法是正确的？（C）A.训练误差较大，测试误差较小B.训练误差较小，测试误差较大C.训练误差较大，测试误差较大D.训练误差不变，测试误差较大以下哪种技术对于减少数据集的维度会更好？（A）A.删除缺少值太多的列B.删除数据差异较大的列C.删除不同数据趋势的列D.都不是以下不属于影响聚类算法结果的主要因素有（A）A.已知类别的样本质量B.分类准则C.特征选取D.模式相似性测度影响基本K-均值算法的主要因素有（B）样本输入顺序B.模式相似性测度C.聚类准则D.样本的数量一监狱人脸识别准入系统用来识别待进入人员的身份，此系统一共包括识别4种不同的人员：狱警，小偷，送餐员，其他。下面哪种学习方法最适合此种应用需求：（B）二分类问题B.多分类问题C.层次聚类问题D.k-中心点聚类问题一般，k-NN最近邻方法在（B）的情况下效果较好A.样本较多但典型性不好B.样本较少但典型性好C.样本呈团状分布D.样本呈链状分布15•下列表述中，在k-fold交叉验证中关于选择K说法正确的是（D）较大的K并不总是好的，选择较大的K可能需要较长的时间来评估你的结果相对于期望误差来说，选择较大的K会导致低偏差（因为训练folds会变得与整个数据集相似）在交叉验证中通过最小化方差法来选择K值以上都正确下面哪项不是常用的自然语言处理技术：（D）A.词条化B.词性标注C.句法分析D.交叉验证将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？（C）A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？（B）A.分类B.聚类C.关联分析D.隐马尔可夫链什么是KDD?（A）A.数据挖掘与知识发现B.领域知识发现C.文档知识发现D.动态知识发现数据仓库是随着时间变化的,下面的描述不正确的是（C）数据仓库随时间的变化不断增加新的数据内容捕捉到的新数据会覆盖原来的快照数据仓库随事件变化不断删去旧的数据内容数据仓库中包含大量的综合数据，这些综合数据会随着时间的变化不断地进行重新综合当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分类？（B）A.分类B.聚类C.关联规则D.主成分分析Apriori算法的计算复杂度不受影响？（B）A.支持度阈值B.时间C.事务数D.项数（维度）3•下列算法中不属于监督式学习算法的是（D）A.K-近邻算法B.线性回归C.逻辑回归D.K-Means算法4•下列两个变量之间的关系中，哪一个是线性关系（D）A.学生的性别与他（她）的数学成绩人的工作环境与他的身体健康状况儿子的身高与父亲的身高正方形的边长与周长线性回归能完成的任务是（B）预测离散值B.预测连续值C.分类D.聚类以下哪个方法不可以直接来对文本分类（A）KmeansB.决策树C.支持向量机D.KNN7•评估模型之后，得出模型存在偏差，下列哪种方法可能解决这一问题（B）A.减少模型中特征的数量B.向模型中增加更多的特征C.增加更多的数据D.以上全是8•关于主成分分析PCA说法不正确的是（C）我们必须在使用PCA前规范化数据我们应该选择使得模型有最大variance的主成分我们应该选择使得模型有最小variance的主成分我们可以使用PCA在低纬度上做数据可视化9•以下说法正确的是（C）一个机器学习模型，如果有较高准确率，总是说明这个分类器是好的如果增加模型复杂度，那么模型的测试错误率总是会降低如果增加模型复杂度，那么模型的训练错误率总是会降低我们不可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习10•如果在大型数据集上训练决策树。为了花费更少的时间来训练这个模型，下列哪种做法是正确的？（C）A.增加树的深度B.增加学习率C.减小树的深度D.减少树的数量11•协同过滤算法解决的是数据挖掘中的哪类问题（C）A.分类问题B.聚类问题C.推荐问题D.自然语言处理问题逻辑回归适用于以下哪个问题（C）A.回归问题B.聚类问题C.二分类问题D.多分类问题以下对k-means聚类算法解释正确的是（C）能自动识别类的个数，随即挑选初始点为中心点计算能自动识别类的个数，不是随即挑选初始点为中心点计算不能自动识别类的个数，随即挑选初始点为中心点计算不能自动识别类的个数,不是随即挑选初始点为中心点计算简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集中，这种聚类类型称作（B）A.层次聚类B.划分聚类C.非互斥聚类D.模糊聚类推荐系统为客户推荐商品，自动完成个性化选择商品的过程，满足客户的个性化需求，推荐基于（D），推测客户将来可能的购买行为。A.客户的朋友B.客户的个人信息C.客户的兴趣爱好D.客户过去的购买行为和购买记录决策树中不包含一下哪种结点（C）A.根结点B.内部结点C.外部结点D.叶结点以下哪些分类方法可以较好地避免样本的不平衡问题（A）A.KNNB.SVMC.朴素贝叶斯D.神经网络以下哪些学科和数据挖掘有密切联系？（A）统计B.计算机组成原理C.矿产挖掘D.云存储下列哪项不是NLTK模块实现词条化方法的是（D）sent_tokenize（）B.word_tokenize（）C.PunktWordTokenizer（）D.tokenize（）图像数据分析的常用方法不包括（D）图像变换B.图像编码和压缩C.图像增强和复原D.图像数据采集1、OLAP技术的核心是：（D）在线性；B.对用户的快速响应;C.互操作性.D.多维分析；2、多维数据分析包括哪些方法？（ABEF）（多选）A、切片B、切块C、降维D、统计E、钻取F、旋转3、数据的度量单位包括（ABC）（多选）A、GBB、YBC、ZBD、NB4、大数据一般具备以下特征（ABC）（多选）A、规模大B、速度快C、类型多D、用户广5、讨论下列每项活动是否是数据挖据任务（FGH）（多选）A、根据性别划分公司的顾客。B、根据可赢利性划分公司的顾客。C、计算公司的总销售额。D、按学生的标识号对学生数据库排序。E、预测掷一对骰子的结果。F、使用历史记录预测某公司未来的股票价格。G、监视病人心率的异常变化。H、监视地震活动的地震波。I、提取声波的频率6、交叉验证如果设置K=5，会训练几次？（E）A、1B、2C、3D、4E、5F、67、如下图所示，对同一数据集进行训练，得到3个模型。对于这3个模型的11、Python内建的数据类型有哪些？(ABCDE)评估，下列说法正确的是？(ACD)第一个模型的训练误差最大第三个模型性能最好，因为其训练误差最小第二个模型最稳健，其在测试集上表现应该最好第三个模型过拟合8、下面有关分类算法的准确率，召回率，F1值的描述，错误的是(C)准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率正确率、召回率和F值取值都在0和1之间，数值越接近0,查准率或查全率就越高为了解决准确率和召回率冲突问题，引入了F1分数9、寻找数据集中的关系是为了寻找精确、方便并且有价值地总结出数据的某一特征的表示，这个过程包括了以下哪些步骤？(ABCD)(多选)A、选择一个算法过程使评分函数最优B、决定如何量化和比较不同表示拟合数据的好坏C、决定要使用的表示的特征和结构D、决定用什么样的数据管理原则以高效地实现算法10、Pandas处理缺失值的函数有？(A)A、fillna()B、fit()C、predict()D、iloc()A、元组B、列表C、字典D、集合E、函数12、Python 标准数据类型为元组，如何标识？（B）A．[]B．（）C．{}D．“”13、一般k-NN最近邻方法在（B）的情况下效果较好A样本较多但典型性不好B样本较少但典型性好C样本呈团状分布D样本呈链状分布14、当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?（B）A、分类B、聚类C、关联规则发现D、主成分分析15、以下哪些算法是监督学习算法：（ABD）（多选）A、朴素贝叶斯B、LinearRegressionC、K-MeansD、支持向量机1、下面有关分类算法的准确率，召回率，F1值的描述，错误的是（C）准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率正确率、召回率和F值取值都在0和1之间，数值越接近0,查准率或查全率就越高为了解决准确率和召回率冲突问题，引入了F1分数2、寻找数据集中的关系是为了寻找精确、方便并且有价值地总结出数据的某一特征的表示，这个过程包括了以下哪些步骤？（ABCD）（多选）A、选择一个算法过程使评分函数最优B、决定如何量化和比较不同表示拟合数据的好坏C、决定要使用的表示的特征和结构D、决定用什么样的数据管理原则以高效地实现算法3、Pandas处理缺失值的函数有？（A）A、回归问题B、聚类问题C、二分类问题D、多分类问题A、fillna()B、fit()C、predict()D、iloc()4、Python内建的数据类型有哪些？(ABCDE)A、元组B、列表C、字典D、集合E、函数5、Python标准数据类型为元组，如何标识？(B)A．[]B．()C．{}D．“”6、一般k-NN最近邻方法在(B)的情况下效果较好A样本较多但典型性不好B样本较少但典型性好C样本呈团状分布D样本呈链状分布7、当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A、分类B、聚类C、关联规则发现D、主成分分析8、以下哪些算法是监督学习算法：(ABD)(多选)A、朴素贝叶斯B、LinearRegressionC、K-MeansD、支持向量机9、以下哪项关于决策树的说法是错误的(C)A、冗余属性不会对决策树的准确率造成不利的影响B、子树可能在决策树中重复多次C、决策树算法对于噪声的干扰非常敏感D、寻找最佳决策树是NP完全问题10、NaveBayes是Bayes分类器的一种，如特征变量是X,类别标签是C,它的假定是(C)A、各类别的先验概率P(C)是相等的B、以0为均值.sqr(2)/2为标准差的正态分布C、特征变量X的各个维度是类别条件独立随机变量D、P(X|C)是高斯分布11、逻辑回归适用于以下哪个问题(C)12、Lass。回归与传统的线性回归方程区别是（A）A、增加L1范数惩罚因子B、增加L2范数惩罚因子C、无区别D、Lasso回归是线性方程在sigmoid函数上的嵌套13、概率论中P（A|B）表示什么意思？（B）A、A事件发生情况下B事件的概率B、B事件发生的情况下A事件发生的概率C、A事件和B事件同时发生的概率D、A事件或者B事件发生的概率14、未来房价的预测，这种属于数据挖掘的哪类问题？（D）A.分类B.聚类C.关联规则D.回归分析15、如果我使用数据集的全部特征并且能够达到100%的准确率，但在测试集上仅能达到70%左右，这说明（C）欠拟合模型很棒过拟合1、以下哪项关于决策树的说法是错误的（C）A、冗余属性不会对决策树的准确率造成不利的影响B、子树可能在决策树中重复多次C、决策树算法对于噪声的干扰非常敏感D、寻找最佳决策树是NP完全问题2、NaveBayes是Bayes分类器的一种，如特征变量是X,类别标签是C,它的假定是（C）A、各类别的先验概率P（C）是相等的B、以0为均值.sqr（2）/2为标准差的正态分布C、特征变量X的各个维度是类别条件独立随机变量D、P（X|C）是高斯分布3、逻辑回归适用于以下哪个问题（C）4、Lass。回归与传统的线性回归方程区别是（A）A、增加L1范数惩罚因子B、增加L2范数惩罚因子C、无区别D、Lasso回归是线性方程在sigmoid函数上的嵌套5、概率论中P（A|B）表示什么意思？（B）A、A事件发生情况下B事件的概率B、B事件发生的情况下A事件发生的概率C、A事件和B事件同时发生的概率D、A事件或者B事件发生的概率6、未来房价的预测，这种属于数据挖掘的哪类问题？（D）A.分类B.聚类C.关联规则D.回归分析7、如果我使用数据集的全部特征并且能够达到100%的准确率，但在测试集上仅能达到70%左右，这说明（C）欠拟合模型很棒过拟合8、关于欠拟合（under-fitting）,下面哪个说法是正确的？（C）训练误差较大，测试误差较小训练误差较小，测试误差较大训练误差较大，测试误差较大9、某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布.这种属于数据挖掘的哪类问题？（A）A、关联规则发现B、聚类C、分类D、自然语言处理10、使用k=l的knn算法，下图二类分类问题，“+”和“o”分别代表两个类,那么,用仅拿出一个测试样本的交叉验证方法,交叉验证的错误率是多少（B）-101234X0%B．100%0%到100以上都不是11、如果在大型数据集上训练决策树。为了花费更少的时间来训练这个模型，下列哪种做法是正确的？(C)增加树的深度增加学习率减小树的深度减少树的数量12、以下两种描述分别对应哪两种对分类算法的评价标准？(A)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。描述有多少比例的小偷给警察抓了的标准。Precision,RecallRecall,PrecisionPrecision,ROCRecall,ROC13、以下描述错误的是？(AC)ASVM是这样一个分类器，他寻找具有最小边缘的超平面，因此它也经常被称为最小边缘分类器(minimalmarginclassifier)B在聚类分析中，簇内的相似性越大，簇间的差别越大，聚类的效果越好C在决策树中，随着树中节点变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题D聚类分析可以看做是一种非监督的分类14、假定某同学使用NaiveBayesian(NB)分类模型时，不小心将训练数据的两个维度搞重复了，那么关于NB的说法中正确的是(BD)(多选)A、这个被重复的特征在模型中的决定作用会被加强B、模型效果相比无重复特征的情况下精确度会降低C、如果所有特征都被重复一遍，得到的模型预测结果相对于不重复的情况下的模型预测结果一样D、当两列特征高度相关时，无法用两列特征相同时所得到的结论来分析问题15、决策树中那类节点不包括属性？(D)A、根节点B、父节点C、子节点D、叶子节点？1、未来房价的预测，这种属于数据挖掘的哪类问题？(D)A.分类B.聚类C.关联规则D.回归分析2、如果我使用数据集的全部特征并且能够达到100%的准确率，但在测试集上仅能达到70%左右，这说明(C)欠拟合模型很棒过拟合3、关于欠拟合(under-fitting),下面哪个说法是正确的？(C)训练误差较大，测试误差较小训练误差较小，测试误差较大训练误差较大，测试误差较大4、某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布.这种属于数据挖掘的哪类问题？(A)A、关联规则发现B、聚类C、分类D、自然语言处理5、使用k=l的knn算法，下图二类分类问题，“+”和“o”分别代表两个类,那么，用仅拿出一个测试样本的交叉验证方法，交叉验证的错误率是多少(B)-101234X0%B．100%0%到100以上都不是6、如果在大型数据集上训练决策树。为了花费更少的时间来训练这个模型，下列哪种做法是正确的？(C)增加树的深度增加学习率减小树的深度减少树的数量7、以下两种描述分别对应哪两种对分类算法的评价标准？(A)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。描述有多少比例的小偷给警察抓了的标准。A.Precision,RecallB.Recall,PrecisionC.Precision,ROCD.Recall,ROC8、以下描述错误的是？（AC）ASVM是这样一个分类器，他寻找具有最小边缘的超平面，因此它也经常被称为最小边缘分类器（minimalmarginclassifier）B在聚类分析中，簇内的相似性越大，簇间的差别越大，聚类的效果越好C在决策树中，随着树中节点变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题D聚类分析可以看做是一种非监督的分类9、假定某同学使用NaiveBayesian（NB）分类模型时，不小心将训练数据的两个维度搞重复了，那么关于NB的说法中正确的是（BD）（多选）A、这个被重复的特征在模型中的决定作用会被加强B、模型效果相比无重复特征的情况下精确度会降低C、如果所有特征都被重复一遍，得到的模型预测结果相对于不重复的情况下的模型预测结果一样D、当两列特征高度相关时，无法用两列特征相同时所得到的结论来分析问题10、决策树中那类节点不包括属性？（D）A、根节点B、父节点C、子节点D、叶子节点？11、以下哪些算法是分类算法？（B）A、DBSCANB、LogisticregressionC、K-MeanD、EM12、以下哪个是回归模型评判的指标？（A）A、mean_squared_error（MSE）B、准确率C、召回率D、轮廓系数13、关于K均值和DBSCAN的比较.以下说法不正确的是？（A）A、K均值丢弃被它识别为噪声的对象.而DBSCAN一般聚类所有对象B、K均值使用簇的基于原型的概念.而DBSCAN使用基于密度的概念C、K均值很难处理非球形的簇和不同大小的簇.DBSCAN可以处理不同大小和不同形状的簇D、K均值可以发现不是明显分离的簇.即便簇有重叠也可以发现.但是DBSCAN会合并有重叠的簇14、简单地将数据对象集划分成不重叠的子集.使得每个数据对象恰在一个子集中.这种聚类类型称作？(B)A、层次聚类B、划分聚类C、非互斥聚类D、密度聚类15、将两个簇的邻近度定义为不同簇的所有点对的邻近度的平均值，它是一种(C)凝聚层次聚类技术。A、单链接B、全链接C、组平均D、质心距离1、如果在大型数据集上训练决策树。为了花费更少的时间来训练这个模型，下列哪种做法是正确的？(C)增加树的深度增加学习率减小树的深度减少树的数量2、以下两种描述分别对应哪两种对分类算法的评价标准？(A)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。描述有多少比例的小偷给警察抓了的标准。Precision,RecallRecall,PrecisionPrecision,ROCRecall,ROC3、以下描述错误的是？(AC)ASVM是这样一个分类器，他寻找具有最小边缘的超平面，因此它也经常被称为最小边缘分类器(minimalmarginclassifier)B在聚类分析中，簇内的相似性越大，簇间的差别越大，聚类的效果越好C在决策树中，随着树中节点变得太大，即使模型的训练误差还在继续减低，但是检验误差开始增大，这是出现了模型拟合不足的问题D聚类分析可以看做是一种非监督的分类4、假定某同学使用NaiveBayesian（NB）分类模型时，不小心将训练数据的两个维度搞重复了，那么关于NB的说法中正确的是（BD）（多选）A、这个被重复的特征在模型中的决定作用会被加强B、模型效果相比无重复特征的情况下精确度会降低C、如果所有特征都被重复一遍，得到的模型预测结果相对于不重复的情况下的模型预测结果一样D、当两列特征高度相关时，无法用两列特征相同时所得到的结论来分析问题5、决策树中那类节点不包括属性？（D）A、根节点B、父节点C、子节点D、叶子节点？6、以下哪些算法是分类算法？（B）A、DBSCANB、LogisticregressionC、K-MeanD、EM7、以下哪个是回归模型评判的指标？（A）A、mean_squared_error（MSE）B、准确率C、召回率D、轮廓系数8、关于K均值和DBSCAN的比较.以下说法不正确的是？（A）A、K均值丢弃被它识别为噪声的对象.而DBSCAN一般聚类所有对象B、K均值使用簇的基于原型的概念.而DBSCAN使用基于密度的概念C、K均值很难处理非球形的簇和不同大小的簇.DBSCAN可以处理不同大小和不同形状的簇D、K均值可以发现不是明显分离的簇.即便簇有重叠也可以发现.但是DBSCAN会合并有重叠的簇9、简单地将数据对象集划分成不重叠的子集.使得每个数据对象恰在一个子集中.这种聚类类型称作？（B）A、层次聚类B、划分聚类C、非互斥聚类D、密度聚类10、将两个簇的邻近度定义为不同簇的所有点对的邻近度的平均值，它是一种（C）凝聚层次聚类技术。A、单链接B、全链接C、组平均D、质心距离11、影响基本K-均值算法的主要因素不包括？（A）A、样本输入顺序B、模式相似性测度C、聚类准则D、初始类中心的选取12、下列关于凝聚层次聚类的说法，说法错误的是？（D）—旦两个簇合并，该操作就不能撤销算法的终止条件是仅剩下一个簇空间复杂度为°（m2）具有全局优化目标函数13、下列哪个描述是正确的？（C）分类和聚类都是有指导的学习分类和聚类都是无指导的学习分类是有指导的学习，聚类是无指导的学习分类是无指导的学习，聚类是有指导的学习14、将两个簇的邻近度定义为不同簇中任意两点的最短距离，它是哪一种凝聚层次聚类技术？（A）A.MIN（单链）B.MAX（全链）组平均D.Ward方法15、对于下图,最好的主成分选择是多少?（B）p①匚_nJ-dxIBOJQUfnura>coEQdcucJaAtiro-nEnoA.7B．30C．35D．Can'tSay1、决策树中那类节点不包括属性？（D）A、根节点B、父节点C、子节点D、叶子节点？2、以下哪些算法是分类算法？（B）A、DBSCANB、LogisticregressionC、K-MeanD、EM3、以下哪个是回归模型评判的指标？（A）A、mean_squared_error（MSE）B、准确率C、召回率D、轮廓系数4、关于K均值和DBSCAN的比较.以下说法不正确的是？（A）A、K均值丢弃被它识别为噪声的对象.而DBSCAN一般聚类所有对象B、K均值使用簇的基于原型的概念.而DBSCAN使用基于密度的概念C、K均值很难处理非球形的簇和不同大小的簇.DBSCAN可以处理不同大小和不同形状的簇D、K均值可以发现不是明显分离的簇.即便簇有重叠也可以发现.但是DBSCAN会合并有重叠的簇5、简单地将数据对象集划分成不重叠的子集.使得每个数据对象恰在一个子集中.这种聚类类型称作？（B）A、层次聚类B、划分聚类C、非互斥聚类D、密度聚类6、将两个簇的邻近度定义为不同簇的所有点对的邻近度的平均值，它是一种（C）凝聚层次聚类技术。A、单链接B、全链接C、组平均D、质心距离7、影响基本K-均值算法的主要因素不包括？（A）A、样本输入顺序B、模式相似性测度C、聚类准则D、初始类中心的选取8、下列关于凝聚层次聚类的说法，说法错误的是？（D）A.—旦两个簇合并，该操作就不能撤销算法的终止条件是仅剩下一个簇空间复杂度为°（m2）具有全局优化目标函数9、下列哪个描述是正确的？（C）分类和聚类都是有指导的学习分类和聚类都是无指导的学习分类是有指导的学习，聚类是无指导的学习分类是无指导的学习，聚类是有指导的学习10、将两个簇的邻近度定义为不同簇中任意两点的最短距离，它是哪一种凝聚层次聚类技术？（A）A.MIN（单链）B.MAX（全链）组平均D.Ward方法11、对于下图,最好的主成分选择是多少?（B）A.7丽-dxI.LltuJXJfn匸raA』口c口EQdcucJaAGro-nEno3035Can'tSay12、对于下面三个模型的训练情况，下面说法正确的是（ACD）A第一张图的训练错误与其余两张图相比，是最大的B最后一张图的训练效果最好，因为训练错误最小C第二张图比第一和第三张图鲁棒性更强，是三个里面表现最好的模型第三张图相对前两张图过拟合了D三个图表现一样，因为我们还没有测试数据集13、推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于（D）,推测客户将来可能的购买行为。A、客户的朋友B、客户的个人信息C、客户的兴趣爱好D、客户过去的购买行为和购买记录14、下列哪些适合用来对高维数据进行降维？（BC）（多选）A、LASSOB、主成分分析法C、特征选择D、聚类分析15、协同过滤算法解决的是数据挖掘中的哪类问题？（C）A、分类问题B、聚类问题C、推荐问题D、自然语言处理问题1、影响基本K-均值算法的主要因素不包括？（A）A、样本输入顺序B、模式相似性测度C、聚类准则D、初始类中心的选取2、下列关于凝聚层次聚类的说法，说法错误的是？（D）—旦两个簇合并，该操作就不能撤销算法的终止条件是仅剩下一个簇C.空间复杂度为°（m2）具有全局优化目标函数3、下列哪个描述是正确的？（C）分类和聚类都是有指导的学习分类和聚类都是无指导的学习分类是有指导的学习，聚类是无指导的学习分类是无指导的学习，聚类是有指导的学习4、将两个簇的邻近度定义为不同簇中任意两点的最短距离，它是哪一种凝聚层次聚类技术？（A）A.MIN（单链）B.MAX（全链）组平均D.Ward方法5、对于下图,最好的主成分选择是多少?（B）A.7p①匚丽-dxI.LltuJXJfn匸raA-0coaAGro-nEno3035Can'tSay6、对于下面三个模型的训练情况，下面说法正确的是（ACD）A第一张图的训练错误与其余两张图相比，是最大的B最后一张图的训练效果最好，因为训练错误最小C第二张图比第一和第三张图鲁棒性更强，是三个里面表现最好的模型第三张图相对前两张图过拟合了D三个图表现一样，因为我们还没有测试数据集7、推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于(D),推测客户将来可能的购买行为。A、客户的朋友B、客户的个人信息C、客户的兴趣爱好D、客户过去的购买行为和购买记录8、下列哪些适合用来对高维数据进行降维？(BC)(多选)A、LASSOB、主成分分析法C、特征选择D、聚类分析9、协同过滤算法解决的是数据挖掘中的哪类问题？(C)A、分类问题B、聚类问题C、推荐问题D、自然语言处理问题10、通过聚集多个分类器的预测来提高分类准确率的技术称为(A)A、集成(ensemble)B、聚集(aggregate)C、合并(combination)D、投票(voting)11、对于随机森林和GradientBoostingTrees,下面说法正确的是(B)A在随机森林的单个树中,树和树之间是有依赖的,而GradientBoostingTrees中的单个树之间是没有依赖的.B这两个模型都使用随机特征子集,来生成许多单个的树.C我们可以并行地生成GradientBoostingTrees单个树，因为它们之间是没有依赖的，GradientBoostingTrees训练模型的表现总是比随机森林好12、图像分类存在的困难和挑战主要包括(ABCDEF)(多选)A、视角变化B、大小变化C、形状变化D、遮挡E、光照条件F、背景干扰13、下面那个算法可以将文本数据转换为数值数据？(A)A、TF-IDFB、决策树C、PCAD、DBSCAN14、在以下不同的场景中，使用的分析方法不正确的有(B)A根据商家最近一年的经营及服务数据，用聚类算法判断出天猫商家在各自主营类目下所属的商家层级B根据商家近几年的成交数据，用聚类算法拟合出用户未来一个月可能的消费金额公式C用关联规则算法分析出购买了汽车坐垫的买家，是否适合推荐汽车脚垫D根据用户最近购买的商品信息，用决策树算法识别出淘宝买家可能是男还是女15、以下对k-means聚类算法解释正确的是(C)A能自动识别类的个数，随即挑选初始点为中心点计算B能自动识别类的个数，不是随即挑选初始点为中心点计算C不能自动识别类的个数，随即挑选初始点为中心点计算D不能自动识别类的个数,不是随即挑选初始点为中心点计算1、以下哪些算法是监督学习算法：(ABD)(多选)A、朴素贝叶斯B、LinearRegressionC、K-MeansD、支持向量机2、逻辑回归适用于以下哪个问题(C)A、回归问题B、聚类问题C、二分类问题D、多分类问题3、未来房价的预测，这种属于数据挖掘的哪类问题？(D)A.分类B.聚类C.关联规则D.回归分析4、某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布.这种属于数据挖掘的哪类问题？(A)A、关联规则发现B、聚类C、分类D、自然语言处理5、以下两种描述分别对应哪两种对分类算法的评价标准？(A)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。描述有多少比例的小偷给警察抓了的标准。Precision,RecallRecall,PrecisionPrecision,ROCRecall,ROC6、决策树中那类节点不包括属性？(D)A、根节点B、父节点C、子节点D、叶子节点？7、关于K均值和DBSCAN的比较.以下说法不正确的是？(A)A、K均值丢弃被它识别为噪声的对象.而DBSCAN一般聚类所有对象B、K均值使用簇的基于原型的概念.而DBSCAN使用基于密度的概念C、K均值很难处理非球形的簇和不同大小的簇.DBSCAN可以处理不同大小和不同形状的簇D、K均值可以发现不是明显分离的簇.即便簇有重叠也可以发现.但是DBSCAN会合并有重叠的簇8、影响基本K-均值算法的主要因素不包括？(A)A、样本输入顺序B、模式相似性测度C、聚类准则D、初始类中心的选取9、将两个簇的邻近度定义为不同簇中任意两点的最短距离，它是哪一种凝聚层次聚类技术？(A)A.MIN(单链)B.MAX(全链)C.组平均D.Ward方法10、推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于(D),推测客户将来可能的购买行为。A、客户的朋友B、客户的个人信息C、客户的兴趣爱好D、客户过去的购买行为和购买记录11、通过聚集多个分类器的预测来提高分类准确率的技术称为(A)A、集成(ensemble)B、聚集(aggregate)C、合并(combination)D、投票(voting)12、对于随机森林和GradientBoostingTrees,下面说法正确的是(B)A在随机森林的单个树中,树和树之间是有依赖的,而GradientBoostingTrees中的单个树之间是没有依赖的.B这两个模型都使用随机特征子集,来生成许多单个的树.C我们可以并行地生成GradientBoostingTrees单个树，因为它们之间是没有依赖的，GradientBoostingTrees训练模型的表现总是比随机森林好13、下面那个算法可以将文本数据转换为数值数据？(A)A、TF-IDFB、决策树C、PCAD、DBSCAN14、在以下不同的场景中，使用的分析方法不正确的有(B)A根据商家最近一年的经营及服务数据，用聚类算法判断出天猫商家在各自主营类目下所属的商家层级B根据商家近几年的成交数据，用聚类算法拟合出用户未来一个月可能的消费金额公式C用关联规则算法分析出购买了汽车坐垫的买家，是否适合推荐汽车脚垫D根据用户最近购买的商品信息，用决策树算法识别出淘宝买家可能是男还是女15、下列关于PCA说法正确的是(ABD)?在使用PCA之前，我们必须标准化数据应该选择具有最大方差的主成分应该选择具有最小方差的主成分可以使用PCA在低维空间中可视化数据第7章管理规则与协同过滤1)某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？（A）A.关联规则发现B.聚类C.分类D.自然语言处理2）设X={1,2,3}是频繁项集，则可由X产生（C）个关联规则。A.4B.5C.6D.73）考虑下面的频繁3-项集的集合：{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含（C）A.1,2,3,4B.1,2,3,5C.1,2,4,5D.1,3,4,54）在图集合中发现一组公共子结构,这样的任务称为（B）频繁子集挖掘B.频繁子图挖掘C.频繁数据项挖掘D.频繁模式挖掘5）下面购物蓝能够提取的3-项集的最大数量是多少（C）TID项集1牛奶，啤酒，尿布2面包，黄油，牛奶3牛奶,尿布,饼干4面包，黄油，饼干5啤酒，饼干，尿布6牛奶,尿布,面包，黄油7面包，黄油，尿布8啤酒，尿布9牛奶,尿布,面包，黄油10啤酒，饼干A.1B.2C.3D.46）可用作数据挖掘分析中的关联规则算法有（C）。决策树、对数回归、关联模式K均值法、SOM神经网络Apriori算法、FP-Tree算法RBF神经网络、K均值法、决策树7）关联规则的评价指标是：（C）。均方误差、均方根误差Kappa统计、显著性检验支持度、置信度平均绝对误差、相对误差8）分析顾客消费行业，以便有针对性的向其推荐感兴趣的服务，属于（A）问A.关联规则挖掘B.分类与回归C.聚类分析D.时序预测9）协同过滤分析用户兴趣,在用户群中找到指定用户的相似（兴趣）用户,综合这些用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度（D）,并将这些用户喜欢的项推荐给有相似兴趣的用户。A.相似B.相同C.推荐D.预测10）通过数据收集和展示数据背后的（D）,运用丰富的、具有互动性的可视化手段,数据新闻学成为新闻学作为一门新的分支进入主流媒体,即用数据报道新闻。数据收集B.数据挖掘C.真相D.关联与模式11）发现关联规则的算法通常要经过以下三个步骤：连接数据,作数据准备；给定最小支持度和（D）,利用数据挖掘工具提供的算法发现关联规则；可视化显示、理解、评估关联规则A.最小兴趣度B.最小置信度C.最大支持度D.最小可信度12）规则I->j,“有可能”,等于所有包含I的购物篮中同时包含J的购物篮的比例，为（B）。A.置信度B.可信度C.兴趣度D.支持度13)关于频繁模式，下面哪一个陈述是正确的？(B)A、K项集频繁则K-1项则必定不频繁B、K项集频繁则K-1项则必定频繁C、K项集不频繁则K-1项则必定频繁D、以上都不正确14)频繁项集、频繁闭项集、最大频繁项集之间的关系是：(C)A、频繁项集频繁闭项集=最大频繁项集B、频繁项集=频繁闭项集最大频繁项集C、频繁项集频繁闭项集最大频繁项集D、频繁项集=频繁闭项集=最大频繁项集15)以下关于非频繁模式说法,正确的是？(D)A、其支持度大于阈值B、都是不让人感兴趣的C、空包含负模式和负相关模式D、具对异常数据项敏感多选题第7章管理规则与协同过滤利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以下的购物篮中产生支持度不小于3的候选3-项集，在候选2-项集中需要剪枝的是(BD)A.支持度阀值B.项数(维度)TID项集1面包、牛奶2面包、尿布、啤酒、鸡蛋3牛奶、尿布、啤酒、可乐4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可乐A.啤酒、尿布C.面包、尿布啤酒、面包D.啤酒、牛奶2)下表是一个购物篮,假定支持度阈值为40%,其中(AD)是频繁闭项集ID项集1面包、牛奶、尿布2面包、牛奶、尿布、啤酒3牛奶、尿布、鸡蛋4面包、尿布、啤酒、鸡蛋5啤酒、鸡蛋A.面包、牛奶、尿布B.面包、啤酒C.尿布、啤酒D.啤酒、鸡蛋3)Apriori算法的计算复杂度受(ABCD)影响C.事务数D.事务平均宽度4）以下关于非频繁模式说法,正确的是（AD）A.其支持度小于阈值B.都是不让人感兴趣的包含负模式和负相关模式D.对异常数据项敏感5）推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于网站最热卖商品、客户所处城市、（D）,推测客户将来可能的购买行为。A.客户的朋友B.客户的个人信息C.客户的兴趣爱好D.客户过去的购买行为和购买记录6）Apriori算法的计算复杂度受__（ABCD）__影响。A、支持度阀值B、项数（维度）C、事务数D、事务平均宽度7）下表是一个购物篮，假定支持度阈值为40%，其中__（AD）__是频繁闭项集。TID项abcabcdbceacdedeA、abcB、adC、cdD、de8）可用作数据挖掘分析中的关联规则算法有（AC）协同过滤K均值法Apriori算法决策树

                    本文档为【数据挖掘 选择题】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

数据挖掘 选择题

你可能还喜欢

数据挖掘选择题