Hadoop题库

Hadoop题库1.以下哪一项不属于Hadoop可以运行的模式___C___。A.单机（本地）模式B.伪分布式模式C.互联模式D.分布式模式2.Hadoop的作者是下面哪一位__B____。A.MartinFowlerB.DougcuttingC.KentBeckD.GraceHopper3.下列哪个程序通常与NameNode在同一个节点启动__D___。A.TaskTrackerB.DataNodeC.SecondaryNameNodeD.Jobtracker4.HDFS默认BlockSize的大小是___B___。A.32MB...

1.以下哪一项不属于Hadoop可以运行的模式___C___。A.单机（本地）模式B.伪分布式模式C.互联模式D.分布式模式2.Hadoop的作者是下面哪一位__B____。A.MartinFowlerB.DougcuttingC.KentBeckD.GraceHopper3.下列哪个程序通常与NameNode在同一个节点启动__D___。A.TaskTrackerB.DataNodeC.SecondaryNameNodeD.Jobtracker4.HDFS默认BlockSize的大小是___B___。A.32MBB.64MBC.128MBD.256M5.下列哪项通常是集群的最主要瓶颈____C__。A.CPUB.网络C.磁盘IOD.内存6.下列关于MapReduce说法不正确的是_____C_。A.MapReduce是一种计算框架B.MapReduce来源于google的学术论文C.MapReduce程序只能用java语言编写D.MapReduce隐藏了并行计算的细节，方便使用8.HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是__D____。A．一次写入，少次读B．多次写入，少次读C．多次写入，多次读D．一次写入，多次读9.HBase依靠__A____存储底层数据。A.HDFSB.HadoopC.MemoryD.MapReduce10.HBase依赖___D___提供强大的计算能力。A.ZookeeperB.ChubbyC.RPCD.MapReduce11.HBase依赖___A___提供消息通信机制A.ZookeeperB.ChubbyC.RPCD.Socket12.下面与HDFS类似的框架是___C____？A.NTFSB.FAT32C.GFSD.EXT313.关于SecondaryNameNode下面哪项是正确的___C___。A.它是NameNode的热备B.它对内存没有要求C.它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间D.SecondaryNameNode应与NameNode部署到一个节点14.大数据的特点不包括下面哪一项___D___。A.巨大的数据量B.多结构化数据C.增长速度快D.价值密度高HBase测试题 1.HBase来源于哪一项？CATheGoogleFileSystemBMapReduceCBigTableDChubby2.下面对HBase的描述哪些是正确的？B、C、DA不是开源的B是面向列的C是分布式的D是一种NoSQL数据库3.HBase依靠（）存储底层数据AAHDFSBHadoopCMemoryDMapReduce4.HBase依赖（）提供消息通信机制AAZookeeperBChubbyCRPCDSocket5.HBase依赖（）提供强大的计算能力DAZookeeperBChubbyCRPCDMapReduce6.MapReduce与HBase的关系，哪些描述是正确的？B、CA两者不可或缺，MapReduce是HBase可以正常运行的保证B两者不是强关联关系，没有MapReduce，HBase可以正常运行CMapReduce可以直接访问HBaseD它们之间没有任何关系7.下面哪些选项正确描述了HBase的特性？A、B、C、DA高可靠性B高性能C面向列D可伸缩8.下面与Zookeeper类似的框架是？DAProtobufBJavaCKafkaDChubby9.下面与HDFS类似的框架是？CANTFSBFAT32CGFSDEXT310.下面哪些概念是HBase框架中使用的？A、CAHDFSBGridFSCZookeeperDEXT3第二部分：HBase核心知识点11.LSM含义是？AA日志结构合并树B二叉树C平衡二叉树D基于日志结构的合并树12.下面对LSM结构描述正确的是？A、CA顺序存储B直接写硬盘C需要将数据Flush到磁盘D是一种搜索平衡树13.LSM更能保证哪种操作的性能？BA读B写C随机读D合并14.LSM的读操作和写操作是独立的？AA是。B否。CLSM并不区分读和写DLSM中读写是同一种操作15.LSM结构的数据首先存储在（）。BA硬盘上B内存中C磁盘阵列中D闪存中16HFile数据格式中的Data字段用于（）。AA存储实际的KeyValue数据B存储数据的起点C指定字段的长度D存储数据块的起点17HFile数据格式中的MetaIndex字段用于（）。DAMeta块的长度BMeta块的结束点CMeta块数据内容DMeta块的起始点18HFile数据格式中的Magic字段用于（）。AA存储随机数，防止数据损坏B存储数据的起点C存储数据块的起点D指定字段的长度19HFile数据格式中的KeyValue数据格式，下列选项描述正确的是（）。A、DA是byte[]数组B没有固定的结构C数据的大小是定长的D有固定的结构20HFile数据格式中的KeyValue数据格式中Value部分是（）。CA拥有复杂结构的字符串B字符串C二进制数据D压缩数据第三部分：HBase高级应用介绍31HBase中的批量加载底层使用（）实现。AAMapReduceBHiveCCoprocessorDBloomFilter32.HBase性能优化包含下面的哪些选项？A、B、C、DA读优化B写优化C配置优化DJVM优化33.Rowkey设计的原则，下列哪些选项的描述是正确的？A、B、CA尽量保证越短越好B可以使用汉字C可以使用字符串D本身是无序的34.HBase构建二级索引的实现方式有哪些？A、BAMapReduceBCoprocessorCBloomFilterDFilter35.关于HBase二级索引的描述，哪些是正确的？A、BA核心是倒排表B二级索引概念是对应Rowkey这个“一级”索引C二级索引使用平衡二叉树D二级索引使用LSM结构36.下列关于BloomFilter的描述正确的是？A、CA是一个很长的二进制向量和一系列随机映射函数B没有误算率C有一定的误算率D可以在BloomFilter中删除元素第四部分：HBase安装、部署、启动37.HBase官方版本可以安装在什么操作系统上？A、B、CACentOSBUbuntuCRedHatDWindows38.HBase虚拟分布式模式需要（）个节点？AA1B2C3D最少3个39.HBase分布式模式最好需要（）个节点？CA1B2C3D最少关于hadoop的选择题1、DougCutting所创立的项目的名称都受到其家人的启发，以下项目不是由他创立的项目是A．HadoopB．NutchC．LuceneD．Solr答案：D2、配置Hadoop时，JAVA_HOME包含在哪一个配置文件中A．hadoop-default.xmlB．hadoop-env.shC．hadoop-site.xmlD．configuration.xsl答案：B知识点：hadoop配置3、Hadoop配置文件中，hadoop-site.xml显示覆盖hadoop-default.xml里的内容。在版本0.20中，hadoop-site.xml被分离成三个XML文件，不包括A．conf-site.xmlB．mapred-site.xmlC．core-site.xmlD．hdfs-site.xml答案：A知识点：hadoop配置4、A.mapred-site.xmlB.core-site.xmlC.hdfs-site.xmlD.以上均不是答案：B知识点：hadoop配置5、关于Hadoop单机模式和伪分布式模式的说法，正确的是A．两者都起守护进程，且守护进程运行在一台机器上B．单机模式不使用HDFS，但加载守护进程C．两者都不与守护进程交互，避免复杂性D．后者比前者增加了HDFS输入输出以及可检查内存使用情况答案：D知识点：hadoop配置6、下列关于HadoopAPI的说法错误的是A．Hadoop的文件API不是通用的，只用于HDFS文件系统B．Configuration类的默认实例化方法是以HDFS系统的资源配置为基础的C．FileStatus对象存储文件和目录的元数据D．FSDataInputStream是的子类答案：A//HDFS7、HDFS的NameNode负责管理文件系统的命名空间，将所有的文件和文件夹的元数据保存在一个文件系统树中，这些信息也会在硬盘上保存成以下文件：A．日志B．命名空间镜像C．两者都是答案：C知识点：8、HDFS的namenode保存了一个文件包括哪些数据块，分布在哪些数据节点上，这些信息也存储在硬盘上。A．正确B．错误答案：B知识点：在系统启动的时候从数据节点收集而成的9、Secondarynamenode就是namenode出现问题时的备用节点A．正确B．错误答案：B知识点：它和元数据节点负责不同的事情。其主要功能就是周期性将元数据节点的命名空间镜像文件和修改日志合并，以防日志文件过大。合并过后的命名空间镜像文件也在Secondarynamenode保存了一份，以防namenode失败的时候，可以恢复。10、出现在datanode的VERSION文件格式中但不出现在namenode的VERSION文件格式中的是A.namespaceIDB.storageIDC.storageTypeD.layoutVersion答案：B知识点：其他三项是公有的。layoutVersion是一个负整数，保存了HDFS的持续化在硬盘上的数据结构的格式版本号；namespaceID是文件系统的唯一标识符，是在文件系统初次格式化时生成的；storageType表示此文件夹中保存的是数据节点的类型11、Client在HDFS上进行文件写入时，namenode根据文件大小和配置情况，返回部分datanode信息，谁负责将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块A．ClientB．NamenodeC．DatanodeD．Secondarynamenode答案：A知识点：HDFS文件写入12、HDFS的是基于流数据模式访问和处理超大文件的需求而开发的，默认的最基本的存储单位是64M，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是A．一次写入，少次读写B．多次写入，少次读写C．一次写入，多次读写D．多次写入，多次读写答案：C知识点：HDFS特性13、HDFS无法高效存储大量小文件，想让它能处理好小文件，比较可行的改进策略不包括A．利用SequenceFile、MapFile、Har等方式归档小文件B．多Master设计C．Block大小适当调小D．调大namenode内存或将文件系统元数据存到硬盘里答案：D知识点：HDFS特性14、关于HDFS的文件写入，正确的是A．支持多用户对同一文件的写操作B．用户可以在文件任意位置进行修改C．默认将文件块复制成三份存放D．复制的文件块默认都存在同一机架上答案：C知识点：在HDFS的一个文件中只有一个写入者，而且写操作只能在文件末尾完成，即只能执行追加操作。默认三份文件块两块在同一机架上，另一份存放在其他机架上。15、Hadoopfs中的-get和-put命令操作对象是A．文件B．目录C．两者都是答案：C知识点：HDFS命令16、Namenode在启动时自动进入安全模式，在安全模式阶段，说法错误的是A．安全模式目的是在系统启动时检查各个DataNode上数据块的有效性B．根据策略对数据块进行必要的复制或删除C．当数据块最小百分比数满足的最小副本数条件时，会自动退出安全模式D．文件系统允许有修改答案：D知识点：HDFS安全模式//MapReduce17、MapReduce框架提供了一种序列化键/值对的方法，支持这种序列化的类能够在Map和Reduce过程中充当键或值，以下说法错误的是A．实现Writable接口的类是值B．实现WritableComparable接口的类可以是值或键C．Hadoop的基本类型Text并不实现WritableComparable接口D．键和值的数据类型可以超出Hadoop自身支持的基本类型答案：C18、以下四个Hadoop预定义的Mapper实现类的描述错误的是A．IdentityMapper实现Mapper，将输入直接映射到输出B．InverseMapper实现Mapper，反转键/值对C．RegexMapper实现Mapper，为每个常规表达式的匹配项生成一个(match,1)对D．TokenCountMapper实现Mapper，当输入的值为分词时，生成(taken,1)对答案：B知识点：InverseMapper实现Mapper19、下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计，错误的是A．FSDataInputStream扩展了DataInputStream以支持随机读B．为实现细粒度并行，输入分片(InputSplit)应该越小越好C．一台机器可能被指派从输入文件的任意位置开始处理一个分片D．输入分片是一种记录的逻辑划分，而HDFS数据块是对输入数据的物理分割答案：B知识点：每个分片不能太小，否则启动与停止各个分片处理所需的开销将占很大一部分执行时间20、针对每行数据内容为”TimestampUrl”的数据文件，在用JobConf对象conf设置conf.setInputFormat(WhichInputFormat.class)来读取这个文件时，WhichInputFormat应该为以下的A．TextInputFormatB．KeyValueTextInputFormatC．SequenceFileInputFormatD．NLineInputFormat答案：B知识点：四项主要的InputFormat类。KeyValueTextInputFormat以每行第一个分隔符为界，分隔符前为key，之后为value，默认制表符为\t21、有关MapReduce的输入输出，说法错误的是A．链接多个MapReduce作业时，序列文件是首选格式B．FileInputFormat中实现的getSplits()可以把输入数据划分为分片，分片数目和大小任意定义C．想完全禁止输出，可以使用NullOutputFormatD．每个reduce需将它的输出写入自己的文件中，输出无需分片答案：B知识点：分片数目在numSplits中限定，分片大小必须大于个字节，但小于文件系统的块22、HadoopStreaming支持脚本语言编写简单MapReduce程序，以下是一个例子：bin/hadoopjarcontrib/streaming/hadoop-0.20-streaming.jar—inputinput/filename—outputoutput—mapper‘dosth.py5’—filedosth.py23、以下说法不正确的是A．HadoopStreaming使用Unix中的流与程序交互B．HadoopStreaming允许我们使用任何可执行脚本语言处理数据流C．采用脚本语言时必须遵从UNIX的标准输入STDIN，并输出到STDOUTD．Reduce没有设定，上述命令运行会出现问题答案：D知识点：没有设定特殊的reducer，默认使用IdentityReducer24、在高阶数据处理中，往往无法把整个流程写在单个MapReduce作业中，下列关于链接MapReduce作业的说法，不正确的是A．Job和JobControl类可以管理非线性作业之间的依赖B．ChainMapper和ChainReducer类可以用来简化数据预处理和后处理的构成C．使用ChainReducer时，每个mapper和reducer对象都有一个本地JobConf对象D．ChainReducer.addMapper()方法中，一般对键/值对发送设置成值传递，性能好且安全性高答案：D知识点：ChainReducer.addMapper()方法中，值传递安全性高，引用传递性能高25、下面哪个程序负责HDFS数据存储。答案Cdatanodea)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker26.HDfS中的block默认保存几份？答案A默认3分a)3份b)2份c)1份d)不确定27.下列哪个程序通常与NameNode在一个节点启动？答案Da)SecondaryNameNodeb)DataNodec)TaskTrackerd)Jobtracker28.Hadoop作者答案CDougcuttinga)MartinFowlerb)KentBeckc)Dougcutting29.HDFS默认BlockSize答案：Ba)32MBb)64MBc)128MB30、下列哪项通常是集群的最主要瓶颈：答案：C磁盘a)CPUb)网络c)磁盘IOd)内存31.关于SecondaryNameNode哪项是正确的？答案Ca)它是NameNode的热备b)它对内存没有要求c)它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间d)SecondaryNameNode应与NameNode部署到一个节点。多选题：1.下列哪项可以作为集群的管理？答案：ABDa)Puppetb)Pdshc)ClouderaManagerd)Zookeeper2.配置机架感知的下面哪项正确：答案ABCa)如果一个机架出问题，不会影响数据读写b)写入数据的时候会写到不同机架的DataNode中c)MapReduce会根据机架获取离自己比较近的网络数据3.Client端上传文件的时候下列哪项正确？答案Ba)数据经过NameNode传递给DataNodeb)Client端将文件切分为Block，依次上传c)Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作4.下列哪个是Hadoop运行的模式：答案ABCa)单机版b)伪分布式c)分布式5.Cloudera提供哪几种安装CDH的方法？答案：ABCDa)Clouderamanagerb)Tarballc)Yumd)Rpm判断题：1.Ganglia不仅可以进行监控，也可以进行告警。（正确）2.BlockSize是不可以修改的。（错误）3.Nagios不可以监控Hadoop集群，因为它不提供Hadoop支持。（错误）4.如果NameNode意外终止，SecondaryNameNode会接替它使集群继续工作。（错误）5.ClouderaCDH是需要付费使用的。（错误）6.Hadoop是Java开发的，所以MapReduce只支持Java语言编写。（错误）7.Hadoop支持数据的随机读写。（错）8.NameNode负责管理metadata，client端每次读写请求，它都会从磁盘中读取或则会写入metadata信息并反馈client端。（错误）9.Hadoop自身具有严格的权限管理和安全措施保障集群正常运行。（错误）10.Slave节点要存储数据，所以它的磁盘越大越好。（错误）11.hadoopdfsadmin–report命令用于检测HDFS损坏块。（错误）12.Hadoop默认调度器策略为FIFO（正确）13.集群内每个节点都应该配RAID，这样避免单磁盘损坏，影响整个节点运行。（错误）14.因为HDFS有多个副本，所以NameNode是不存在单点问题的。（错误）15.每个map槽就是一个线程。（错误）16.Mapreduce的inputsplit就是一个block。（错误）17.DataNode首次加入cluster的时候，如果log中报告不兼容文件版本，那需要NameNode执行“Hadoopnamenode-format”操作格式化磁盘。（错误）18.NameNode的WebUI端口是50030，它通过jetty启动的Web服务。（错误）19.Hadoop环境变量中的HADOOP_HEAPSIZE用于设置所有Hadoop守护线程的内存。它默认是200GB。（错误）

                    本文档为【Hadoop题库】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：￥18.0 已有0 人下载

立即下载

Hadoop题库

你可能还喜欢