首页 面试笔试题_大数据_Spark_简答_专项练习(9)

面试笔试题_大数据_Spark_简答_专项练习(9)

举报
开通vip

面试笔试题_大数据_Spark_简答_专项练习(9)天津丁未春风科技有限公司试卷部分1、有10个⽂件,每个⽂件1G,每个⽂件的每⼀⾏存放的都是⽤⼾的query,每个⽂件的query都可能重复。要求你按照query的频度排序。2、JVM&垃圾回收机制3、在5亿个整数中找出不重复的整数,注,内存不⾜以容纳这5亿个整数。4、腾讯⾯试题:给40亿个不重复的unsignedint的整数,没排过序的,然后再给⼀个数,如何快速判断这个数是否在那40亿个数当中?5、怎么在海量数据中找出重复次数最多的⼀个?6、上千万或上亿数据(有重复),统计其中出现次数最多的钱N个数据。7、⼀个⽂本...

面试笔试题_大数据_Spark_简答_专项练习(9)
天津丁未春风科技有限公司试卷部分1、有10个⽂件,每个⽂件1G,每个⽂件的每⼀⾏存放的都是⽤⼾的query,每个⽂件的query都可能重复。要求你按照query的频度排序。2、JVM&垃圾回收机制3、在5亿个整数中找出不重复的整数,注,内存不⾜以容纳这5亿个整数。4、腾讯⾯ 试题 中考模拟试题doc幼小衔接 数学试题 下载云南高中历年会考数学试题下载N4真题下载党史题库下载 :给40亿个不重复的unsignedint的整数,没排过序的,然后再给⼀个数,如何快速判断这个数是否在那40亿个数当中?5、怎么在海量数据中找出重复次数最多的⼀个?6、上千万或上亿数据(有重复),统计其中出现次数最多的钱N个数据。7、⼀个⽂本⽂件,⼤约有⼀万⾏,每⾏⼀个词,要求统计出其中最频繁出现的前10个词,请给出思想,给出时间复杂度 分析 定性数据统计分析pdf销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析 。8、Applicationisn’tusingalloftheCores:HowtosettheCoresusedbyaSparkApp9、SparkExecutorOOM:HowtosetMemoryParametersonSpark10、SharkServer/LongRunningApplicationMetadataCleanup11、ClassNotFound:ClasspathIssues12、如何为⼀个hadoop任务设置mappers的数量13、有可能使hadoop任务输出到多个⽬录中么?如果可以,怎么做?14、如何为⼀个hadoop任务设置要创建的reducer的数量15、SparkStreaming和Storm有何区别?16、如果公司叫你写hadoop平台 设计 领导形象设计圆作业设计ao工艺污水处理厂设计附属工程施工组织设计清扫机器人结构设计 ⽅案,你会如何规划Hadoop⽣产集群?丁未春风,伴你成功!更多资料关注公众号天津丁未春风科技有限公司 答案 八年级地理上册填图题岩土工程勘察试题省略号的作用及举例应急救援安全知识车间5s试题及答案 部分1、有10个⽂件,每个⽂件1G,每个⽂件的每⼀⾏存放的都是⽤⼾的query,每个⽂件的query都可能重复。要求你按照query的频度排序。还是典型的TOPK算法,解决⽅案如下:⽅案1:顺序读取10个⽂件,按照hash(query)%10的结果将query写⼊到另外10个⽂件(记为)中。这样新⽣成的⽂件每个的⼤⼩⼤约也1G(假设hash函数是随机的)。找⼀台内存在2G左右的机器,依次对⽤hash_map(query,query_count)来统计每个query出现的次数。利⽤快速/堆/归并排序按照出现次数进⾏排序。将排序好的query和对应丁未春风,伴你成功!更多资料关注公众号天津丁未春风科技有限公司的query_cout输出到⽂件中。这样得到了10个排好序的⽂件(记为)。对这10个⽂件进⾏归并排序(内排序与外排序相结合)。⽅案2:⼀般query的总量是有限的,只是重复的次数⽐较多⽽已,可能对于所有的query,⼀次性就可以加⼊到内存了。这样,我们就可以采⽤trie树/hash_map等直接来统计每个query出现的次数,然后按出现次数做快速/堆/归并排序就可以了。⽅案3:与⽅案1类似,但在做完hash,分成多个⽂件后,可以交给多个⽂件来处理,采⽤分布式的架构来处理(⽐如MapReduce),最后再进⾏合并。2、JVM&垃圾回收机制三个代:年轻代(YoungGeneration)、年⽼代(OldGeneration)和持久代(PermanentGeneration)3、在5亿个整数中找出不重复的整数,注,内存不⾜以容纳这5亿个整数。⽅案1:采⽤2-Bitmap(每个数分配2bit,00表⽰不存在,01表⽰出现⼀次,10表⽰多次,11⽆意义)进⾏,共需内存2^32*2bit=1GB内存,还可以接受。然后扫描这2.5亿个整数,查看Bitmap中相对应位,如果是00变01,01变10,10保持不变。所描完事后,查看bitmap,把对应位是01的整数输出即可。⽅案2:也可采⽤与第1题类似的⽅法,进⾏划分⼩⽂件的⽅法。然后在⼩⽂件中找出不重复的整数,并排序。然后再进⾏归并,注意去除重复的元素。4、腾讯⾯试题:给40亿个不重复的unsignedint的整数,没排过序的,然后再给⼀个数,如何快速判断这个数是否在那40亿个数当中?第⼀反应时快速排序+⼆分查找。以下是其它更好的⽅法:⽅案1:oo,申请512M的内存,⼀个bit位代表⼀个unsignedint值。读⼊40亿个数,设置相应的bit位,读⼊要查询的数,查看相应bit位是否为1,为1表⽰存在,为0表⽰不存在。丁未春风,伴你成功!更多资料关注公众号天津丁未春风科技有限公司⽅案2:这个问题在《编程珠玑》⾥有很好的描述,⼤家可以参考下⾯的思路5、怎么在海量数据中找出重复次数最多的⼀个?⽅案1:先做hash,然后求模映射为⼩⽂件,求出每个⼩⽂件中重复次数最多的⼀个,并记录重复次数。然后找出上⼀步求出的数据中重复次数最多的⼀个就是所求(具体参考前⾯的题)。6、上千万或上亿数据(有重复),统计其中出现次数最多的钱N个数据。⽅案1:上千万或上亿的数据,现在的机器的内存应该能存下。所以考虑采⽤hash_map/搜索⼆叉树/红⿊树等来进⾏统计次数。然后就是取出前N个出现次数最多的数据了,可以⽤第2题提到的堆机制完成。7、⼀个⽂本⽂件,⼤约有⼀万⾏,每⾏⼀个词,要求统计出其中最频繁出现的前10个词,请给出思想,给出时间复杂度分析。⽅案1:这题是考虑时间效率。⽤trie树统计每个词出现的次数,时间复杂度是O(n*le)(le表⽰单词的平准⻓度)。然后是找出出现最频繁的前10个词,可以⽤堆来实现,前⾯的题中已经讲到了,时间复杂度是O(n*lg10)。所以总的时间复杂度,是O(n*le)与O(n*lg10)中较⼤的哪⼀个。8、Applicationisn’tusingalloftheCores:HowtosettheCoresusedbyaSparkApp设置每个App所能获得的core解决⽅法:丁未春风,伴你成功!更多资料关注公众号天津丁未春风科技有限公司spark-env.sh⾥设置spark.deploy.defaultCores或spark.cores.max9、SparkExecutorOOM:HowtosetMemoryParametersonSparkOOM是内存⾥堆的东西太多了1)增加job的并⾏度,即增加job的partition数量,把⼤数据集切分成更⼩的数据,可以减少⼀次性load到内存中的数据量。InputFomart,getSplit来确定。2)spark.storage.memoryFraction管理executor中RDD和运⾏任务时的内存⽐例,如果shuffle⽐较⼩,只需要⼀点点shufflememory,那么就调⼤这个⽐例。默认是0.6。不能⽐⽼年代还要⼤。⼤了就是浪费。3)spark.executor.memory如果还是不⾏,那么就要加Executor的内存了,改完executor内存后,这个需要重启。10、SharkServer/LongRunningApplicationMetadataCleanupSpark程序的元数据是会往内存中⽆限存储的。spark.cleaner.ttl来防⽌OOM,主要出现在SparkSteaming和SharkServer⾥。exportSPARK_JAVA_OPTS+="-Dspark.kryoserializer.buffer.mb=10-Dspark.cleaner.ttl=43200"11、ClassNotFound:ClasspathIssues问题1、缺少jar,不在classpath⾥。3问题2、jar包冲突,同⼀个jar不同版本。解决1:将所有依赖jar都打⼊到⼀个fatJar包⾥,然后⼿动设置依赖到指定每台机器的DIR。丁未春风,伴你成功!更多资料关注公众号天津丁未春风科技有限公司valconf=newSparkConf().setAppName(appName).setJars(Seq(System.getProperty("user.dir")+"/target/scala-2.10/sparktest.jar"))解决2:把所需要的依赖jar包都放到defaultclasspath⾥,分发到各个workernode上。12、如何为⼀个hadoop任务设置mappers的数量使⽤job.setNumMapTask(intn)⼿动分割,这是不靠谱的官⽅⽂档:“Note:Thisisonlyahinttotheframework”说明这个⽅法只是提⽰作⽤,不起决定性作⽤实际上要⽤公式计算:Max(min.split,min(max.split,block))就设置分⽚的最⼤最下值computeSplitSize()设置可以参考这篇⽂章:http://blog.csdn.net/strongerbit/article/details/744011113、有可能使hadoop任务输出到多个⽬录中么?如果可以,怎么做?答案:在1.X版本后使⽤MultipleOutputs.java类实现14、如何为⼀个hadoop任务设置要创建的reducer的数量配置job.setNumReduceTask(intn)或者调整hdfs-site.xml中的mapred.tasktracker.reduce.tasks.maximum默认参数值丁未春风,伴你成功!更多资料关注公众号天津丁未春风科技有限公司15、SparkStreaming和Storm有何区别?⼀个实时毫秒⼀个准实时亚秒,不过storm的吞吐率⽐较低。16、如果公司叫你写hadoop平台设计⽅案,你会如何规划Hadoop⽣产集群?这个题⽬⽐较考验全局观,站在架构师的层⾯去思考丁未春风,伴你成功!更多资料关注公众号
本文档为【面试笔试题_大数据_Spark_简答_专项练习(9)】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
机构认证用户
天津丁未春风
天津丁未春风科技有限公司成立于2021年05月31日,注册地位于天津市武清区大良镇兴良道10号226室,法定代表人为王晓见。经营范围包括一般项目:技术服务、技术开发、技术咨询、技术交流、技术转让、技术推广;教育咨询服务(不含涉许可审批的教育培训活动);企业管理咨询;企业形象策划;市场营销策划;旅行社服务网点旅游招徕、咨询服务;信息咨询服务(不含许可类信息咨询服务);会议及展览服务;
格式:pdf
大小:289KB
软件:PDF阅读器
页数:7
分类:计算机考试
上传时间:2022-11-07
浏览量:0