面试笔试题_大数据_Spark_简答_专项练习(9)

面试笔试题_大数据_Spark_简答_专项练习(9)天津丁未春风科技有限公司试卷部分1、有10个⽂件，每个⽂件1G，每个⽂件的每⼀⾏存放的都是⽤⼾的query，每个⽂件的query都可能重复。要求你按照query的频度排序。2、JVM&垃圾回收机制3、在5亿个整数中找出不重复的整数，注，内存不⾜以容纳这5亿个整数。4、腾讯⾯试题：给40亿个不重复的unsignedint的整数，没排过序的，然后再给⼀个数，如何快速判断这个数是否在那40亿个数当中?5、怎么在海量数据中找出重复次数最多的⼀个?6、上千万或上亿数据(有重复)，统计其中出现次数最多的钱N个数据。7、⼀个⽂本...

天津丁未春风科技有限公司试卷部分1、有10个⽂件，每个⽂件1G，每个⽂件的每⼀⾏存放的都是⽤⼾的query，每个⽂件的query都可能重复。要求你按照query的频度排序。2、JVM&垃圾回收机制3、在5亿个整数中找出不重复的整数，注，内存不⾜以容纳这5亿个整数。4、腾讯⾯试题：给40亿个不重复的unsignedint的整数，没排过序的，然后再给⼀个数，如何快速判断这个数是否在那40亿个数当中?5、怎么在海量数据中找出重复次数最多的⼀个?6、上千万或上亿数据(有重复)，统计其中出现次数最多的钱N个数据。7、⼀个⽂本⽂件，⼤约有⼀万⾏，每⾏⼀个词，要求统计出其中最频繁出现的前10个词，请给出思想，给出时间复杂度分析。8、Applicationisn’tusingalloftheCores:HowtosettheCoresusedbyaSparkApp9、SparkExecutorOOM:HowtosetMemoryParametersonSpark10、SharkServer/LongRunningApplicationMetadataCleanup11、ClassNotFound:ClasspathIssues12、如何为⼀个hadoop任务设置mappers的数量13、有可能使hadoop任务输出到多个⽬录中么?如果可以，怎么做?14、如何为⼀个hadoop任务设置要创建的reducer的数量15、SparkStreaming和Storm有何区别？16、如果公司叫你写hadoop平台设计⽅案，你会如何规划Hadoop⽣产集群？丁未春风，伴你成功！更多资料关注公众号天津丁未春风科技有限公司答案部分1、有10个⽂件，每个⽂件1G，每个⽂件的每⼀⾏存放的都是⽤⼾的query，每个⽂件的query都可能重复。要求你按照query的频度排序。还是典型的TOPK算法，解决⽅案如下：⽅案1：顺序读取10个⽂件，按照hash(query)%10的结果将query写⼊到另外10个⽂件(记为)中。这样新⽣成的⽂件每个的⼤⼩⼤约也1G(假设hash函数是随机的)。找⼀台内存在2G左右的机器，依次对⽤hash_map(query,query_count)来统计每个query出现的次数。利⽤快速/堆/归并排序按照出现次数进⾏排序。将排序好的query和对应丁未春风，伴你成功！更多资料关注公众号天津丁未春风科技有限公司的query_cout输出到⽂件中。这样得到了10个排好序的⽂件(记为)。对这10个⽂件进⾏归并排序(内排序与外排序相结合)。⽅案2：⼀般query的总量是有限的，只是重复的次数⽐较多⽽已，可能对于所有的query，⼀次性就可以加⼊到内存了。这样，我们就可以采⽤trie树/hash_map等直接来统计每个query出现的次数，然后按出现次数做快速/堆/归并排序就可以了。⽅案3：与⽅案1类似，但在做完hash，分成多个⽂件后，可以交给多个⽂件来处理，采⽤分布式的架构来处理(⽐如MapReduce)，最后再进⾏合并。2、JVM&垃圾回收机制三个代：年轻代（YoungGeneration）、年⽼代（OldGeneration）和持久代（PermanentGeneration）3、在5亿个整数中找出不重复的整数，注，内存不⾜以容纳这5亿个整数。⽅案1：采⽤2-Bitmap(每个数分配2bit，00表⽰不存在，01表⽰出现⼀次，10表⽰多次，11⽆意义)进⾏，共需内存2^32*2bit=1GB内存，还可以接受。然后扫描这2.5亿个整数，查看Bitmap中相对应位，如果是00变01，01变10，10保持不变。所描完事后，查看bitmap，把对应位是01的整数输出即可。⽅案2：也可采⽤与第1题类似的⽅法，进⾏划分⼩⽂件的⽅法。然后在⼩⽂件中找出不重复的整数，并排序。然后再进⾏归并，注意去除重复的元素。4、腾讯⾯试题：给40亿个不重复的unsignedint的整数，没排过序的，然后再给⼀个数，如何快速判断这个数是否在那40亿个数当中?第⼀反应时快速排序+⼆分查找。以下是其它更好的⽅法：⽅案1：oo，申请512M的内存，⼀个bit位代表⼀个unsignedint值。读⼊40亿个数，设置相应的bit位，读⼊要查询的数，查看相应bit位是否为1，为1表⽰存在，为0表⽰不存在。丁未春风，伴你成功！更多资料关注公众号天津丁未春风科技有限公司⽅案2：这个问题在《编程珠玑》⾥有很好的描述，⼤家可以参考下⾯的思路5、怎么在海量数据中找出重复次数最多的⼀个?⽅案1：先做hash，然后求模映射为⼩⽂件，求出每个⼩⽂件中重复次数最多的⼀个，并记录重复次数。然后找出上⼀步求出的数据中重复次数最多的⼀个就是所求(具体参考前⾯的题)。6、上千万或上亿数据(有重复)，统计其中出现次数最多的钱N个数据。⽅案1：上千万或上亿的数据，现在的机器的内存应该能存下。所以考虑采⽤hash_map/搜索⼆叉树/红⿊树等来进⾏统计次数。然后就是取出前N个出现次数最多的数据了，可以⽤第2题提到的堆机制完成。7、⼀个⽂本⽂件，⼤约有⼀万⾏，每⾏⼀个词，要求统计出其中最频繁出现的前10个词，请给出思想，给出时间复杂度分析。⽅案1：这题是考虑时间效率。⽤trie树统计每个词出现的次数，时间复杂度是O(n*le)(le表⽰单词的平准⻓度)。然后是找出出现最频繁的前10个词，可以⽤堆来实现，前⾯的题中已经讲到了，时间复杂度是O(n*lg10)。所以总的时间复杂度，是O(n*le)与O(n*lg10)中较⼤的哪⼀个。8、Applicationisn’tusingalloftheCores:HowtosettheCoresusedbyaSparkApp设置每个App所能获得的core解决⽅法：丁未春风，伴你成功！更多资料关注公众号天津丁未春风科技有限公司spark-env.sh⾥设置spark.deploy.defaultCores或spark.cores.max9、SparkExecutorOOM:HowtosetMemoryParametersonSparkOOM是内存⾥堆的东西太多了1）增加job的并⾏度，即增加job的partition数量，把⼤数据集切分成更⼩的数据，可以减少⼀次性load到内存中的数据量。InputFomart，getSplit来确定。2）spark.storage.memoryFraction管理executor中RDD和运⾏任务时的内存⽐例，如果shuffle⽐较⼩，只需要⼀点点shufflememory，那么就调⼤这个⽐例。默认是0.6。不能⽐⽼年代还要⼤。⼤了就是浪费。3）spark.executor.memory如果还是不⾏，那么就要加Executor的内存了，改完executor内存后，这个需要重启。10、SharkServer/LongRunningApplicationMetadataCleanupSpark程序的元数据是会往内存中⽆限存储的。spark.cleaner.ttl来防⽌OOM，主要出现在SparkSteaming和SharkServer⾥。exportSPARK_JAVA_OPTS+="-Dspark.kryoserializer.buffer.mb=10-Dspark.cleaner.ttl=43200"11、ClassNotFound:ClasspathIssues问题1、缺少jar，不在classpath⾥。3问题2、jar包冲突，同⼀个jar不同版本。解决1：将所有依赖jar都打⼊到⼀个fatJar包⾥，然后⼿动设置依赖到指定每台机器的DIR。丁未春风，伴你成功！更多资料关注公众号天津丁未春风科技有限公司valconf=newSparkConf().setAppName(appName).setJars(Seq(System.getProperty("user.dir")+"/target/scala-2.10/sparktest.jar"))解决2：把所需要的依赖jar包都放到defaultclasspath⾥，分发到各个workernode上。12、如何为⼀个hadoop任务设置mappers的数量使⽤job.setNumMapTask(intn)⼿动分割，这是不靠谱的官⽅⽂档：“Note:Thisisonlyahinttotheframework”说明这个⽅法只是提⽰作⽤，不起决定性作⽤实际上要⽤公式计算：Max(min.split，min(max.split，block))就设置分⽚的最⼤最下值computeSplitSize()设置可以参考这篇⽂章：http://blog.csdn.net/strongerbit/article/details/744011113、有可能使hadoop任务输出到多个⽬录中么?如果可以，怎么做?答案：在1.X版本后使⽤MultipleOutputs.java类实现14、如何为⼀个hadoop任务设置要创建的reducer的数量配置job.setNumReduceTask(intn)或者调整hdfs-site.xml中的mapred.tasktracker.reduce.tasks.maximum默认参数值丁未春风，伴你成功！更多资料关注公众号天津丁未春风科技有限公司15、SparkStreaming和Storm有何区别？⼀个实时毫秒⼀个准实时亚秒，不过storm的吞吐率⽐较低。16、如果公司叫你写hadoop平台设计⽅案，你会如何规划Hadoop⽣产集群？这个题⽬⽐较考验全局观，站在架构师的层⾯去思考丁未春风，伴你成功！更多资料关注公众号

                    本文档为【面试笔试题_大数据_Spark_简答_专项练习(9)】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

面试笔试题_大数据_Spark_简答_专项练习(9)

你可能还喜欢