首页 面试笔试题_大数据_Spark_简答_专项练习(2)

面试笔试题_大数据_Spark_简答_专项练习(2)

举报
开通vip

面试笔试题_大数据_Spark_简答_专项练习(2)天津丁未春风科技有限公司试卷部分1、reduceByKey是不是action?2、数据本地性是在哪个环节确定的?3、RDD的弹性表现在哪⼏点?4、常规的容错⽅式有哪⼏种类型?5、RDD通过Linage(记录数据更新)的⽅式为何很⾼效?6、RDD有哪些缺陷?7、Spark有哪两种算⼦?8、Spark提交你的jar包时所⽤的命令是什么?9、Spark有哪些聚合类的算⼦,我们应该尽量避免什么类型的算⼦?10、你所理解的Spark的shuffle过程?11、你如何从Kafka中获取数据?12、对于Spark中的数据倾斜问题...

面试笔试题_大数据_Spark_简答_专项练习(2)
天津丁未春风科技有限公司试卷部分1、reduceByKey是不是action?2、数据本地性是在哪个环节确定的?3、RDD的弹性 关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf视力表打印pdf用图表说话 pdf 现在哪⼏点?4、常规的容错⽅式有哪⼏种类型?5、RDD通过Linage(记录数据更新)的⽅式为何很⾼效?6、RDD有哪些缺陷?7、Spark有哪两种算⼦?8、Spark提交你的jar包时所⽤的命令是什么?9、Spark有哪些聚合类的算⼦,我们应该尽量避免什么类型的算⼦?10、你所理解的Spark的shuffle过程?11、你如何从Kafka中获取数据?12、对于Spark中的数据倾斜问 快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题 你有什么好的⽅案?13、RDD创建有哪⼏种⽅式?14、Spark并⾏度怎么设置⽐较合适15、Spark中数据的位置是被谁管理的?16、Spark的数据本地性有哪⼏种?17、rdd有⼏种操作类型?18、rdd有⼏种操作类型?19、Spark如何处理不能被序列化的对象?20、collect功能是什么,其底层是怎么实现的?丁未春风,伴你成功!更多资料关注公众号天津丁未春风科技有限公司 答案 八年级地理上册填图题岩土工程勘察试题省略号的作用及举例应急救援安全知识车间5s试题及答案 部分1、reduceByKey是不是action?答:不是,很多⼈都会以为是action,reducerdd是action2、数据本地性是在哪个环节确定的?具体的task运⾏在那他机器上,dag划分stage的时候确定的丁未春风,伴你成功!更多资料关注公众号天津丁未春风科技有限公司www.aboutyun.com/thread-24246-1-1.html10/572019/4/24spark相关的⾯试题跟答案,带着问题学习效果更佳哟。?)-⾯试区-about云开发3、RDD的弹性表现在哪⼏点?1)⾃动的进⾏内存和磁盘的存储切换;2)基于Lingage的⾼效容错;3)task如果失败会⾃动进⾏特定次数的重试;4)stage如果失败会⾃动进⾏特定次数的重试,⽽且只会计算失败的分⽚;5)checkpoint和persist,数据计算之后持久化缓存6)数据调度弹性,DAGTASK调度和资源⽆关7)数据分⽚的⾼度弹性,a.分⽚很多碎⽚可以合并成⼤的,b.par4、常规的容错⽅式有哪⼏种类型?1).数据检查点,会发⽣拷⻉,浪费资源2).记录数据的更新,每次更新都会记录下来,⽐较复杂且⽐较消耗性能5、RDD通过Linage(记录数据更新)的⽅式为何很⾼效?1)lazy记录了数据的来源,RDD是不可变的,且是lazy级别的,且rDD之间构成了链条,lazy是弹性的基⽯。由于RDD不可变,所以每次操作就产⽣新的rdd,不存在全局修改的问题,控制难度下降,所有有计算链条将复杂计算链条存储下来,计算的时候从后往前回溯丁未春风,伴你成功!更多资料关注公众号天津丁未春风科技有限公司900步是上⼀个stage的结束,要么就checkpoint2)记录原数据,是每次修改都记录,代价很⼤如果修改⼀个集合,代价就很⼩,官⽅说rdd是粗粒度的操作,是为了效率,为了简化,每次都是操作数据集合,写或者修改操作,都是基于集合的rdd的写操作是粗粒度的,rdd的读操作既可以是粗粒度的也可以是细粒度,读可以读其中的⼀条条的记录。3)简化复杂度,是⾼效率的⼀⽅⾯,写的粗粒度限制了使⽤场景如⽹络爬⾍,现实世界中,⼤多数写是粗粒度的场景www.aboutyun.com/thread-24246-1-1.html11/572019/4/24spark相关的⾯试题跟答案,带着问题学习效果更佳哟。?)-⾯试区-about云开发6、RDD有哪些缺陷?1)不⽀持细粒度的写和更新操作(如⽹络爬⾍),spark写数据是粗粒度的所谓粗粒度,就是批量写⼊数据,为了提⾼效率。但是读数据是细粒度的也就是说可以⼀条条的读2)不⽀持增量迭代计算,Flink⽀持7、Spark有哪两种算⼦?答:Transformation(转化)算⼦和Action(执⾏)算⼦。丁未春风,伴你成功!更多资料关注公众号天津丁未春风科技有限公司8、Spark提交你的jar包时所⽤的命令是什么?答:spark-submit。9、Spark有哪些聚合类的算⼦,我们应该尽量避免什么类型的算⼦?答:在我们的开发过程中,能避免则尽可能避免使⽤reduceByKey、join、distinct、repartition等会进⾏shuffle的算⼦,尽量使⽤map类的⾮shuffle算⼦。这样的话,没有shuffle操作或者仅有较少shuffle操作的Spark作业,可以⼤⼤减少性能开销。10、你所理解的Spark的shuffle过程?答:从下⾯三点去展开1)shuffle过程的划分2)shuffle的中间结果如何存储3)shuffle的数据如何拉取过来可以参考这篇博⽂:http://www.cnblogs.com/jxhd1/p/6528540.html11、你如何从Kafka中获取数据?1)基于Receiver的⽅式这种⽅式使⽤Receiver来获取数据。Receiver是使⽤Kafka的⾼层次ConsumerAPI来实现的。receiver从Kafka中获取的数据都是存储在SparkExecutor的内存中的,然后SparkStreaming启动的job会去处理那些数据。www.aboutyun.com/thread-24246-1-1.html12/572019/4/24spark相关的⾯试题跟答案,带着问题学习效果更佳哟。?)-⾯试区-about云开发丁未春风,伴你成功!更多资料关注公众号天津丁未春风科技有限公司2)基于Direct的⽅式这种新的不基于Receiver的直接⽅式,是在Spark1.3中引⼊的,从⽽能够确保更加健壮的机制。替代掉使⽤Receiver来接收数据后,这种⽅式会周期性地查询Kafka,来获得每个topic+partition的最新的offset,从⽽定义每个batch的offset的范围。当处理数据的job启动时,就会使⽤Kafka的简单consumerapi来获取Kafka指定offset范围的数据12、对于Spark中的数据倾斜问题你有什么好的⽅案?1)前提是定位数据倾斜,是OOM了,还是任务执⾏缓慢,看⽇志,看WebUI2)解决⽅法,有多个⽅⾯·避免不必要的shuffle,如使⽤⼴播⼩表的⽅式,将reduce-side-join提升为map-side-join·分拆发⽣数据倾斜的记录,分成⼏个部分进⾏,然后合并join后的结果·改变并⾏度,可能并⾏度太少了,导致个别task数据压⼒⼤·两阶段聚合,先局部聚合,再全局聚合·⾃定义paritioner,分散key的分布,使其更加均匀详细解决⽅案参考博⽂《Spark数据倾斜优化⽅法》13、RDD创建有哪⼏种⽅式?1).使⽤程序中的集合创建rdd2).使⽤本地⽂件系统创建rdd3).使⽤hdfs创建rdd,4).基于数据库db创建rdd丁未春风,伴你成功!更多资料关注公众号天津丁未春风科技有限公司5).基于Nosql创建rdd,如hbase6).基于s3创建rdd,7).基于数据流,如socket创建rdd如果只回答了前⾯三种,是不够的,只能说明你的⽔平还是⼊⻔级的,实践过程中有很多种创建⽅式。14、Spark并⾏度怎么设置⽐较合适答:spark并⾏度,每个core承载2~4个partition,如,32个core,那么64~128之间的并⾏度,也就是设置64~128个partion,并⾏读和数据规模⽆关,只和内存使⽤量和cpu使⽤时间有关15、Spark中数据的位置是被谁管理的?答:每个数据分⽚都对应具体物理位置,数据的位置是被blockManager,⽆论数据是在磁盘,内存还是tacyan,都是由blockManager管理16、Spark的数据本地性有哪⼏种?答:Spark中的数据本地性有三种:a.PROCESS_LOCAL是指读取缓存在本地节点的数据b.NODE_LOCAL是指读取本地节点硬盘数据c.ANY是指读取⾮本地节点数据通常读取数据PROCESS_LOCAL>NODE_LOCAL>ANY,尽量使数据以PROCESS_LOCAL或NODE_LOCAL⽅式读取。其中PROCESS_LOCAL还和cache有丁未春风,伴你成功!更多资料关注公众号天津丁未春风科技有限公司关,如果RDD经常⽤的话将该RDDcache到内存中,注意,由于cache是lazy的,所以必须通过⼀个action的触发,才能真正的将该RDDcache到内存中。17、rdd有⼏种操作类型?1)transformation,rdd由⼀种转为另⼀种rdd2)action,3)cronroller,crontroller是控制算⼦,cache,persist,对性能和效率的有很好的⽀持三种类型,不要回答只有2中操作18、rdd有⼏种操作类型?1)transformation,rdd由⼀种转为另⼀种rdd2)action,3)cronroller,crontroller是控制算⼦,cache,persist,对性能和效率的有很好的⽀持三种类型,不要回答只有2中操作19、Spark如何处理不能被序列化的对象?将不能序列化的内容封装成object20、collect功能是什么,其底层是怎么实现的?答:driver通过collect把集群中各个节点的内容收集过来汇总成结果,collect返回结果是Array类型的,collect把各个节点上的数据抓过来,抓过来数据是Array丁未春风,伴你成功!更多资料关注公众号天津丁未春风科技有限公司型,collect对Array抓过来的结果进⾏合并,合并后Array中只有⼀个元素,是tuple类型(KV类型的)的。丁未春风,伴你成功!更多资料关注公众号
本文档为【面试笔试题_大数据_Spark_简答_专项练习(2)】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
该文档来自用户分享,如有侵权行为请发邮件ishare@vip.sina.com联系网站客服,我们会及时删除。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
下载需要: 免费 已有0 人下载
最新资料
资料动态
专题动态
机构认证用户
天津丁未春风
天津丁未春风科技有限公司成立于2021年05月31日,注册地位于天津市武清区大良镇兴良道10号226室,法定代表人为王晓见。经营范围包括一般项目:技术服务、技术开发、技术咨询、技术交流、技术转让、技术推广;教育咨询服务(不含涉许可审批的教育培训活动);企业管理咨询;企业形象策划;市场营销策划;旅行社服务网点旅游招徕、咨询服务;信息咨询服务(不含许可类信息咨询服务);会议及展览服务;
格式:pdf
大小:308KB
软件:PDF阅读器
页数:9
分类:计算机考试
上传时间:2022-11-07
浏览量:1