面试笔试题_大数据_Spark_简答_专项练习(2)

面试笔试题_大数据_Spark_简答_专项练习(2)天津丁未春风科技有限公司试卷部分1、reduceByKey是不是action？2、数据本地性是在哪个环节确定的？3、RDD的弹性表现在哪⼏点？4、常规的容错⽅式有哪⼏种类型？5、RDD通过Linage（记录数据更新）的⽅式为何很⾼效？6、RDD有哪些缺陷？7、Spark有哪两种算⼦？8、Spark提交你的jar包时所⽤的命令是什么？9、Spark有哪些聚合类的算⼦,我们应该尽量避免什么类型的算⼦？10、你所理解的Spark的shuffle过程？11、你如何从Kafka中获取数据？12、对于Spark中的数据倾斜问题...

天津丁未春风科技有限公司试卷部分1、reduceByKey是不是action？2、数据本地性是在哪个环节确定的？3、RDD的弹性表现在哪⼏点？4、常规的容错⽅式有哪⼏种类型？5、RDD通过Linage（记录数据更新）的⽅式为何很⾼效？6、RDD有哪些缺陷？7、Spark有哪两种算⼦？8、Spark提交你的jar包时所⽤的命令是什么？9、Spark有哪些聚合类的算⼦,我们应该尽量避免什么类型的算⼦？10、你所理解的Spark的shuffle过程？11、你如何从Kafka中获取数据？12、对于Spark中的数据倾斜问题你有什么好的⽅案？13、RDD创建有哪⼏种⽅式？14、Spark并⾏度怎么设置⽐较合适15、Spark中数据的位置是被谁管理的？16、Spark的数据本地性有哪⼏种？17、rdd有⼏种操作类型？18、rdd有⼏种操作类型？19、Spark如何处理不能被序列化的对象？20、collect功能是什么，其底层是怎么实现的？丁未春风，伴你成功！更多资料关注公众号天津丁未春风科技有限公司答案部分1、reduceByKey是不是action？答：不是，很多⼈都会以为是action，reducerdd是action2、数据本地性是在哪个环节确定的？具体的task运⾏在那他机器上，dag划分stage的时候确定的丁未春风，伴你成功！更多资料关注公众号天津丁未春风科技有限公司www.aboutyun.com/thread-24246-1-1.html10/572019/4/24spark相关的⾯试题跟答案，带着问题学习效果更佳哟。?）-⾯试区-about云开发3、RDD的弹性表现在哪⼏点？1）⾃动的进⾏内存和磁盘的存储切换；2）基于Lingage的⾼效容错；3）task如果失败会⾃动进⾏特定次数的重试；4）stage如果失败会⾃动进⾏特定次数的重试，⽽且只会计算失败的分⽚；5）checkpoint和persist，数据计算之后持久化缓存6）数据调度弹性，DAGTASK调度和资源⽆关7）数据分⽚的⾼度弹性，a.分⽚很多碎⽚可以合并成⼤的，b.par4、常规的容错⽅式有哪⼏种类型？1）.数据检查点,会发⽣拷⻉，浪费资源2）.记录数据的更新，每次更新都会记录下来，⽐较复杂且⽐较消耗性能5、RDD通过Linage（记录数据更新）的⽅式为何很⾼效？1）lazy记录了数据的来源，RDD是不可变的，且是lazy级别的，且rDD之间构成了链条，lazy是弹性的基⽯。由于RDD不可变，所以每次操作就产⽣新的rdd，不存在全局修改的问题，控制难度下降，所有有计算链条将复杂计算链条存储下来，计算的时候从后往前回溯丁未春风，伴你成功！更多资料关注公众号天津丁未春风科技有限公司900步是上⼀个stage的结束，要么就checkpoint2）记录原数据，是每次修改都记录，代价很⼤如果修改⼀个集合，代价就很⼩，官⽅说rdd是粗粒度的操作，是为了效率，为了简化，每次都是操作数据集合，写或者修改操作，都是基于集合的rdd的写操作是粗粒度的，rdd的读操作既可以是粗粒度的也可以是细粒度，读可以读其中的⼀条条的记录。3）简化复杂度，是⾼效率的⼀⽅⾯，写的粗粒度限制了使⽤场景如⽹络爬⾍，现实世界中，⼤多数写是粗粒度的场景www.aboutyun.com/thread-24246-1-1.html11/572019/4/24spark相关的⾯试题跟答案，带着问题学习效果更佳哟。?）-⾯试区-about云开发6、RDD有哪些缺陷？1）不⽀持细粒度的写和更新操作（如⽹络爬⾍），spark写数据是粗粒度的所谓粗粒度，就是批量写⼊数据，为了提⾼效率。但是读数据是细粒度的也就是说可以⼀条条的读2）不⽀持增量迭代计算，Flink⽀持7、Spark有哪两种算⼦？答：Transformation（转化）算⼦和Action（执⾏）算⼦。丁未春风，伴你成功！更多资料关注公众号天津丁未春风科技有限公司8、Spark提交你的jar包时所⽤的命令是什么？答：spark-submit。9、Spark有哪些聚合类的算⼦,我们应该尽量避免什么类型的算⼦？答：在我们的开发过程中，能避免则尽可能避免使⽤reduceByKey、join、distinct、repartition等会进⾏shuffle的算⼦，尽量使⽤map类的⾮shuffle算⼦。这样的话，没有shuffle操作或者仅有较少shuffle操作的Spark作业，可以⼤⼤减少性能开销。10、你所理解的Spark的shuffle过程？答：从下⾯三点去展开1）shuffle过程的划分2）shuffle的中间结果如何存储3）shuffle的数据如何拉取过来可以参考这篇博⽂：http://www.cnblogs.com/jxhd1/p/6528540.html11、你如何从Kafka中获取数据？1)基于Receiver的⽅式这种⽅式使⽤Receiver来获取数据。Receiver是使⽤Kafka的⾼层次ConsumerAPI来实现的。receiver从Kafka中获取的数据都是存储在SparkExecutor的内存中的，然后SparkStreaming启动的job会去处理那些数据。www.aboutyun.com/thread-24246-1-1.html12/572019/4/24spark相关的⾯试题跟答案，带着问题学习效果更佳哟。?）-⾯试区-about云开发丁未春风，伴你成功！更多资料关注公众号天津丁未春风科技有限公司2)基于Direct的⽅式这种新的不基于Receiver的直接⽅式，是在Spark1.3中引⼊的，从⽽能够确保更加健壮的机制。替代掉使⽤Receiver来接收数据后，这种⽅式会周期性地查询Kafka，来获得每个topic+partition的最新的offset，从⽽定义每个batch的offset的范围。当处理数据的job启动时，就会使⽤Kafka的简单consumerapi来获取Kafka指定offset范围的数据12、对于Spark中的数据倾斜问题你有什么好的⽅案？1）前提是定位数据倾斜，是OOM了，还是任务执⾏缓慢，看⽇志，看WebUI2)解决⽅法，有多个⽅⾯·避免不必要的shuffle，如使⽤⼴播⼩表的⽅式，将reduce-side-join提升为map-side-join·分拆发⽣数据倾斜的记录，分成⼏个部分进⾏，然后合并join后的结果·改变并⾏度，可能并⾏度太少了，导致个别task数据压⼒⼤·两阶段聚合，先局部聚合，再全局聚合·⾃定义paritioner，分散key的分布，使其更加均匀详细解决⽅案参考博⽂《Spark数据倾斜优化⽅法》13、RDD创建有哪⼏种⽅式？1).使⽤程序中的集合创建rdd2).使⽤本地⽂件系统创建rdd3).使⽤hdfs创建rdd，4).基于数据库db创建rdd丁未春风，伴你成功！更多资料关注公众号天津丁未春风科技有限公司5).基于Nosql创建rdd，如hbase6).基于s3创建rdd，7).基于数据流，如socket创建rdd如果只回答了前⾯三种，是不够的，只能说明你的⽔平还是⼊⻔级的，实践过程中有很多种创建⽅式。14、Spark并⾏度怎么设置⽐较合适答：spark并⾏度，每个core承载2~4个partition,如，32个core，那么64~128之间的并⾏度，也就是设置64~128个partion，并⾏读和数据规模⽆关，只和内存使⽤量和cpu使⽤时间有关15、Spark中数据的位置是被谁管理的？答：每个数据分⽚都对应具体物理位置，数据的位置是被blockManager，⽆论数据是在磁盘，内存还是tacyan，都是由blockManager管理16、Spark的数据本地性有哪⼏种？答：Spark中的数据本地性有三种：a.PROCESS_LOCAL是指读取缓存在本地节点的数据b.NODE_LOCAL是指读取本地节点硬盘数据c.ANY是指读取⾮本地节点数据通常读取数据PROCESS_LOCAL>NODE_LOCAL>ANY，尽量使数据以PROCESS_LOCAL或NODE_LOCAL⽅式读取。其中PROCESS_LOCAL还和cache有丁未春风，伴你成功！更多资料关注公众号天津丁未春风科技有限公司关，如果RDD经常⽤的话将该RDDcache到内存中，注意，由于cache是lazy的，所以必须通过⼀个action的触发，才能真正的将该RDDcache到内存中。17、rdd有⼏种操作类型？1）transformation，rdd由⼀种转为另⼀种rdd2）action，3）cronroller，crontroller是控制算⼦,cache,persist，对性能和效率的有很好的⽀持三种类型，不要回答只有2中操作18、rdd有⼏种操作类型？1）transformation，rdd由⼀种转为另⼀种rdd2）action，3）cronroller，crontroller是控制算⼦,cache,persist，对性能和效率的有很好的⽀持三种类型，不要回答只有2中操作19、Spark如何处理不能被序列化的对象？将不能序列化的内容封装成object20、collect功能是什么，其底层是怎么实现的？答：driver通过collect把集群中各个节点的内容收集过来汇总成结果，collect返回结果是Array类型的，collect把各个节点上的数据抓过来，抓过来数据是Array丁未春风，伴你成功！更多资料关注公众号天津丁未春风科技有限公司型，collect对Array抓过来的结果进⾏合并，合并后Array中只有⼀个元素，是tuple类型（KV类型的）的。丁未春风，伴你成功！更多资料关注公众号

                    本文档为【面试笔试题_大数据_Spark_简答_专项练习(2)】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

面试笔试题_大数据_Spark_简答_专项练习(2)

你可能还喜欢