常见关于 Spack 面试题，大数据常见面试题集

全部面试题答案，更新日期：12月30日，直接下载吧！

下载链接：高清500+份面试题资料及电子书，累计 10000+ 页大厂面试题 PDF

Spark

题1：spark.sql.shuffle.partitions 和 spark.default.parallelism 有什么区别和联系？

spark.default.parallelism只有在处理RDD时有效；而spark.sql.shuffle.partitions则是只对SparkSQL有效。

spark.sql.shuffle.partitions： 设置的是 RDD1做shuffle处理后生成的结果RDD2的分区数。

默认值：200

**spark.default.parallelism: ** 设置的是 RDD1做shuffle处理/并行处理(窄依赖算子)后生成的结果RDD2的分区数。

默认值：

对于分布式的shuffle算子, 默认值使用了结果RDD2所依赖的所有父RDD中分区数最大的, 作为自己的分区数。

对于并行处理算子（窄依赖的），有父依赖的，结果RDD分区数=父RDD分区数，没有父依赖的看集群配置：

Local mode:给定的core个数

Mesos fine grained mode: 8

Others: max(RDD分区数为总core数, 2)

题2：Spark 程序执行时，为什么默认有时产生很多 task，如何修改 task 个数？

1）因为输入数据有很多task，尤其是有很多小文件的时候，有多少个输入block就会有多少个task启动；

2）spark中有partition的概念，每个partition都会对应一个task，task越多，在处理大规模数据的时候，就会越有效率。不过task并不是越多越好，如果平时测试，或者数据量没有那么大，则没有必要task数量太多。

3）参数可以通过spark_home/conf/spark-default.conf配置文件设置:

spark.sql.shuffle.partitions 50
spark.default.parallelism 10

spark.sql.shuffle.partitions 设置的是 RDD1做shuffle处理后生成的结果RDD2的分区数，默认值200。

spark.default.parallelism 是指RDD任务的默认并行度，Spark中所谓的并行度是指RDD中的分区数，即RDD中的Task数。

当初始RDD没有设置分区数（numPartitions或numSlice）时，则分区数采用spark.default.parallelism的取值。

题3：Spark 如何处理不能被序列化的对象？

将不能序列化的对象封装成Object。

题4：Spark 中 collect 功能是什么，其底层是如何实现的？

driver通过collect把集群中各个节点的内容收集过来汇总成结果，collect返回结果是Array类型的，collect把各个节点上的数据抓过来，抓过来数据是Array型，collect对Array抓过来的结果进行合并，合并后Array中只有一个元素，是tuple类型（KV类型的）的。

题5：Spark 中 map 和 flatMap 有什么区别？

map：对RDD每个元素转换，文件中的每一行数据返回一个数组对象。

flatMap：对RDD每个元素转换，然后再扁平化。

将所有的对象合并为一个对象，文件中的所有行数据仅返回一个数组对象，会抛弃值为null的值。

题6：Spark 中常见的 join 操作优化有哪些分类？

join常见分为两类：map-side join 和 reduce-side join。

当大表和小表join时，用map-side join能显著提高效率。将多份数据进行关联是数据处理过程中非常普遍的用法，不过在分布式计算系统中，这个问题往往会变的非常麻烦，因为框架提供的join操作一般会将所有数据根据key发送到所有的reduce分区中去，也就是shuffle的过程。造成大量的网络以及磁盘IO消耗，运行效率极其低下，这个过程一般被称为reduce-side-join。

如果其中有张表较小的话，则可以自身实现在 map端实现数据关联，跳过大量数据进行shuffle的过程，运行时间得到大量缩短，根据不同数据可能会有几倍到数十倍的性能提升。

题7：说一说 cogroup rdd 实现原理，在什么场景下使用过 rdd？

cogroup的函数实现:这个实现根据两个要进行合并的两个RDD操作，生成一个CoGroupedRDD的实例，这个RDD的返回结果是把相同的key中两个RDD分别进行合并操作，最后返回的RDD的value是一个Pair的实例。

这个实例包含两个Iterable的值，第一个值表示的是RDD1中相同KEY的值，第二个值表示的是RDD2中相同key的值。

由于做cogroup的操作，需要通过partitioner进行重新分区的操作，因此，执行这个流程时，需要执行一次shuffle的操作(如果要进行合并的两个RDD的都已经是shuffle后的rdd，同时他们对应的partitioner相同时，就不需要执行shuffle。

题8：Spark 中 RDD 有几种操作类型？

1）transformation、rdd由一种转为另一种rdd

2）action

3）cronroller、crontroller是控制算子，cache、persist，对性能和效率的有很好的支持三种类型，不要回答只有2中操作。

题9：Spark 为什么要进行序列化？

序列化可以减少数据的体积，减少存储空间，高效存储和传输数据，不好的是使用的时候要反序列化，非常消耗CPU。

题10：Spark 为什么要持久化，一般什么场景下要进行 persist 操作？

为什么要进行持久化？

spark所有复杂一点的算法都会有persist身影,spark默认数据放在内存，spark很多内容都是放在内存的，非常适合高速迭代，1000个步骤。

只有第一个输入数据，中间不产生临时数据，但分布式系统风险很高，所以容易出错，就要容错，rdd出错或者分片可以根据血统算出来，如果没有对父rdd进行persist 或者cache的化，就需要重头做。

使用persist场景

1）某个步骤计算非常耗时，需要进行persist持久化

2）计算链条非常长，重新恢复要算很多步骤，很好使，persist

3）checkpoint所在的rdd要持久化persist

lazy级别，框架发现有checnkpoint，checkpoint时单独触发一个job，需要重算一遍，checkpoint前

要持久化，写个rdd.cache或者rdd.persist，将结果保存起来，再写checkpoint操作，这样执行起来会非常快，不需要重新计算rdd链条了。checkpoint之前一定会进行persist。

4）shuffle之后为什么要persist？shuffle要进性网络传输，风险很大，数据丢失重来，恢复代价很大

5）shuffle之前进行persist，框架默认将数据持久化到磁盘，这个是框架自动做的。

大厂面试题

np / Ebooks

常见关于 Spack 面试题，大数据常见面试题集

全部面试题答案，更新日期：12月30日，直接下载吧！

下载链接：高清500+份面试题资料及电子书，累计 10000+ 页大厂面试题 PDF

Spark

题1：spark.sql.shuffle.partitions 和 spark.default.parallelism 有什么区别和联系？

题2：Spark 程序执行时，为什么默认有时产生很多 task，如何修改 task 个数？

题3：Spark 如何处理不能被序列化的对象？

题4：Spark 中 collect 功能是什么，其底层是如何实现的？

题5：Spark 中 map 和 flatMap 有什么区别？

题6：Spark 中常见的 join 操作优化有哪些分类？

题7：说一说 cogroup rdd 实现原理，在什么场景下使用过 rdd？

题8：Spark 中 RDD 有几种操作类型？

题9：Spark 为什么要进行序列化？

题10：Spark 为什么要持久化，一般什么场景下要进行 persist 操作？

简介

发行版

贡献者

近期动态

np / Ebooks .gitee-modal { width: 500px !important; }

常见关于 Spack 面试题，大数据常见面试题集

全部面试题答案，更新日期：12月30日，直接下载吧！

下载链接：高清500+份面试题资料及电子书，累计 10000+ 页大厂面试题 PDF

Spark

题1：spark.sql.shuffle.partitions 和 spark.default.parallelism 有什么区别和联系？

题2：Spark 程序执行时，为什么默认有时产生很多 task，如何修改 task 个数？

题3：Spark 如何处理不能被序列化的对象？

题4：Spark 中 collect 功能是什么，其底层是如何实现的？

题5：Spark 中 map 和 flatMap 有什么区别？

题6：Spark 中常见的 join 操作优化有哪些分类？

题7：说一说 cogroup rdd 实现原理，在什么场景下使用过 rdd？

题8：Spark 中 RDD 有几种操作类型？

题9：Spark 为什么要进行序列化？

题10：Spark 为什么要持久化，一般什么场景下要进行 persist 操作？

简介

发行版

贡献者

近期动态

搜索帮助

np / Ebooks