SparkCore之Partitiion

admin • 2021-12-14 21:39 • 云计算

1.概念

首先先了解一下Spark RDD,Spark RDD是一种分布式的数据集，但是由于数据量很大，因此要它被切分并存储在各个结点的分区当中，这个“分区”就是Partition-

RDD包含多个Partition
- 如图RDD1就包含了4个Partition,RDD2包含了两个Partition
分区Partition定义：
- partition 是弹性分布式数据集RDD的最小单元
- partition 是指的spark在计算过程中，生成的数据在计算空间内最小单元
- 同一份数据（RDD）的partition 大小不一，数量不定，是根据application里的算子和最初读入的数据分块数量决定的

HashPartitioner采用哈希的方式对<Key，Value>键值对数据进行分区
分区规则
- 公式:partitionId = Key.hashCode % numPartitions
- 解释
  - partitionId代表该Key对应的键值对数据应当分配到的Partition标识
  - Key.hashCode表示该Key的哈希值
  - numPartitions表示包含的Partition个数
缺点
- 会带来分区数据不均衡的问题也就是分区倾斜
  - 因为可能出现很多数据通过公式全部都得到相同的partitionId，也就是在某些分区数据很多，但是其他分区数据相对较少
  - 这样会影响性能，举个极端的例子：当所有数据通过哈希分区结果全部都被划分到同一个分区，这就相当于没有分区了

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。

THE END

big data hadoop

二维码

QingScan漏洞扫描器初体验

2021年1+X大数据Java答案

下一篇>>