数据倾斜 | 如果有一天

本文最后更新于 2024-03-03，文章内容可能已经过时。

数据倾斜是指在分布式计算环境中，部分数据集中到了少数节点上，导致这些节点的计算负载远高于其他节点，从而影响整个计算任务的执行效率。

数据倾斜的原因主要包括：

参数调整：
- 提高 Shuffle 并行度：通过增加 Shuffle 并行度，可以将原本集中在少数节点的数据分散到更多的节点上，从而减轻单个节点的负载压力，缓解数据倾斜问题。
Map 端聚合：
- 在 Map 端进行部分聚合操作，可以减少数据传输量和 Reduce 端的压力，从而缓解数据倾斜。
Reduce Join 改为 Map Join：
- 将 Reduce Join 操作改为 Map Join，即在 Map 阶段完成 Join 操作，避免了数据传输和 Shuffle 阶段的压力，有助于缓解数据倾斜。
开启 Skewed Join：
- 通过开启 Skewed Join，在任务运行时检测数据倾斜的情况，并对倾斜的数据采取特殊处理，如使用 Map Join 等方式，有助于提高任务的执行效率。
SQL 优化：
- 优化 count(distinct) 操作：通过对 count(distinct) 操作进行优化，如使用两阶段聚合等方式，减少计算量，提高执行效率。
- 优化 Join 操作：针对 Join 操作可能出现的数据倾斜问题，可以采用随机前缀和 RDD 扩容等方式，优化 Join 操作的执行效率。