Hive中Join导致的数据倾斜优化

张

张建站

2026/6/5 21:15:16

10分钟阅读

未经优化的join操作默认是使用common join算法也就是通过一个MapReduce Job完成计算。Map端负责读取join操作所需表的数据并按照关联字段进行分区通过Shuffle将其发送到Reduce端相同key的数据在Reduce端完成最终的Join操作。如果关联字段的值分布不均就可能导致大量相同的key进入同一Reduce从而导致数据倾斜问题。由join导致的数据倾斜问题有如下三种解决方案1map join使用map join算法join操作仅在map端就能完成没有shuffle操作没有reduce阶段自然不会产生reduce端的数据倾斜。该方案适用于大表join小表时发生数据倾斜的场景。相关参数如下--启动Map Join自动转换 set hive.auto.convert.jointrue; --一个Common Join operator转为Map Join operator的判断条件,若该Common Join相关的表中,存在n-1张表的大小总和该值,则生成一个Map Join计划,此时可能存在多种n-1张表的组合均满足该条件,则hive会为每种满足条件的组合均生成一个Map Join计划,同时还会保留原有的Common Join计划作为后备(back up)计划,实际运行时,优先执行Map Join计划若不能执行成功则启动Common Join后备计划。 set hive.mapjoin.smalltable.filesize250000; --开启无条件转Map Join set hive.auto.convert.join.noconditionaltasktrue; --无条件转Map Join时的小表之和阈值,若一个Common Join operator相关的表中存在n-1张表的大小总和该值,此时hive便不会再为每种n-1张表的组合均生成Map Join计划,同时也不会保留Common Join作为后备计划。而是只生成一个最优的Map Join计划。 set hive.auto.convert.join.noconditionaltask.size10000000;2skew joinskew join的原理是为倾斜的大key单独启动一个map join任务进行计算其余key进行正常的common join。原理图如下相关参数如下--启用skew join优化 set hive.optimize.skewjointrue; --触发skew join的阈值若某个key的行数超过该参数值则触发 set hive.skewjoin.key100000;这种方案对参与join的源表大小没有要求但是对两表中倾斜的key的数据量有要求要求一张表中的倾斜key的数据量比较小方便走mapjoin。3调整SQL语句若参与join的两表均为大表其中一张表的数据是倾斜的此时也可通过以下方式对SQL语句进行相应的调整。假设原始SQL语句如下AB两表均为大表表A的数据是倾斜的。hive (default) select * from A join B on A.idB.id;图中1001为倾斜的大key可以看到其被发往了同一个Reduce进行处理。调整SQL语句如下hive (default) select * from( select --打散操作 concat(id,_,cast(rand()*2 as int)) id, value from A )ta join( select --扩容操作 concat(id,_,0) id, value from B union all select concat(id,_,1) id, value from B )tb on ta.idtb.id;数据变多了没事因为我们本来处理的就是大数据不怕数据量大就怕数据倾斜

线上 CPU 暴升 100%？Python 多线程 GIL 对 SVM 核函数计算效率的排查与调优实战

线上 CPU 暴升 100%？Python 多线程 GIL 对 SVM 核函数计算效率的排查与调优实战前言生产环境监控报警了。 CPU 使用率瞬间飙升至 100%。服务响应延迟从 50ms 涨到了 5 秒。排查发现是 SVM 模型推理接口卡死。旧代码里藏着嵌套循环。处理大规模矩阵时&#xff0…...

2026/6/5 21:14:11 阅读更多 →

5分钟快速掌握小红书数据采集：Python爬虫终极指南

5分钟快速掌握小红书数据采集：Python爬虫终极指南【免费下载链接】xhs 基于小红书 Web 端进行的请求封装。https://reajason.github.io/xhs/ 项目地址: https://gitcode.com/gh_mirrors/xh/xhs 在当今数据驱动的时代，小红书作为中国最具影响力的…...

2026/6/5 21:11:57 阅读更多 →

技术职场生存指南：从FPGA到嵌入式，工程师如何内外兼修提升影响力

1. 从老F看职场生存：技术之外的必修课在消费电子、嵌入式系统这些硬核技术领域摸爬滚打了十几年，我见过太多像老Q那样技术精湛却默默无闻的工程师，也见过不少像老F那样，技术或许不是顶尖，但总能“混得风生水起”的同行…...

2026/6/5 21:11:56 阅读更多 →

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…...

2026/6/3 16:54:28 阅读更多 →

Lindy路线图前瞻：3个已被验证的信号，预示Q3将启动下一代AI原生平台重构

更多请点击： https://intelliparadigm.com 第一章：Lindy路线图前瞻：3个已被验证的信号，预示Q3将启动下一代AI原生平台重构信号一：核心基础设施层API调用量连续8周突破临界阈值 Lindy平台的 /v2/execute与 /v3/plan端…...

2026/6/3 1:19:41 阅读更多 →

【AI工具智能排行榜TOP10】：2024年实测数据驱动的生产力跃迁指南（仅限本周开放下载）

更多请点击： https://kaifayun.com 第一章：AI工具智能排行榜TOP10的底层逻辑与评估范式 AI工具排行榜并非主观评分的产物，而是由多维可量化指标驱动的系统性工程。其核心在于构建一个兼顾能力广度、推理深度、工程鲁棒性与生态协同性的评估范…...

2026/6/4 8:46:30 阅读更多 →

3步解决博德之门3模组管理难题：BG3ModManager完整使用指南

3步解决博德之门3模组管理难题：BG3ModManager完整使用指南【免费下载链接】BG3ModManager A mod manager for Baldurs Gate 3. This is the only official source! 项目地址: https://gitcode.com/gh_mirrors/bg/BG3ModManager BG3ModManager是专为《博德之…...

2026/6/4 10:59:42 阅读更多 →