hive分区分桶、数据倾斜总结

一、hive的基本概念

hive是一个构建在hadoop上的数据仓库工具,可以将结构化的数据文件映射为一张数据库表并提供数据查询功能

二、hive的特点

(1)数据是存储在hdfs上

(2)底层是将sql转换为MapReduce任务进行计算

(3)执行程序是运行在yarn上

三、hive表数据如何修改

(1)可以删除原表,然后新建一个与原表的表名、表结构相同的表,然后将需要修改的值更改后重新复制到新表;

1) 创建一个新表,其结构与原表相同

CREATE TABLE tmp_table ...;

2) 使用INSERT语句,将原表中的数据复制到新表,并对需要修改的值进行更改

INSERT INTO TABLE tmp_table
SELECT col1,col2,CASE WHEN col3=修改值 THEN 新值 ELSE col3 END,col4,...
FROM src_table;

 3) 删除原表

DROP TABLE src_table;

4) 将新表重命名为原表的名字

ALTER TABLE tmp_table RENAME TO src_table;
(2)也可以使用insert overwrite语句,结合where条件对需要修改的值更改过后,再将原表数据覆盖回去。
INSERT OVERWRITE TABLE src_table
SELECT col1,col2,col3,col4,... FROM src_table WHERE col3!=修改值
UNION ALL
SELECT col1原来值,col2原来值,col3新值,col4原来值,...;

四、hive分区表和桶表的区别

区别:从表现形式上来看:分区表是一个目录,而分桶表是一个文件;

从数量上来看:分区表的分区个数是可以增长的,而分桶表一旦指定完之后就不能增长;

从依据上来看:分区表需要手动添加分区,分区时依据的是表外字段,而分桶表是按照表内字段

从数据分布上来看:分区表在根据分区字段进行分区时可能会导致数据分布不均的情况,而分桶表是根据 hash值进行划分的,数据分布比较均匀。

五、如何给hive表增加一个分区

增加分区:通过alter修改表信息,然后在表名后面通过add添加一个经过判断后不存在的分区

删除分区同上,是通过drop删除一个经过判断后存在的分区

六、hive的数据倾斜

数据倾斜

hive的数据倾斜通常出现在MapReduce处理任务时,在不同节点并行处理数据的过程中,由于某一节点处理的数据远超其它节点的数据时,会导致此节点处理数据的时间远超出其它节点的时间甚至导致任务失败

原因及解决方案

(1)表关联时,关联字段null值过多;可以将空字段与非空字段分开检索,然后用union all合并查询结果,也可以使用外连接关联两表,然后对关联字段为的进行赋值,使其不为空;

(2)关联字段的数据类型不同;把不同的数据类型转为相同的;

(3)group by的维度过小,导致reduce处理一个分区的数据远多于另一个分区的数据;可以开

启Map端的聚合操作并设置groupby参数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/63390.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CSS学习记录04

CSS边框 CSS border 属性指定元素边框的样式、宽度和颜色。border-style 属性指定要显示的边框类型。dotted - 定义点线边框dashed - 定义虚线边框solid - 定义实线边框double - 定义双边框groove - 定义3D坡口边框,效果取决于border-color值ridge - 定义3D脊线边框…

一文了解模式识别顶会ICPR 2024的研究热点与最新趋势

简介 对模式识别研究领域前沿方向的跟踪是提高科研能力和制定科研战略的关键。本文通过图文并茂的方式介绍了ICPR 2024的研究热点与最新趋势,帮助读者了解和跟踪模式识别的前沿研究方向。本推文的作者是黄星宇,审校为邱雪和许东舟。 一、会议介绍 ICPR…

服务器挖矿

文章目录 一、确定挖矿进程并停止二、查找并清除挖矿相关文件三、检查并修复系统漏洞四、加强安全防护 一、确定挖矿进程并停止 查找挖矿进程 在Linux系统中,可以使用命令如top或htop来查看系统资源占用情况。挖矿程序通常会占用大量的CPU或GPU资源。例如&#xff…

福昕PDF低代码平台

福昕PDF低代码平台简介 福昕PDF 低代码平台是一款创新的工具,旨在简化PDF处理和管理的流程。通过这个平台,用户可以通过简单的拖拽界面上的按钮,轻松完成对Cloud API的调用工作流,而无需编写复杂的代码。这使得即使没有编程经验的…

oracle 11g中如何快速设置表分区的自动增加

在很多业务系统中,一些大表一般通过分区表的形式来实现数据的分离管理,进而加快数据查询的速度。分区表运维管理的时候,由于人为操作容易忘记添加分区,导致业务数据写入报错。所以我们一般通过配置脚本或者利用oracle内置功能实现…

Antd X : 迅速搭建 AI 页面的解决方案

前言 随着 AI 热度的水涨船高,越来越多的 AI 应用如井喷式爆发,那么如何迅速搭建一个 AI 应用的美观高质量 Web 前端页面呢, Antd 团队给出了一个解决方案。 X Ant DesIgn XAI 体验新秩序Ant Design 团队匠心呈现 RICH 设计范式&#xff0…

SD Express 卡漏洞导致笔记本电脑和游戏机遭受内存攻击

Positive Technologies 最近发布的一份报告揭示了一个名为 DaMAgeCard 的新漏洞,攻击者可以利用该漏洞利用 SD Express 内存卡直接访问系统内存。 该漏洞利用了 SD Express 中引入的直接内存访问 (DMA) 功能来加速数据传输速度,但也为对支持该标准的设备…

Java的Stream流:文件处理、排序与串并行流的全面指南

Java的Stream流:文件处理、排序与串并行流的全面指南 Java 8 引入了 Stream API,这是一个用于处理集合数据的强大工具,它提供了一种声明式的方式来进行聚合操作。Stream 不是一个数据结构,而是一种对数据进行操作的抽象&#xff…

运维工程师.云计算工程师指令集锦

LINUX简介与安装 一、Linux基础认知知识: 多使用者、多任务、多层次 Linux:开源、免费、安全、稳定 Linux中一切皆文件 Linux严格区分大小写 Linux文件命名规则: ①除了/之外,所有字符都合法; ②有些字符最好不用&…

波特图方法

在电路设计中,波特图为最常用的稳定性余量判断方法,波特图的根源是如何来的,却鲜有人知。 本章节串联了奈奎斯特和波特图的渊源,给出了其对应关系和波特图相应的稳定性余量。 理论贯通,不在于精确绘…

React 组件中 State 的定义、使用及正确更新方式

​🌈个人主页:前端青山 🔥系列专栏:React篇 🔖人终将被年少不可得之物困其一生 依旧青山,本期给大家带来React篇专栏内容React 组件中 State 的定义、使用及正确更新方式 前言 在 React 应用开发中,state …

C++(十二)

前言: 本文将进一步讲解C中,条件判断语句以及它是如何运行的以及内部逻辑。 一,if-else,if-else语句。 在if语句中,只能判断两个条件的变量,若想实现判断两个以上条件的变体,就需要使用if-else,if-else语…

查询产品所涉及的表有(product、product_admin_mapping)

文章目录 1、ProductController2、AdminCommonService3、ProductApiService4、ProductCommonService5、ProductSqlService1. 完整SQL分析可选部分(条件筛选): 2. 涉及的表3. 总结4. 功能概述 查询指定管理员下所有产品所涉及的表?…

Java应用服务器JVM配置与优化全面指南

Java应用服务器JVM配置与优化全面指南 1. JVM基础知识 Java虚拟机(JVM)是Java平台的核心,负责执行Java字节码。理解JVM的基本组成和工作原理是进行有效优化的基础。 1.1 JVM主要组件 类加载器:负责加载、链接和初始化类文件。…

游戏引擎学习第36天

仓库 :https://gitee.com/mrxiao_com/2d_game 回顾之前的内容 在这个程序中,目标是通过手动编写代码来从头开始制作一个完整的游戏。整个过程不使用任何库或现成的游戏引擎,这样做的目的是为了能够全面了解游戏执行的每一个细节。开发过程中&#xff0…

【SpringMVC】用户登录器项目,加法计算器项目的实现

阿华代码,不是逆风,就是我疯 你们的点赞收藏是我前进最大的动力!! 希望本文内容能够帮助到你!! 目录 一:用户登录项目实现 1:需求 2:准备工作 (1&#xf…

3.5 认识决策树

3.5 认识决策树 3.5.1 认识决策树 如何高效的进行决策? 特征的先后顺序 3.5.2 决策树分类原理详解 已知有四个特征,预测 是否贷款给某个人。 先看房子,再看工作,是否贷款。 年龄,信贷情况,工作&#…

MyBatis-Plus分页查询方式

分页查询基本方式 SpringBootTest(classes LearningApplication.class) public class MPTest {AutowiredILearningLessonService lessonService;Testpublic void test(){/*** Page<LearningLesson>&#xff1a;MyBatisPlus提供的分页对象* 1&#xff1a;当前页数* 2&am…

AI智能体Prompt预设词指令大全+GPTs应用使用

AI智能体使用指南 直接复制在AI工具助手中使用&#xff08;提问前&#xff09; 可前往SparkAi系统用户官网进行直接使用 SparkAI系统介绍文档&#xff1a;Docs 常见AI智能体GPTs应用大全在线使用 自定义添加制作AI智能体进行使用&#xff1a; 文章润色器 你是一位具有敏锐洞察…

MYSQL字符集和校对规则

文章目录 MYSQL字符集MYSQL默认字符集MySQL常见字符集 MYSQL校对规则校对规则总结 MYSQL字符集 UTF(Unicode Tranformation Format)是Unicode字符集规范的其中一个编码方式。 各字符编码详解可参考&#xff1a;字符编码发展历史 MYSQL默认字符集 5.7版本及之前&#xff1a;…