大数据之HIVE，一次HIVESQL执行的过程（四）

大数据之HIVE，一次HIVESQL执行的过程（四）

news/2025/4/18 12:53:40/文章来源:https://blog.csdn.net/wb_zjp283121/article/details/139352953

在hive中执行如下sql

INSERT OVERWRITE TABLE XXX
SELECT * from XXX

数据最终是怎么存储到hdfs上的过程

执行的过程当中,打印出如下的日志过程,本质上是一个在MapReduce中进行Shuffle的过程

所以下面就Shuffle的过程进行分析

Shuffle 描述的是数据从 Map 端到 Reduce 端的过程，大致分为排序（sort）、溢写（spill）、合并（merge）、拉取拷贝（Copy）、合并排序（merge sort）这几个过程，大体流程如下：

上图的 Map 的输出的文件被分片为红绿蓝三个分片，这个分片的就是根据 Key 为条件来分片的，分片算法可以自己实现，例如 Hash、Range 等，最终 Reduce 任务只拉取对应颜色的数据来进行处理，就实现把相同的 Key 拉取到相同的 Reduce 节点处理的功能。下面分开来说 Shuffle 的的各个过程。

注意:

sqoop import实际上是把数据存放到hdfs对应路径上了，而不是“直接导入表里”，
查询时，hive会从hdfs的路径上提取数据，再根据hive表的结构和定义，来向我们展示出类似表格的形式。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/845538.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

曾巩，散文的艺术与哲思

曾巩，散文的艺术与哲思

曾巩，字子固，世称南丰先生，南丰（今江西）人，生于北宋真宗天禧三年（公元1019年），卒于北宋元丰六年（公元1083年），享年64岁。他是中国北宋…

阅读更多...

数字IC后端项目简历模版

数字IC后端项目简历模版

新一年的IC秋招即将来临，应各位读者要求，小编周末抽空编写了一份数字IC后端设计实现项目相关简历模版。本次列出了社区四大IC后端项目的相关要点。大家可以根据自己的实际情况来做适当的修改调整。截止目前共有4个应届生学过这四个IC后端课程。这几个课…

阅读更多...

MySQL学习——查询示例（二）

MySQL学习——查询示例（二）

1 用户定义变量的使用可以使用MySQL用户定义的变量来存储查询结果，而无需在客户端使用临时变量。以下是一个如何使用用户定义的变量来找到价格最高和最低的商品的示例： mysql> SELECT min_price:MIN(price),max_price:MAX(price) FROM shop;mysql&g…

阅读更多...

http协议及httpd安装组成

http协议及httpd安装组成

文章目录一、http协议http协议通信过程http相关技术网站访问量HTTP工作机制HTTP协议版本HTTP请求访问的完整过程HTTP报文头部响应报文二、httpd安装组成apache介绍和特点工作模式（ MPM multi-processing module ）Http相关文件Http编译安装httpd常见配置…

阅读更多...

【日常记录】【JS】前端预览图片的两种方式，Base64预览和blob预览

【日常记录】【JS】前端预览图片的两种方式，Base64预览和blob预览

文章目录 1、前言1、FileReader3、window.URL.createObjectURL4、参考链接 1、前言一般来说，都是后端返回给前端图片的url，前端直接把这个值插入到 img 的src 里面即可还有一种情况是前端需要预览一下图片，比如：上传头像按钮&a…

阅读更多...

【vuejs】 computed 和 watch 的区别和使用场景说明

【vuejs】 computed 和 watch 的区别和使用场景说明

1. 计算属性 computed 概述计算属性 computed 是 Vue.js 中一个非常强大的功能，它允许开发者声明性地描述一个值是如何根据组件中其他数据计算得来的。计算属性是基于它们的依赖进行缓存的，只有当依赖发生变化时，计算属性才会重新计算。这使…

阅读更多...

显示器与电脑如何分屏显示？

显示器与电脑如何分屏显示？

1.点击电脑屏幕右键--显示设置 2、然后找到屏幕---找到多显示器---选择扩展显示器

阅读更多...

OpenAI 推出ChatGPT Edu，为高校定制版本

OpenAI 推出ChatGPT Edu，为高校定制版本

近日，OpenAI 宣布推出 ChatGPT Edu，这是一款专为高校打造的 ChatGPT 版本，旨在帮助学生、教师、研究人员和校园运营部门以负责任的方式部署和使用 AI。 ChatGPT Edu 由 GPT-4o 提供支持，具备强大的文本和图像推理能力，…

阅读更多...

PHP 操作日期各种转换

PHP 操作日期各种转换

日期操作一、根据日期生成日期数组 /*** 根据指定日期生成日期数组* param $start_time 开始时间* param $end_time 结束时间* return array 返回数组结果*/ function createDateArr($start_time, $end_time) {$open_start_time $start_time;$open_end_time $end_ti…

阅读更多...

Java18新版本特性！

Java18新版本特性！

Java 18引入了多项新特性，主要包括默认UTF-8字符集、简单的Web服务器、栈步进API等。Java 18是Oracle在2022年发布的版本，其旨在通过一系列创新特性来提升开发效率与性能。下面将逐一探讨Java 18的主要新特性以及它们对开发者的具体影响： 默认…

阅读更多...

7、css3实现边框不停地跑动效果

7、css3实现边框不停地跑动效果

效果例图： 1、上html代码： <!DOCTYPE html> <html lang"zh"> <head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, initial-scale1.0" /><meta …

阅读更多...

华为Atlas 500 A2小站：如何解决docker的各种报错问题

华为Atlas 500 A2小站：如何解决docker的各种报错问题

问题：华为Atlas 500 A2小站：如何解决docker的各种报错问题在Atlas 500 A2的小站环境搭建中，在使用docker时，如果所有办法都用了，还是报错的话。如： 报错1：Error response from daemon: Get “…

阅读更多...

文明互鉴促发展——2024“国际山地旅游日”主题活动在法国启幕

文明互鉴促发展——2024“国际山地旅游日”主题活动在法国启幕

5月29日，2024“国际山地旅游日”主题活动在法国尼斯市成功举办。中国驻法国使领馆、法国文化旅游部门、地方政府、国际组织、国际山地旅游联盟会员代表、旅游机构、企业、专家、媒体等围绕“文明互鉴的山地旅游”大会主题和“气候变化与山地旅游应对之策”论坛主题展…

阅读更多...

GNU Radio实现OFDM Radar

GNU Radio实现OFDM Radar

文章目录前言一、GNU Radio Radar Toolbox编译及安装二、ofdm radar 原理讲解三、GNU Radio 实现 OFDM Radar1、官方提供的 grc①、grc 图②、运行结果 2、修改后的便于后续可实现探测和通信的 grc①、grc 图②、运行结果四、资源自取前言本文使用 GNU Radio 搭建 OFDM Ra…

阅读更多...

每日一题29：数据操作之数据重塑

每日一题29：数据操作之数据重塑

一、每日一题 ---------------------- | Column Name | Type | ---------------------- | product_id | int | | store1 | int | | store2 | int | | store3 | int | ---------------------- 在 SQL 中，这张表的主键是 product…

阅读更多...

项目3 构建移动电商服务器集群

项目3 构建移动电商服务器集群

项目引入经过前期加班加点地忙碌，我们的网站顺利上线了！年中促销活动也如约而至，虽然公司全体对这次活动进行多方面地准备和“布防”，可是意外还是发生了。就在促销优惠购物活动的当天，猛然增加的用户访问量直接导致浏…

阅读更多...

java线程状态介绍

java线程状态介绍

1.新建（New）: 线程对象已创建，但还没有调用 start() 方法。 2.可运行（Runnable）: 线程已启动，处于就绪状态，等待 JVM 的线程调度器分配CPU时间。 3.阻塞（Blocked）: 线程…

阅读更多...

利用博弈论改进大模型性能：MIT最新研究解读

利用博弈论改进大模型性能：MIT最新研究解读

引言在人工智能和大模型的发展过程中，我们常常遇到一个有趣的现象：同一个问题在不同形式下可能得到不同的答案。这种不一致性不仅降低了大模型的可信度，也限制了其在实际应用中的效果。为了应对这一问题，来自MIT的研究人员提出了…

阅读更多...

什么是网络拓扑图，常见绘制工具

什么是网络拓扑图，常见绘制工具

什么是网络拓扑图网络拓扑图是一种图形表示方法，用于展示网络中组件的物理或逻辑布局。它显示了网络中的设备、连接以及它们之间的通信路径。网络拓扑图对于理解网络结构、规划网络扩展、诊断问题以及进行日常网络管理至关重要。网络拓扑图的类型 1. 物理拓扑&…

阅读更多...

Element快速入门

Element快速入门

Vue组件库Element 1 Element介绍 vue是侧重于VM开发的，主要用于数据绑定到视图的，ElementUI就是一款侧重于V开发的前端框架，主要用于开发美观的页面的。 Element：是饿了么公司前端开发团队提供的一套基于 Vue 的网站组件库&…

阅读更多...

最新文章