尚硅谷大数据技术-数据湖Hudi视频教程-笔记02【核心概念(基本概念、数据写、数据读)】

大数据新风口:Hudi数据湖(尚硅谷&Apache Hudi联合出品)

  1. B站直达:https://www.bilibili.com/video/BV1ue4y1i7na  尚硅谷数据湖Hudi视频教程
  2. 百度网盘:https://pan.baidu.com/s/1NkPku5Pp-l0gfgoo63hR-Q?pwd=yyds
  3. 阿里云盘:https://www.aliyundrive.com/s/uMCmjb8nGaC(教程配套资料请从百度网盘下载)

  1. 尚硅谷大数据技术-数据湖Hudi视频教程-笔记01【概述、编译安装】

  2. 尚硅谷大数据技术-数据湖Hudi视频教程-笔记02【核心概念(基本概念、数据写、数据读)】

  3. 尚硅谷大数据技术-数据湖Hudi视频教程-笔记03【集成Spark】

  4. 尚硅谷大数据技术-数据湖Hudi视频教程-笔记04【集成Flink】

  5. 尚硅谷大数据技术-数据湖Hudi视频教程-笔记05【集成Hive】

目录

第3章 核心概念

010

011

012

013

014

015

016

017

018

019

020

021

022

023

024

025


第3章 核心概念

010

第3章 核心概念

3.1 基本概念

3.1.1 时间轴(TimeLine)

011

3.1.2 文件布局(File Layout)

012

3.1.2 文件布局(File Layout)

013

3.1.3 索引(Index)

1)原理

014

3.1.3 索引(Index)

2)索引选项

015

3.1.3 索引(Index)

3)全局索引与非全局索引

016

3.1.3 索引(Index)

4)索引的选择策略

017

3.1.4 表类型(Table Types)

1)Copy On Write

018

3.1.4 表类型(Table Types)

2)Merge On Read

019

3.1.4 表类型(Table Types)

3)COW与MOR的对比

cow:批处理、mor:流批都行,更推荐流。

020

3.1.5 查询类型(Query Types)

1)Snapshot Queries     快照查询:全量最新。

2)Incremental Queries

3)Read Optimized Queries

021

3.1.5 查询类型(Query Types)

4)不同表支持的查询类型

022

3.2 数据写

3.2.1 写操作

3.2.2 写流程(UPSERT)

1)Copy On Write

2)Merge On Read

023

3.2.3 写流程(INSERT)

1)Copy On Write

2)Merge On Read

3.2.4 写流程(INSERT OVERWRITE)

1)COW

2)MOR

3)优点

4)缺点

024

3.2.5 Key 生成策略

3.2.6 删除策略

1)逻辑删

2)物理删

3.2.7 总结

025

3.3 数据读

3.3.1 Snapshot读

3.3.2 Incremantal读

3.3.3 Streaming读

3.4 Compaction

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/610652.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何创业,创业的历程

1、网址导航流行的时候,hao123胜出 2、视频网站流行的时候,优酷 土豆 等胜出 3、团购网站流行的时候,美团胜出 4、导购网站流行的时候,美丽说、蘑菇街胜出 5、p2p流行的时候,不知道谁胜出 6、短视频流行的时候&#xf…

红帽宣布CentOS 7和RHEL 7将在2024年6月30日结束支持,企业面临紧迫的迁移压力!

2020 年红帽 (RedHat,已在 2019 年被 IBM 收购) 单方面宣布终止 CentOS Linux 的开发,此后 CentOS Linux 8 系列的更新已经在 2021 年 12 月结束,而 CentOS Linux 7 系列的更新将在 2024 年 6 月 30 日结束。 与 CentOS Linux 7 一起发布的 R…

CentOS Stream 9配置yum源

文章目录 Red Hat 9 && CentOS Stream 9 配置阿里云yum 源CentOS Stream 9 配置阿里云 yum 源Red Hat 9 配置阿里云 yum 源 Red Hat 9 && CentOS Stream 9 配置阿里云yum 源 CentOS Stream 9 配置阿里云 yum 源 备份原有的 yum文件 [rootlocalhost ~]# cd /…

网络的设置

一、网络设置 1.1查看linux基础的网络设置 网关 route -n ip地址ifconfigDNS服务器cat /etc/resolv.conf主机名hostname路由 route -n 网络连接状态ss 或者 netstat域名解析nslookup host 例题:除了ping,什么命令可以测试DNS服务器来解…

LeetCode 94. 二叉树的中序遍历

94. 二叉树的中序遍历 给定一个二叉树的根节点 root ,返回 它的 中序 遍历 。 示例 1: 输入:root [1,null,2,3] 输出:[1,3,2] 示例 2: 输入:root [] 输出:[] 示例 3: 输入&…

【MySQL】数据库的设计

数据库设计 1、多表关系 一对多(多对一):在多的一方建立外键,指向一的一方的主键。多对多:多对多关系实现需要借助第三张中间表。中间表至少包含两个字段,这两个字段作为第三张表的外键,分别指向两张表的主键一对一&…

企业级进销存管理系统

框架: 进销存管理系统,采用SpringBootShiroMyBatisEasyUI 项目采用Maven构建,数据库文件存放在 sql/jxc.sql 截图 运行项目部分截图, 登录界面,用户名admin,密码admin123 当前库存查询, 进…

搭建Eureka服务注册中心

一、前言 我们在别的章节中已经详细讲解过eureka注册中心的作用,本节会简单讲解eureka作用,侧重注册中心的搭建。 Eureka作为服务注册中心可以进行服务注册和服务发现,注册在上面的服务可以到Eureka上进行服务实例的拉取,主要作用…

用判断对齐大语言模型

1、写作动机: 目前的从反馈中学习方法仅仅使用判断来促使LLMs产生更好的响应,然后将其作为新的示范用于监督训练。这种对判断的间接利用受到无法从错误中学习的限制,这是从反馈中学习的核心精神,并受到LLMs的改进能力的制约。 2…

了解Spring中的依赖注入:@Autowired vs. @Resource

在Spring框架中,依赖注入是一项关键的特性,通过它,我们能够更灵活、更方便地管理和使用各种组件。在依赖注入的实现中,Resource 和 Autowired 是两个常用的注解,它们分别具有不同的特点和用途。在本篇博客中&#xff0…

来自一个系统的自白

天空一声巨响,小炫我闪亮登场!初次见面,给大家简单介绍下自己:我是炫我渲染私有云系统,是最新一代的智能渲染集群系统。可以进行私有化部署,在3dsmax、maya等软件中一键完成提交、上传、渲染、下载的任务&a…

ESP32-WIFI(Arduino)

ESP32-WIFI Wi-Fi是一种基于IEEE 802.11标准的无线局域网技术,是Wi-Fi联盟制造商的商标作为产品的品牌认证。它可以让电脑、手机、平板电脑等设备通过无线信号连接到互联网 。 在无线网络中,AP(Access Point)和 STA(St…

八股文 c++ 多态

静态多态 静态多态(编译时多态):主要体现在函数重载(Overloading)和运算符重载上,编译器根据函数签名在编译阶段就能确定调用哪个函数。 动态多态 动态多态(运行时多态)&#xff…

leetcode 659. 分割数组为连续子序列

题目链接:leetcode 659 1.题目 给你一个按 非递减顺序 排列的整数数组 nums 。 请你判断是否能在将 nums 分割成 一个或多个子序列 的同时满足下述 两个 条件: 每个子序列都是一个 连续递增序列(即,每个整数 恰好 比前一个整数…

1881_S32K344开发工具以及MCAL软件安装

全部学习汇总: GreyZhang/g_s32k344: A new MCU learning notes. I would try to use MCAL instead of SDK. (github.com) 编译有专门的编译器安装包,也有IDE的安装形式。这里我选择了IDE,因为我还需要一个开发调试环境。这个IDE可以让我方便…

使用cURL命令在Linux中测试HTTP服务器的性能

cURL是一个强大的命令行工具,用于从或向服务器传输数据。它支持多种协议,包括HTTP、HTTPS、FTP等。在Linux系统中,cURL可以用于测试和评估HTTP服务器的性能。下面是一些使用cURL命令测试HTTP服务器性能的示例和说明。 1. 基本请求 要向指定…

MySQL8下载安装教程

一、MySQL下载 我的版本是8.2.0,当前的最新版本,网址如下:MySQL :: Download MySQL Community Server 点击No thanks,just start my download,就是只是开始下载的意思,点击下载,等待下载完成 二…

ylov8的训练和预测使用(目标检测)

首先要配置文文件 1-配置数据集的yaml文件: 目录在ultralytics/cfg/datasets/下面: 例如我的: (这里面的yaml文件在/ultralytics/cfg/datasets下面有很多,可以找几个参考一下) path: /path/to/eye_datasets # dataset root di…

java基础之Java8新特性-方法引入

目录 1.简介 2.方法引入 方法引入遵循规范 方法引入种类 1.静态方法引入 2.对象方法引入 3.实例方法引入 4.构造函数引入 1.简介 方法引用是 Java 8 中引入的另一个重要特性,它提供了一种简洁的语法来直接引用现有方法或构造函数。方法引用可以看作是 Lambd…

【Python机器学习】决策树集成——梯度提升回归树

理论知识: 梯度提升回归树通过合并多个决策树来构建一个更为强大的模型。虽然名字里有“回归”,但这个模型既能用于回归,也能用于分类。与随机森林方法不同,梯度提升采用连续的方式构造树,每棵树都试图纠正前一…