1.数据湖deltalake初识

转载自  1.数据湖deltalake初识

1.delta特性简介

Delta Lake是Spark计算框架和存储系统之间带有Schema信息数据的存储中间层。它给Spark带来了三个最主要的功能:

第一,Delta Lake使得Spark能支持数据更新和删除功能;

第二,Delta Lake使得Spark能支持事务;

第三,支持数据版本管理,运行用户查询历史数据快照。

核心特性

  1. ACID事务:为数据湖提供ACID事务,确保在多个数据管道并发读写数据时,数据能保持完整性。

  2. 数据版本管理和时间旅行:提供了数据快照,使开发人员能够访问和还原早期版本的数据以进行审核、回滚或重现实验

  3. 可伸缩的元数据管理:存储表或者文件的元数据信息,并且把元数据也作为数据处理,元数据与数据的对应关系存放在事务日志中;

  4. 流和批统一处理:Delta中的表既有批量的,也有流式和sink的;

  5. 数据操作审计:事务日志记录对数据所做的每个更改的详细信息,提供对更改的完整审计跟踪;

  6. Schema管理功能:提供自动验证写入数据的Schema与表的Schema是否兼容的能力,并提供显示增加列和自动更新Schema的能力;

  7. 数据表操作(类似于传统数据库的SQL):合并、更新和删除等,提供完全兼容Spark的Java/scala API;

  8. 统一格式:Delta中所有的数据和元数据都存储为Apache Parquet。

Delta的特性实现是基于事务日志,比如ACID事务管理、数据原子性、元数据处理和时间旅行等功能。

Delta Lake 说白了就是一个lib库

Delta Lake 是一个lib 而不是一个service,不同于HBase,他不需要单独部署,而是直接依附于计算引擎的。目前只支持Spark引擎。这意味什么呢?Delta Lake 和普通的parquet文件使用方式没有任何差异,你只要在你的Spark代码项目里引入delta包,按标准的Spark datasource操作即可,可谓部署和使用成本极低。

 

Delta Lake真实内容幕

Parquet文件 + Meta 文件 + 一组操作的API = Delta Lake.

所以Delta没啥神秘的,和parquet没有任何区别。但是他通过meta文件以及相应的API,提供众多特性功能的支持。在Spark中使用它和使用parquet的唯一区别就是把format parquet换成detla。

上图可以看出,数据湖目的实一站式提供各种数据服务。

 

2.delta测试

采用的Spark 3.0版本,delta是0.7版本进行测试,首先是导入依赖:

<dependency>  <groupId>io.delta</groupId>  <artifactId>delta-core_2.12</artifactId>  <version>0.7.0</version></dependency>

spark使用delta也很简单,就如使用json,csv等数据格式一样,只需要在format函数传入delta字符串就可以了。比如创建一张表,scala的表达如下:

val data = spark.range(0, 5)data.write.format("delta").save("tmp/delta-table")

schema信息,他自己会从dataframe中推断出来。

读取一张表

spark.read.format("delta").load("tmp/delta-table").show()

 

3.总结

本文的目标只是让大家对delta有个大致的认识。其实,delta lake的api对于spark来说基本是一致的,没啥变动。delta底层是完全基于spark的,而且可以支持实时和离线,对于多读少更新,多批次更新的场景也是可以的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/322362.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Quartz.NET 3.0 正式发布

Quartz.NET是一个强大、开源、轻量的作业调度框架&#xff0c;你能够用它来为执行一个作业而创建简单的或复杂的作业调度。它有很多特征&#xff0c;如&#xff1a;数据库支持&#xff0c;集群&#xff0c;插件&#xff0c;支持cron-like表达式等等。在2017年的最后一天Quartz.…

jzoj4805-[NOIP2016提高A组模拟9.28]跟踪【dfs,树】

正题 题目大意 一棵树一个人从sss开始&#xff0c;有两个追击者从p,qp,qp,q出发&#xff0c; 在3k1s3k1\ s3k1 s&#xff0c;那个人走 在3k2和3k3s3k2和3k3\ s3k2和3k3 s&#xff0c;追击者走。 求那个人最久多久不会被追上。 解题思路 首先计算出每个点距离两个追击者和那个…

ScheduledThreadPool中的Leader-Follow模式你知道不?

转载自 ScheduledThreadPool中的Leader-Follow模式你知道不&#xff1f; ScheduledThreadPoolExecutor 是java中一个非常常用的定时调度的工具&#xff0c;其提供了两种定时调度常用模式: 1.固定调度周期的任务执行。 2.固定延迟间隔的任务执行&#xff0c;延迟间隔表示的是…

(九)IDEA便捷配置MyBatis.xml文件

在使用IDEA新建mybatis.xml经常需要手动复制粘贴之前的xml配置。这样也比较麻烦。我们可以IDEA进行关于xml的配置 1.创建MyBatis Config的模版 1.打开新增2.查看编辑页面查看编辑页面 我们看到Name&#xff1a;为我们新增模版的文件名称。Extension&#xff1a;为我们新增文件…

用 Identity Server 4 (JWKS 端点和 RS256 算法) 来保护 Python web api

目前正在使用asp.net core 2.0 (主要是web api)做一个项目, 其中一部分功能需要使用js客户端调用python的pandas, 所以需要建立一个python 的 rest api, 我暂时选用了hug, 官网在这: http://www.hug.rest/.目前项目使用的是identity server 4, 还有一些web api和js client.项目…

欢乐纪中A组莫名其妙赛【2019.6.6】

前言 好像明天他们就高考了&#xff0c;先祝福一波。 然后今天AKKKKKKKKKKKKKKKKKKKKKKKKK!AKKKKKKKKKKKKKKKKKKKKKKKKK!AKKKKKKKKKKKKKKKKKKKKKKKKK! 成绩 JJJ表示初中&#xff0c;HHH表示高中后面加的是几年级 RankRankRankPersonPersonPersonScoreScoreScoreAAABBBCCC111(…

MySQL死锁如何处理

转载自 MySQL死锁如何处理 前提 笔者负责的一个系统最近有新功能上线后突然在预警模块不定时报出MySQL死锁导致事务回滚。幸亏&#xff0c;上游系统采用了异步推送和同步查询结合的方式&#xff0c;感知到推送失败及时进行了补偿。于是&#xff0c;笔者争取了一点时间详细分析…

(十)IDEA添加mybatis-mapp.xml文件

1.点击file–Settings–Editor–file and Code Templates 2.配置mybatis-mapper.xml的网址,点击file–Settings–ages& Frameworks–Schmas and DTDs 3.创建mapper.xml文件

g4e基础篇#2 Git分布式版本控制系统的优势

1. 基础篇&#xff1a;为什么要使用版本控制系统Git 分布式版本控制系统的优势Git 安装和设置初始化Git存储库(Repo)起步 1 – 创建分支和保存代码起步 2 – 了解Git历史记录起步 3 – 拉取请求 Pull Request 工作机制Git是当前最棒的版本控制系统&#xff0c;已经迅速成为了事…

P4989-二进制之谜【堆,贪心】

正题 题目链接:https://www.luogu.org/problemnew/show/P4989 题目大意 一个二进制数两两配对&#xff0c;要求 配对的数不能交叉(用同一个区间但不包含)0在前1在后 要求配对最多的情况下所有配对的距离之和最远。 解题思路 将0视为左括号&#xff0c;1视为右括号&#xf…

案例分析 | 由Decimal操作计算引发的Spark数据丢失问题

转载自 案例分析 | 由Decimal操作计算引发的Spark数据丢失问题 供稿 | Hadoop Team 编辑 | 顾欣怡 本文3058字&#xff0c;预计阅读时间10分钟 导读 eBay的Hadoop集群上面每天运行着大量Spark计算任务。对于数据计算任务&#xff0c;其计算性能十分重要&#xff0c;数据质…

(十一)MyBatis的动态SQL:trim元素

trim标记是一个格式化的标记&#xff0c;可以完成select&#xff0c;update&#xff0c;insert语句的格式化操作。trim元素的主要功能有四个&#xff1a; &#xff08;1&#xff09;可以在包含的内容前加上某些前缀&#xff0c;与之对应的属性是prefix&#xff1b; &#xff08…

入门干货之Electron的.NET实现-Electron.NET

0x01、Electron.NET1、介绍Electron是由Github上的一支团队和一群活跃贡献者维护。用HTML&#xff0c;CSS和JavaScript来构建跨平台桌面应用程序的一个开源库。 Electron通过将Chromium和Node.Js合并到同一个运行时环境中&#xff0c;并将其打包为Mac&#xff0c;Windows和Linu…

P2514-[HAOI2010]工厂选址【贪心】

正题 题目链接:https://www.luogu.org/problemnew/show/P2514 题目大意 有一个厂&#xff0c;需要bbb吨煤炭&#xff0c;然后第jjj个矿运到该厂的运费为c0,jc_{0,j}c0,j​&#xff0c;运行总费用为运费之和加上h0h_0h0​ 现在在1∼n1\sim n1∼n挑选一个建一个新厂&#xff0…

Scala与Java差异(三)之函数

一、函数定义 &#xff08;1&#xff09;函数的定义与调用 在Scala中定义函数时&#xff0c;需要定义函数的函数名、参数、函数体。 第一个函数如下所示&#xff1a; def sayHello(name: String, age: Int) {if (age > 18) { printf("hi %s, you are a big boy\n&…

(十二)C3P0连接池使用教程

一般我们在项目中操作数据库时&#xff0c;都是每次需要操作数据库就建立一个连接&#xff0c;操作完成后释放连接。因为jdbc没有保持连接的能力&#xff0c;一旦超过一定时间没有使用&#xff08;大约几百毫秒&#xff09;&#xff0c;连接就会被自动释放掉。而每次新建连接都…

通过Chocolatey软件包管理器安装.NET Core

在Linux的世界里&#xff0c;有了yum/apt-get百分之九十的软件都可以通过它来安装管理。但是在Windows系统上&#xff0c;装个软件还是挺折腾的。比如我要装个Chrome浏览器&#xff0c;我先得打开IE浏览器吧&#xff0c;我还打不开Chrome的官网吧&#xff0c;得百度吧&#xff…

P3100-[USACO14JAN]建造滑雪场【贪心,dp】

正题 题目链接:https://www.luogu.org/problemnew/show/P3100 题目大意 一个空矩阵&#xff0c;每次可以将B∗BB*BB∗B的矩阵覆盖为RRR或者BBB。 求BBB最大是多少使得可以覆盖使得原矩阵成为目标矩阵。 解题思路 我们考虑贪心&#xff0c;先分析一下性质。 假设答案为kkk&…

Scala与Java差异(四)之数组操作

一、数组操作之Array、ArrayBuffer以及遍历数组 &#xff08;1&#xff09;Array 在Scala中&#xff0c;Array代表的含义与Java中类似&#xff0c;也是长度不可改变的数组。此外&#xff0c;由于Scala与Java都是运行在JVM中&#xff0c;双方可以互相调用&#xff0c;因此Scal…

(十三)RabbitMQ使用详解

RabbitMQ是基于AMQP的一款消息管理系统。AMQP(Advanced Message Queuing Protocol)&#xff0c;是一个提供消息服务的应用层标准高级消息队列协议&#xff0c;其中RabbitMQ就是基于这种协议的一种实现。 常见mq&#xff1a; ActiveMQ&#xff1a;基于JMSRabbitMQ&#xff1a;…