Detla lake with Java--入门

 最近在研究数据湖,虽然不知道研究成果是否可以用于工作,但我相信机会总是留给有准备的人。

数据湖尤其是最近提出的湖仓一体化概念,很少有相关的资料,目前开源的项目就三个,分别是hudi, detla lake, iceberg。最终选择使用detla lake,因为国外有相关的书籍,国内一些关于spark书籍也有提到detla lake。花了一些钱把国内外相关的书籍都买了一遍,发现全部都是用scala来实现的,很少用java来实现,决定参考其他大牛,例如:https://edu.csdn.net/course/detail/35238的做法,逐步把自己自学成果总结一下。

入门肯定先是弄一个类似HelloWorld的例子,就叫HelloDeltaLake吧。

可能大家都以为涉及Spark是不是要先部署一套Spark环境,经过尝试,发现原来不需要,研发环境可以使用常用的window 11操作系统,跟一般java项目一样先通过IDEA建立一个Maven工程,这里有几个注意点:

1、detla lake建议使用java 8,11,17,8新版IDEA不太支持了,17又太新了,所以最终选择11

2、pom.xml里面要注意spark和detla lake一定要对应scala的版本号,具体如下面代码字里面的2.12,三者必须一致,我尝试过spark用2.13,delta lake用2.12结果报错,总之这个问题花了很多时间去解决。

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>org.example</groupId><artifactId>detla-lake-with-java</artifactId><version>1.0-SNAPSHOT</version><properties><maven.compiler.source>11</maven.compiler.source><maven.compiler.target>11</maven.compiler.target><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding></properties><dependencies><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.12</artifactId><version>3.5.1</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.12</artifactId><version>3.5.1</version></dependency><dependency><groupId>io.delta</groupId><artifactId>delta-spark_2.12</artifactId><version>3.1.0</version></dependency><dependency><groupId>com.fasterxml.jackson.core</groupId><artifactId>jackson-core</artifactId><version>2.17.0</version></dependency></dependencies></project>

3、最后就是录入简单的程序了

package detal.lake.java;import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SaveMode;
import org.apache.spark.sql.SparkSession;public class HelloDetlaLake {public static void main(String[] args) {SparkSession spark = SparkSession.builder().master("local[*]").appName("delta_lake").config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension").config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog").getOrCreate();Dataset<Row> data = spark.range(0,5).toDF();data.write().format("delta").mode(SaveMode.Overwrite).save("file:///D:\\bigdata\\detla-lake-with-java\\delta-table-data");Dataset<Row> df = spark.read().format("delta").load("file:///D:\\bigdata\\detla-lake-with-java\\delta-table-data");df.printSchema();df.show();}
}

代码很简单,不需要运行spark,然后用1~5生成一个5行数据,保存到D:\bigdata\detla-lake-with-java\delta-table-data这个目录,然后再去把数据查询回来,该代码是直接使用 https://edu.csdn.net/course/detail/35238 课程里面提供的。

最终在IDEA运行结果:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/4724.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

常用算法代码模板 (3) :搜索与图论

AcWing算法基础课笔记与常用算法模板 (3) ——搜索与图论 常用算法代码模板 (1) &#xff1a;基础算法 常用算法代码模板 (2) &#xff1a;数据结构 常用算法代码模板 (3) &#xff1a;搜索与图论 常用算法代码模板 (4) &#xff1a;数学知识 文章目录 0 搜索技巧1 树与图的存…

机器学习:基于Sklearn、XGBoost框架,使用XGBClassifier、支持向量分类器和决策树分类器预测乳腺癌是良性还是恶性

前言 系列专栏&#xff1a;机器学习&#xff1a;高级应用与实践【项目实战100】【2024】✨︎ 在本专栏中不仅包含一些适合初学者的最新机器学习项目&#xff0c;每个项目都处理一组不同的问题&#xff0c;包括监督和无监督学习、分类、回归和聚类&#xff0c;而且涉及创建深度学…

大数据组件之Storm简介

大数据组件之Storm简介 摘要&#xff1a; Apache Storm是一个开源的实时大数据处理系统&#xff0c;由Twitter公司开发并捐赠给Apache基金会。它以其高吞吐量、可扩展性和容错性在实时数据处理领域占据重要地位。本文将对Apache Storm进行全面介绍&#xff0c;包括其架构、特点…

MySQL:飞腾2000+Centos7.6 aarch64 部署MySQL8.0.36

目录 1.硬件环境 2.MySQL选择 Bundle版本【全部文件】​编辑 3.下载并安装 4.安装完成后检查mysql 5.初始化MySQL 6.那就问了&#xff0c;都初始化了啥&#xff1f; 7.尝试启动MySQL 8.给mysql文件授权 9.再次尝试启动正常 10.mysql初始化目录出现了mysql.sock 11.找…

Android SQLite中的UNIQUE constraint failed错误

报错信息&#xff1a; UNIQUE constraint failed SQLite中的UNIQUE constraint failed错误&#xff0c;表明尝试插入或更新数据库时出现了违反唯一性约束的情况。唯一性约束确保在特定列或列集合中的值在表中是唯一的&#xff0c;即不能有重复的值。当你尝试插入或更新已存在于…

为什么我的Mac运行速度变慢 mac运行速度慢怎么办 如何使用CleanMyMac X修复它

近些年伴随着苹果生态的蓬勃发展&#xff0c;越来越多的用户开始尝试接触Mac电脑。然而很多人上手Mac后会发现&#xff0c;它的使用逻辑与Windows存在很多不同&#xff0c;而且随着使用时间的增加&#xff0c;一些奇奇怪怪的文件也会占据有限的磁盘空间&#xff0c;进而影响使用…

android 分区存储(沙盒存储)适配总结

目录 一、分区存储概念 1.外部存储分类 2.分区存储如何影响文件访问 二、分区适配方案 1. 应用分区存储的文件访问规定 (1).应用专属目录--私有目录 (2).共享目录文件--公有目录 2.MediaStore API介绍 3.Storage Access Framework介绍 三、所有文件访问权限 四、总结…

C、C++的联合体:union关键字含义

C、C的联合体&#xff1a;union关键字含义 **联合体&#xff08;Union&#xff09;**在C语言中是一种特殊的数据结构&#xff0c;它允许在相同的内存位置存储不同的数据类型。但是&#xff0c;在任何时候&#xff0c;联合体中只有一个成员是有效的&#xff0c;因为所有的成员都…

http请求内容

Cookie 可以包含多个键值对&#xff0c;因此它不仅限于单个值。一个 Cookie 可以携带多个属性&#xff0c;每个属性由键值对表示 Set-Cookie: namevalue; expiresSat, 30 Apr 2022 23:59:59 GMT; path/; domain.example.com; secure; HttpOnly 在HTTP协议中&#xff0c;请求头之…

【项目学习01_2024.04.27_Day02】

学习笔记 3 课程查询3.4 生成接口文档ApiOperation("课程查询接口") 和Api注解的区别Api(value "课程信息编辑接口",tags "课程信息编辑接口")其中的value和tags有什么用呢Swaager的常用注解如下&#xff1a;3.5 开发持久层3.5.1 生成mapper3.…

从NoSQL到NewSQL——10年代大数据浪潮下的技术革新

引言 在数字化浪潮的推动下&#xff0c;数据库技术已成为支撑数字经济的坚实基石。腾讯云 TVP《技术指针》联合《明说三人行》特别策划的直播系列——【中国数据库前世今生】&#xff0c;我们将通过五期直播&#xff0c;带您穿越五个十年&#xff0c;深入探讨每个时代的数据库演…

如何获得理想的词向量表示?

为了获得理想的词向量表示以支持下游任务&#xff0c;词汇的嵌入向量通常会经过一系列的处理和优化步骤。以下是一些关键的操作&#xff1a; 初始化&#xff1a;嵌入向量最初是随机初始化的&#xff0c;但一些方法会使用更智能的初始化策略&#xff0c;比如通过预训练的嵌入或者…

8_手眼标定总结_auboi5机械臂与海康平面相机

经过不断地学习与调试&#xff0c;不断地学习网络上其他同志分享的资料&#xff0c;opencv手眼标定迎来了阶段性结束。实际测试结果在机械臂坐标系中X方向差5mm左右。 代码参考《https://blog.csdn.net/wanggao_1990/article/details/81435660》 注意事项&#xff1a; ①标定…

软考高级架构师:嵌入式操作系统微内核例题解析

1 题目和解析 1.1 题目 以下关于操作系统微内核架构特征的说法&#xff0c;不正确的是&#xff08;&#xff09;。 A. 微内核的系统结构清晰&#xff0c;利于协作开发 B. 微内核代码量少&#xff0c;系统具有良好的可移植性 C. 微内核有良好的伸缩性、扩展性 D. 微内核的功能…

Java解决最后一个单词长度

Java解决最后一个单词长度 01 题目 给你一个字符串 s&#xff0c;由若干单词组成&#xff0c;单词前后用一些空格字符隔开。返回字符串中 最后一个 单词的长度。 单词 是指仅由字母组成、不包含任何空格字符的最大子字符串。 示例 1&#xff1a; 输入&#xff1a;s "Hel…

MT3608B 航天民芯代理 1.2Mhz 24V输入 升压转换器

深圳市润泽芯电子有限公司为航天民芯一级代理商 技术支持欢迎试样~Tel&#xff1a;18028786817 简述 MT3608B是恒定频率的6针SOT23电流模式升压转换器&#xff0c;用于小型、低功耗应用。MT3608B开关频率为1.2MHz&#xff0c;允许使用微小、低电平成本电容器和电感器高度不…

http的basic 认证方式

写在前面 本文看下http的basic auth认证方式。 1&#xff1a;什么是basic auth认证 basic auth是一种http协议规范中的一种认证方式&#xff0c;即一种证明你就是你的方式。更进一步的它是一种规范&#xff0c;这种规范是这样子&#xff0c;如果是服务端使用了basic auth认证…

【源码阅读】 Golang中的database/sql库源码探究

Note&#xff1a;文章待完结 文章目录 前言一、整体目录结构二、driver包1、驱动相关driver.Driver2、驱动连接&#xff1a;driver.Conn3、预处理结构&#xff1a;Stmt4、执行结果 driver.Result5、查询结果&#xff1a;driver.Rows6、driver.RowsAffected7、driver.Value8、Va…

IMU识别高尔夫球击球位置

近日&#xff0c;来自欧洲的一支奥地利科研团队联合高校和业界专家&#xff0c;通过在高尔夫球杆上安装IMU传感器&#xff0c;用来实时精准识别球杆与球的接触点位置&#xff0c;以增强高尔夫训练效果。 该团队致力于开发一种移动式解决方案&#xff0c;以替代传统的静态检测技…