apache spark_Apache Spark软件包,从XML到JSON

apache spark

Apache Spark社区为扩展Spark付出了很多努力。 最近,我们希望将XML数据集转换为更易于查询的内容。 我们主要对每天进行的数十亿笔交易之上的数据探索感兴趣。 XML是一种众所周知的格式,但是有时使用起来可能很复杂。 例如,在Apache Hive中,我们可以定义XML模式的结构,然后使用SQL查询它。

但是,我们很难跟上XML结构的更改,因此放弃了先前的选项。 我们正在使用Spark Streaming功能将这些事务带入我们的集群,并且我们正在考虑在Spark中进行所需的转换。 但是,仍然存在相同的问题,因为每次XML结构更改时,我们都必须更改Spark应用程序。

肯定有另一种方式!

有一个来自社区的Apache Spark软件包,我们可以用来解决这些问题。 在此博客文章中,我将指导您如何使用社区中的Apache Spark包将任何XML文件读入DataFrame。

让我们加载Spark shell并查看示例:

./spark-shell — packages com.databricks:spark-xml_2.10:0.3.3

在这里,我们只是将XML包添加到了我们的Spark环境中。 当然,可以在编写Spark应用并将其打包到jar文件中时添加。

使用该包,我们可以将任何XML文件读入DataFrame。 加载DataFrame时,我们可以指定数据的架构,但这首先是我们的主要关注点,因此我们将让Spark进行推断。 DataFrame模式的推断是一个非常强大的技巧,因为我们不再需要知道该模式,因此它可以随时更改。

让我们看看如何将XML文件加载到DataFrame中:

val df = sqlContext.read.format("com.databricks.spark.xml").option("rowTag", "OrderSale").load("~/transactions_xml_folder/")df.printSchema

打印DataFrame架构使我们对推理系统做了什么有所了解。

root|-- @ApplicationVersion: string (nullable = true)|-- @BusinessDate: string (nullable = true)|-- @Change: double (nullable = true)|-- @EmployeeId: long (nullable = true)|-- @EmployeeName: string (nullable = true)|-- @EmployeeUserId: long (nullable = true)|-- @MealLocation: long (nullable = true)|-- @MessageId: string (nullable = true)|-- @OrderNumber: long (nullable = true)|-- @OrderSourceTypeId: long (nullable = true)|-- @PosId: long (nullable = true)|-- @RestaurantType: long (nullable = true)|-- @SatelliteNumber: long (nullable = true)|-- @SpmHostOrderCode: string (nullable = true)|-- @StoreNumber: long (nullable = true)|-- @TaxAmount: double (nullable = true)|-- @TaxExempt: boolean (nullable = true)|-- @TaxInclusiveAmount: double (nullable = true)|-- @TerminalNumber: long (nullable = true)|-- @TimeZoneName: string (nullable = true)|-- @TransactionDate: string (nullable = true)|-- @TransactionId: long (nullable = true)|-- @UTCOffSetMinutes: long (nullable = true)|-- @Version: double (nullable = true)|-- Items: struct (nullable = true)|    |-- MenuItem: struct (nullable = true)|    |    |-- #VALUE: string (nullable = true)|    |    |-- @AdjustedPrice: double (nullable = true)|    |    |-- @CategoryDescription: string (nullable = true)|    |    |-- @DepartmentDescription: string (nullable = true)|    |    |-- @Description: string (nullable = true)|    |    |-- @DiscountAmount: double (nullable = true)|    |    |-- @Id: long (nullable = true)|    |    |-- @PLU: long (nullable = true)|    |    |-- @PointsRedeemed: long (nullable = true)|    |    |-- @Price: double (nullable = true)|    |    |-- @PriceLessIncTax: double (nullable = true)|    |    |-- @PriceOverride: boolean (nullable = true)|    |    |-- @ProductivityUnitQuantity: double (nullable = true)|    |    |-- @Quantity: long (nullable = true)|    |    |-- @TaxAmount: double (nullable = true)|    |    |-- @TaxInclusiveAmount: double (nullable = true)|-- OrderTaxes: struct (nullable = true)|    |-- TaxByImposition: struct (nullable = true)|    |    |-- #VALUE: string (nullable = true)|    |    |-- @Amount: double (nullable = true)|    |    |-- @ImpositionId: long (nullable = true)|    |    |-- @ImpositionName: string (nullable = true)|-- Payments: struct (nullable = true)|    |-- Payment: struct (nullable = true)|    |    |-- #VALUE: string (nullable = true)|    |    |-- @AccountIDLast4: string (nullable = true

此时,我们可以使用任何SQL工具通过Spark SQL查询XML。 请阅读这篇文章( Apache Spark作为分布式SQL引擎 )以了解有关Spark SQL的更多信息。 更进一步,我们可以使用可以读取JSON格式的数据的工具。 如果您拥有Apache Drill之类的东西,拥有JSON数据集就特别有用。

如果您对使用此Apache Spark软件包将XML文件读入DataFrame有任何疑问,请在下面的评论部分中询问他们。

翻译自: https://www.javacodegeeks.com/2016/08/apache-spark-packages-xml-json.html

apache spark

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/335898.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【OpenGL从入门到精通(七)】OpenGL中的数学

1.向量单位化 2.三维向量点乘/点积(结果为标量) 3.三维向量叉乘(叉积)结果为向量 3.坐标平移 因为在OpenGL中使用的都是齐次坐标,即x , y , z , w 如果使得点(0, 0, 0) 平移到(1, 2, 3)位置。将坐标表示为矩阵的形式&…

javafx窗体程序_JavaFX实际应用程序:SkedPal

javafx窗体程序“真实世界的应用程序”系列中的一个新条目。 这次是SkedPal ,这是一个用于智能管理忙人生活的应用程序。 我一直在咨询SkedPal团队有关JavaFX的事务,并且在他们决定开始使用我的CalendarFX框架来满足他们的日历要求时,我也在咨…

python索引 自定义_python – 使用多个自定义索引范围构建numpy数组,而不显式循环...

在Numpy中,是否有一种pythonic方法来创建array3,其中自定义范围来自array1和array2而没有循环?迭代范围的直接解决方案有效,但由于我的数组遇到了数百万个项目,我正在寻找更有效的解决方案(也可能是语法糖).例如,array1 np.array([10, 65, 200])array2 np.array([…

kata_Java中的功能性FizzBu​​zz Kata

kata不久前,我使用Java 8流和lambda解决了FizzBu​​zz kata问题。 尽管最终结果是可行的,但中间步骤却没有。 我当然可以做得更好。 与往常一样,让我们​​从失败的测试开始: package remonsinnema.blog.fizzbuzz;import stati…

C++ 【随想录】(三)源文件编译流程,静态库与动态库编译

预处理 : 完成宏替换,文件引入;以及去除空行,注释等,为下一步编译做准备。也就是对各种预处理命令进行处理,包括头文件的包含,宏定义扩展,条件编译的选择。 gcc -E test.c -o test…

python字典查询多个值_python – 在Pandas Dataframe中查找多个字典键并返回多个匹配值...

如果我的格式化关闭,第一次发布如此道歉.这是我的问题:我创建了一个包含多行文本的Pandas数据框:d {keywords :[cheap shoes, luxury shoes, cheap hiking shoes]}keywords pd.DataFrame(d,columns[keywords])In [7]: keywordsOut[7]:keywords0 cheap …

hibernate jpa_使用Hibernate(JPA)一键式删除

hibernate jpa在旧版本的Hibernate中,我可以看到手册中指示的一键式删除 。 但是较新的版本不再包含此部分。 我不知道为什么。 因此,在这篇文章中,我来看看它是否仍然有效。 一键式删除部分显示: 有时一个接一个地删除收集元素…

python测试开发实战_《python测试开发实战》基于pytest基础部分实例1-Hello

要求实现如下命令行接口python 1hello.py -husage: 1hello.py [-h] [-n NAME]Say hellooptional arguments:-h, --help show this help message and exit-n NAME, --name NAME Name to greet没有参数时输出Hello, World!$python 1hello.pyHello, World!有参数时输出Hello, 人名…

kafka 发布订阅_在Kafka中发布订阅模型

kafka 发布订阅这是第四个柱中的一系列关于同步客户端集成与异步系统( 1, 2, 3 )。 在这里,我们将尝试了解Kafka的工作方式,以便正确利用其发布-订阅实现。 卡夫卡概念 根据官方文件 : Kafka是…

python socket recvfrom_Python socket学习笔记(一)

最近在看 Python的视频,针对socket 编程做一个笔记一、socket是什么?socket 通常也称为“套接字”,用于描述 IP 地址和端口,是一个通讯链的句柄。应用程序通常通过 “套接字”向网络发出请求或者应答网络请求。说白了,…

dynamodb java_使用Java更新DynamoDB项

dynamodb java在上一篇文章中&#xff0c;我们继续使用Java将项目插入DynamoDB。 DynamoDB还支持更新项目。 我们将使用Login表获取更新示例。 发布更新时&#xff0c;必须指定要更新的项目的主键。 public void updateName(String email,String fullName) {Map<String,A…

apache camel_使用Apache Camel进行负载平衡

apache camel在此示例中&#xff0c;我们将向您展示如何使用Apache Camel作为系统的负载平衡器。 在计算机世界中&#xff0c;负载平衡器是一种充当反向代理并在许多服务器之间分配网络或应用程序流量的设备。 负载平衡器用于增加容量&#xff08;并发用户&#xff09;和应用程…

lombok 自动使用_Lombok,自动值和不可变项

lombok 自动使用我喜欢布兰登&#xff08;Brandon &#xff09;在博客文章中比较Project Lombok &#xff0c; AutoValue和Immutables的建议 &#xff0c;而这篇文章试图做到这一点。 我已经简要概述了Project Lombok &#xff0c; AutoValue和Immutables &#xff0c;但是这篇…

邮箱批量登录接验证码_记一次莫名的需求(临时邮箱|企业邮箱)

目录&#xff1a;前言行情伪需求过程1.前戏2.买域名3.网易企业邮箱4.模糊的需求5.晚饭后6.临时邮箱16.临时邮箱27.域名版临时邮箱8.遇见问题8.1.DNSPOD8.2.换种思路拓展1.思路2.后续2.1.简单2.2.自建临时邮箱后话记一次需求不明的亏看完这篇文章你会学到&#xff1a; 免费企业邮…

【四】初步预测

import time from lxml import etree from collections import defaultdict import math import requests from matplotlib import pyplot as plt import pandas as pd import datetimed = defaultdict(list) listp = list()# 90+进球球队 setp = set()Allset = set()def httpg…

java 补充日期_Java 9对可选的补充

java 补充日期哇&#xff0c;人们真的对Java 9对Stream API的添加感兴趣。 想要更多&#xff1f; 让我们看一下…… 可选的 可选::流 无需解释&#xff1a; Stream<T> stream();想到的第一个词是&#xff1a; 终于 &#xff01; 最后&#xff0c;我们可以轻松地从可选…

msf如何升级_Kali linux 2016.2(Rolling)中的Metasploit如何更新与目录结构初步认识...

如何更新MSF1、Windows平台方法1&#xff1a;运行msfupdate.bat在msfconsole里执行命令svn update或者方法2&#xff1a;2、unix/linux平台方法1&#xff1a;运行msfupdate即可。方法2&#xff1a;(比较麻烦)安装subversion客户端(--with-ssl)&#xff0c;之后连接CVS server进…

【五】每个球队胜率统计

import time from lxml import etree from collections import defaultdict import math import requests from matplotlib import pyplot as plt import pandas as pd import datetimed = defaultdict(list) listp = list()# 近七天比赛所有球队 listall = list()# 近七天所有…

jaxb注解使用_使用JAXB的简介

jaxb注解使用我正在将一些依赖于Apache XMLBeans的模块迁移到JAXB。 这是令人兴奋和充满挑战的几天。 我想记下我遇到的一些重要事情&#xff0c;以供将来可能会发现有用的任何人使用。 首先&#xff0c;让我们来看一下设置用于JAXB代码生成的maven插件。 在撰写本文时&#x…

离散信号的抽取和内插例题_信号与系统例题分析

第1章 信号及其基本运算1.1 内容要点1.2 公式摘要1.3 例题分析例1.1 连续时间信号与波形例1.2 离散时间信号与波形例1.3 信号的积分运算例1.4 单位冲激信号的筛选特性例1.5 信号的平移例1.6 信号的求和、积分运算例1.7 卷积的两种计算方法例1.8 卷积的位移特性例1.9 卷积概念的…