avro文件导入到hive_XML到Avro的转换

avro文件导入到hive

我们都知道XML是正确的吗? 以防万一,这就是所有问题。

<root>
<node>5</node>
</root>

现在,计算机真正需要的是数字5及其周围的环境。 在XML中,您(人类和计算机)可以看到它如何表示五个上下文。 现在假设您有一个像FPML这样的业务XML文档

<FpML xmlns="http://www.fpml.org/2007/FpML-4-4" xmlns:fpml="http://www.fpml.org/2007/FpML-4-4" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" version="4-4" xsi:schemaLocation="http://www.fpml.org/2007/FpML-4-4 ../fpml-main-4-4.xsd http://www.w3.org/2000/09/xmldsig# ../xmldsig-core-schema.xsd" xsi:type="RequestTradeConfirmation">
<!--  start of distinct  -->
<strike>
<strikePrice>32.00</strikePrice>
</strike>
<numberOfOptions>150000</numberOfOptions>
<optionEntitlement>1.00</optionEntitlement>
<equityPremium>
<payerPartyReference href="party2"/>
<receiverPartyReference href="party1"/>
<paymentAmount>
<currency>EUR</currency>
<amount>405000</amount>
</paymentAmount>
<paymentDate>
<unadjustedDate>2001-07-17Z</unadjustedDate>
<dateAdjustments>
<businessDayConvention>NONE</businessDayConvention>
</dateAdjustments>
</paymentDate>
<pricePerOption>
<currency>EUR</currency>
<amount>2.70</amount>
</pricePerOption>
</equityPremium>
</equityOption>
<calculationAgent>
<calculationAgentPartyReference href="party1"/>
</calculationAgent>
<documentation>
<masterAgreement>
<masterAgreementType>ISDA2002</masterAgreementType>
</masterAgreement>
<contractualDefinitions>ISDA2002Equity</contractualDefinitions>
<!--populate credit support document with correct value 
-->
<creditSupportDocument>TODO</creditSupportDocument>
</documentation>
<governingLaw>GBEN</governingLaw>
</trade>
<party id="party1">
<partyId>Party A</partyId>
</party>
<party id="party2">
<partyId>Party B</partyId>
</party>
</FpML>

那是很多额外的不必要的数据点。 现在,让我们使用Apache Avro进行研究 。

使用Avro,上下文和值是分开的。 这意味着信息的架构/结构不会一遍又一遍地(一遍又一遍)地存储或流式传输。

Avro模式已散列。 因此,数据结构仅保留值,并且计算机可以理解架构的指纹(哈希),并且可以使用指纹来检索架构。

0x d7a8fbb307d7809469ca9abcb0082e4f8d5651e46d3cdb762d02d0bf37c9e592

这种类型的实现在数据空间中非常典型。

执行此操作时,您可以将数据减少20%-80%。 当我告诉人们时,他们立即问:“为什么有这么大的未知数缺口”。 答案是因为并非每个XML都是一样的。 但这是问题所在,因为您正在复制计算机理解数据所需的信息。 XML对人类来说很不错,当然……但这并不是为计算机优化的。

这是我们正在https://github.com/stealthly/xml-avro上工作的转换器,以帮助人们摆脱XML的束缚,进入成本更低的开源系统。 这使您可以使用XML保留系统的某些部分(特别是域业务代码),而不必进行更改(减轻风险),而以较少的开销存储和传输数据(优化预算)。

参考: All Things Hadoop博客上的JCG合作伙伴 Joe Stein提供的XML到Avro转换 。

翻译自: https://www.javacodegeeks.com/2014/03/xml-to-avro-conversion.html

avro文件导入到hive

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/342820.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

21秋期末考试中国当代政治制度10084k1

1、特别行政区不实行社会主义制度和政策&#xff0c;而享有保持资本主义制度和生活方式&#xff08; &#xff09;不变的权利。&#xff08;2 分&#xff09; A&#xff0e;80年 B&#xff0e;50年 C&#xff0e;100年 D&#xff0e;30年 2、协商民主是实现党的领导的&#xff…

浅谈GPRS的几种应用方案

一、 概述 随着通信技术飞速发展&#xff0c;人们对于移动网络所提供的服务提出了更高的要求&#xff0c;GPRS&#xff08;通用无线分组业务&#xff09;&#xff0c;是一种基于GSM系统的无线分组交换技术&#xff0c;提供端对端、广域的无线IP连接&#xff0c;以数据流量进行…

21秋期末考试工商企业文化10631k2

1、企业文化作为企业组织中存在的一种&#xff08; &#xff09;&#xff0c;是任何企业都有的&#xff0c;但企业文化建设作为一种&#xff08; &#xff09;&#xff0c;不是任何企业都有的。&#xff08;3 分&#xff09; A&#xff0e;自觉行为&#xff0c;自觉行为 B&…

什么是485中继器,RS-485中继器产品介绍

485中继器是光隔离的RS-485/422的数据中继通信产品&#xff0c;可以中继延长RS-485/422总线网络的通信距离&#xff0c;增强RS-485/422总线网络设备的数目。可以将485总线进行光电隔离&#xff0c;防止共模电压干扰。可以支持RS-485总线与RS-422总线的自动切换。接下来&#xf…

NB-IoT在智慧城市中的应用

一、概述 近年来城镇化高速发展&#xff0c;城市人口越来越多&#xff0c;最深有体会的就是最近各大二线城市人才引进“抢人”大战&#xff0c;虽然为城市注入了新生力&#xff0c;但是随着城镇规模快速扩张&#xff0c;城市面积不断向外扩张&#xff0c;对于城市的管理、城市生…

休眠中的标识符

Hibernate中的标识符为实体的主键属性建模。 它有助于我们唯一地标识JPA实体。 每个实体都必须定义一个标识符。 同样&#xff0c;它可以是简单的也可以是复合的。 我们可以通过几种方式定义一个Hibernate标识符。 在本教程中&#xff0c;我们将学习如何做。 简单&#xff08…

21秋期末考试建筑力学与结构10126k2

1、受压可能有三种破坏形态&#xff0c; &#xff08; &#xff09; 表现出明显的脆性&#xff0c;工程设计中必须避免发生。&#xff08;2 分&#xff09; A&#xff0e;劈裂破坏–一裂就坏 B&#xff0e;竖向裂缝发展导致的破坏–先裂后坏 C&#xff0e;B和C D&#xff0e;局…

LoRa与NB-IoT物联网应用对比方案

一、LoRa技术 LoRa是由美国Semtech公司推出的一种基于扩频技术的超远距离无线传输方案&#xff0c;属于低功耗广域网(LoRaWAN)&#xff0c;是一种低带宽、远距离、低功耗、连接量多的物联网通信技术。NB-IOT是由3GPP标准化组织定义的物联网窄带射频技术&#xff0c;是一种低功…

21秋期末考试财务会计(一)10166k2

1、在确定借款费用资本化金额时&#xff0c;与专门借款有关的利息收入应&#xff08; &#xff09;。 &#xff08;2 分&#xff09; A&#xff0e;计入营业外收入 B&#xff0e;冲减借款费用资本化的金额 C&#xff0e;冲减所购建的固定资产成本 D&#xff0e;计入当期财务费用…

485光隔离中继器产品特点及应用领域介绍

光电隔离RS485/RS422中继器&#xff0c;可作为485信号中继放大或485信号转422信号使用&#xff0c;一款专为解决RS-485/422信号长距离传输时&#xff0c;信号弱、信号易干扰问题的产品。那么&#xff0c;485光隔离中继器产品有哪些特点&#xff0c;485中继器主要应用在哪些领域…

SX1280抗WIFI强干扰电磁环境能力解析

SX1280的LORA模式在关于WIFI干扰的情况下相交于传统调制方式具有极大的优势。 与用于共存的传统调制技术相比&#xff0c;LoRa物理层的使用为我们提供了一些潜在的额外性能好处&#xff0c;并对带内和通道内干扰提供了额外的抗干扰能力。具体优势如下&#xff1a; 1、扩频 LoR…

[渝粤教育] 广东-国家-开放大学 21秋期末考试管理会计10171k2 (2)

单项选择题 1、企业某产品本月单位变动生产成本为200元&#xff0c;单位变动非生产成本10元&#xff0c;固定生产成本400000元&#xff0c;固定非生产成本100000元。该产品期初存货为零&#xff0c;本月产量10000件&#xff0c;销量8000件&#xff0c;销售单价300元。按变动成本…

TTL电平、CMOS电平、RS232通信电平的概念及区别

电平的概念&#xff1a; 什么是电压、电流、电功率&#xff1f;无线电爱好者都十分清楚。而谈及“电平”能说清楚的人却不多。尽管人们经常遇到&#xff0c;书刊中亦多次谈起电路中的高电平、低电平、电平增益、电平衰减&#xff0c;就连电工必备的万用表上都有专测电平的方法…

[渝粤教育] 广东-国家-开放大学 大学英语2

1、He has_______since three days ago.&#xff08;2 分&#xff09; A&#xff0e;gone away B&#xff0e;gone C&#xff0e;left D&#xff0e;been away 2、What an interesting book! I don’t want to .&#xff08;2 分&#xff09; A&#xff0e;give to it B&#x…

485通讯转换器产品功能特点介绍

485转换器主要的作用是将单端的RS-232信号转换为平衡差分的RS-485或RS-422信号。RS-485、RS-422自动识别功能&#xff0c;使用更加简单。那么&#xff0c;485转换器产品有哪些特点呢&#xff1f;接下来我们就跟随飞畅科技的小编一起来看看吧&#xff01; 485转换器产品特点 支…

基于无线通信技术的智能公交系统设计

公共交通具有个体交通无法比拟的强大优势&#xff0c;优先发展城市公共交通系统是解决大、中城市交通问题的最佳途径。近年来&#xff0c;城市公交系统的智能化已成为公共交通研究领域的主要方向。国内现有试运行的智能公交系统大部分都采用GPS全球定位系统进行定位&#xff0c…

java陷阱常见面试题_Java常见陷阱

java陷阱常见面试题总览 Java是一种极简主义的语言&#xff0c;具有比其他语言故意更少的功能&#xff0c;尽管如此&#xff0c;Java仍然具有产生奇怪效果的边缘情况&#xff0c;甚至具有令人惊讶的效果的一些常见情况也会使您轻而易举。 如果您习惯于阅读另一种语言&#xff0…

【渝粤教育】 广东开放大学21秋期末考试法律职业伦理10214k2

1、指导法律职业人员的最高原则是&#xff08;&#xff09;。&#xff08;2 分&#xff09; A&#xff0e;清正廉洁&#xff0c;奉公守法 B&#xff0e;严明纪律&#xff0c;保守秘密 C&#xff0e;以事实为根据&#xff0c;以法律为准绳 D&#xff0e;互相尊重&#xff0c;互相…

LoRaWAN网络协议与LoRa私有协议相比有哪些优势

物联网很多应用现在都普遍用了LoRa技术的芯片&#xff0c;然而没有使用LoRaWan网络协议。经过调查发现&#xff0c;没有使用LoRaWAN网络协议的原因有&#xff1a;应用点数少、规模小&#xff0c;有的是因为LoRaWAN成本高&#xff0c;技术要求高&#xff0c;短时间内无法掌握&am…

【渝粤教育】国家开放大学2018年春季 0471-21T畜牧学 参考试题

科目编号&#xff1a;[0471] 座位号 2017-2018学年度第二学期期末考试 畜牧学 试题 2017年 12 月 一、名词解释&#xff08;本大题共5小题&#xff0c;每小题3分&#xff0c;共计15分&#xff09; 1.限制性氨基酸 2&#xff0e;短期优饲 3&#xff0e;顶体反应 4&#xff0…