hadoop 传感器数据_读取模式错误,计算引擎操作复杂……面对Hadoop这些问题该如何应对?...

3979f56c639448df6deadba3e85f3bb1.gif

6045dbefc087cc607bd53a7a474a4e25.png

作者 | Monte Zweben

译者 | 天道酬勤,责编 | Carol

封图 | CSDN 付费下载自视觉中国

Apache Hadoop于2006年出现在IT领域,它使用商品硬件,为组织提供前所未有的数据量存储能力。不仅解决了数据集的大小问题,还解决了数据类型问题,比如由物联网设备、传感器、服务器和社交媒体生成的数据,企业对这些数据的分析越来越感兴趣。数据量、速度和多样性的结合被普遍称为大数据。

读取模式在Hadoop的普及中起着至关重要的作用。企业认为他们不必再担心定义哪些表包含哪些数据以及它们是如何相互连接的繁琐过程了—这个过程花了几个月的时间,而且在完成之前无需执行任何数据仓库查询。在这个发展的新世界里,企业在基于Hadoop的存储库(称为数据湖)中存储尽可能多的数据,并担心以后如何对其进行分析。

企业开始出现数据湖。这些数据湖由商业大数据分发支持的——平台中支持许多独立的开源计算引擎,这些引擎使数据湖以不同方式分析数据。最重要的是,所有这些都是开源的,可以免费试用!不过,用起来会出现什么问题?今天一起来看看。

e2c11ecd46203ce11b178a4e9d60e915.png

读取模式是错误的

被誉为Hadoop优势的特性被证明是其致命弱点。首先,随着写模式限制的解除,TB级的结构化和非结构化数据开始流入数据湖。由于Hadoop的数据治理框架和功能仍在定义中,企业难以确定其数据湖的内容和数据沿袭。

另外,数据还没有准备好。企业对数据湖中的数据失去信心,慢慢地,这些数据湖开始变成数据沼泽。读取模式的“构建它,它们就会到来”的哲学失败了。

33dc166ff7729bddd6741083143a62f3.png

Hadoop复杂性和管道式的计算引擎

其次,Hadoop发行版提供了许多开源计算引擎,例如Apache Hive,Apache Spark和Apache Kafka,仅举几例,但这证明是一件好事。一个恰当的例子—一个商业Hadoop平台由26个这样的独立引擎组成。这些计算引擎操作起来很复杂,需要专门的技术才能将他们连接在一起,这在市场上很难找到。

dfa2d9fc65e8de76666ce8837845876c.png

错误的焦点:数据湖与应用程序

第三个也是最重要的一个,由于企业优先考虑将所有企业数据存储在一个中心位置,所有开发人员都可以使用这些数据——一个数据仓库,不考虑应用程序如何使用数据,数据湖项目就开始失败了。

因此,Hadoop集群常常成为企业数据管道的网关,这些数据管道过滤、处理和转换数据,然后导出到其他数据库和数据集市,用于下游报告,并且几乎永远无法在操作架构中找到通往真实业务应用程序的方式。

数据湖最终变成了一组巨大的完全不同的计算引擎,它们在完全不同的工作负载上运行,共享相同的存储,这很难管理。这个生态系统中的资源隔离和管理工具正在改善,但它们仍有很长的路要走。所有这些复杂性——只是为了报告。

大多数情况下,企业无法将重点从使用数据湖作为廉价的数据存储库和处理管道转移到使用数据并支持关键任务应用程序的平台。例如,Apache Hive和Apache Spark是Hadoop数据湖中使用最广泛的计算引擎。这两种引擎都用于分析目的——处理类似SQL的查询(Hive)或执行类似SQL的数据转换并构建预测模型(Spark)。这些数据湖实现对于如何在应用程序中使用数据不够关注。

735cd7e860ec9b00cdfb03334764d351.png

未来的战略

如果你关心Hadoop生态系统的最新发展,在证明数据湖的价值方面面临越来越大的压力,那么你应该首先关注操作应用程序,然后再回到数据。

通过关注具有数据和智能的应用程序的现代化,你最终获得能够利用数据根据经验预测未来可能发生的事情的应用程序,并能够积极主动地做出决策,从而产生卓越的业务结果。以下是成功的应用程序现代化策略的五个要素:

(1) 选择一个现代化的应用程序:首先,选择一个你想要现代化的应用程序,而不是集中精力在数据上。最适合的解决方案是是许多在市场上落后的定制应用程序之一,这些应用程序需要变得更加敏捷、智能和数据驱动。一旦确定了可以为你带来竞争优势的应用程序,你就可以集中精力采购支持该应用程序所需的数据,以及是否可以从数据湖中获取该数据。

(2) 使用横向扩展SQL进行应用程序现代化:多年来,SQL一直是企业工作负载中的主力军,在你组织中有数百名开发人员,业务分析师和IT人员完全熟悉SQL。不会因为将原始SQL应用程序重写为低级NOSQL API而产生额外的时间、费用和风险。选择一个平台,使你能够维护SQL的熟悉的模式和强大的功能,使应用程序现代化,但是要在一个能够在廉价的基础设施上弹性地向外扩展的架构上实现。横向扩展使整个群集具有强大的计算能力,使其比在集中式系统上运行的旧SQL系统快得多。通过横向扩展,你还可以添加更多容量,并随着工作负载的变化而减少容量。

(3)采用ACID平台:ACID遵从性是一种机制,通过该机制事务可以维护数据库中的完整性,并允许用户执行诸如提交和回滚等操作。对于操作应用程序来说,这是一项至关重要的功能,它可以确保数据库在发出提交之前,不会使更改对其他人可见。选择在数据库中的各个事务级别上提供ACID功能的平台。否则,所有这些一致性后果都需要在应用程序代码中处理。所有传统的SQL系统都兼容ACID。数据湖不满足这一点,使得应用程序难以编写。

(4) 结合分析:根据Gartner最近的一篇博客,在过去有充分的理由将IT基础架构分为操作(OLTP)和分析(OLAP)组件,但现在不再如此。ETL用延迟扼杀了我们的SLA。以前,操作和分析工作负载会相互干扰,必须将它们分开。此外,旧数据平台的性能非常差,我们必须将操作方案转换为更适合分析工作负载的星型方案或雪花型方案。ETL不再是必须的,你可以经常使用操作模式在操作平台上运行分析。通过实现这个平台,确保你的应用程序在一个平台上运行,该平台能够最大程度地减少数据移动并且不会增加应用程序的延迟。与昨天或上周的数据相比,它提供了你当前的见解,报告和仪表盘。

(5) 嵌入本机机器学习:应用程序现代化的主要原因之一是将AI和ML注入应用程序中,使它从经验中学习,动态地适应变化并及时做出决策。为了使你的应用程序智能化,选择一个在数据库级别内置了机器学习功能的平台是至关重要的,这样更新的数据可供模型进行实验,训练和执行。

这与迄今为止使用的数据湖完全不同。这种方法通过目前可以利用数据湖的应用程序,更快地为业务线提供了切实的商业价值。

这种方法将确保除了为你的业务提供竞争优势的应用程序现代化之外,还可以保留在数据湖中的投资。

原文链接:https://hackernoon.com/what-happened-to-hadoop-what-should-you-do-now-3i1i3v6r

本文为 CSDN 翻译,转载请注明出处。

986753e2a65aa90058b94584767203bb.png推荐阅读
  • 云计算,巨头们的背水一战

  • 整理了一份 Docker系统知识,从安装到熟练操作看这篇就够了 | 原力计划

  • 借助大数据进行社交媒体营销,企业们得这么玩!

  • 追忆童年,教你用Python画出儿时卡通人物

  • AI 终极问题:我们的大脑是一台超级计算机吗?

  • 公链的历史交叉口:PoS还能走多远?

真香,朕在看了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/505122.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

xpath获取标签的属性值_论xpath与css定位方式

例1&#xff1a;<input id"kw" name"wd" class"s_ipt" value"" maxlength"255" autocomplete"off"> 分别使用xpath、css的标签组合定位xpath标签属性组合定位css标签属性组合定位css中#表示id,如#kw&#x…

c语言sort_C语言十大排序算法,让老师对你刮目相看的技巧

排序算法作为数据结构的重要部分&#xff0c;系统地学习一下是很有必要的。十种常见排序算法可以分为两大类&#xff1a;比较类排序&#xff1a;通过比较来决定元素间的相对次序&#xff0c;由于其时间复杂度不能突破O(nlogn)&#xff0c;因此也称为非线性时间比较类排序。非比…

vim复制粘贴_打造一款高逼格的Vim神器

Vim 是一个上古神器&#xff0c;本篇文章主要持续总结使用 Vim 的过程中不得不了解的一些指令和注意事项&#xff0c;以及持续分享一个开发者不得不安装的一些插件&#xff0c;而关于 Vim 的简介&#xff0c;主题的选择&#xff0c;以及为何使用 vim-plug 来管理插件等内容&…

python列表嵌套字典取值_我的 python 学习历程-Day05 字典/字典的嵌套

一、字典的初识为什么要有字典字典与列表同属容器型数据类型&#xff0c;同样可以存储大量的数据&#xff0c;但是&#xff0c;列表的数据关联性不强&#xff0c;并且查询速度比较慢&#xff0c;只能按照顺序存储。什么是字典先说一下什么叫可变与不可变的数据类型分类不可变&a…

s8050三极管经典电路_曝光一个产品级的红外发射电路

作者&#xff1a;瑞生&#xff0c;来源&#xff1a;科技老顽童微信公众号&#xff1a;芯片之家(ID&#xff1a;chiphome-dy今天给大家一个产品级的红外发射电路。为什么说是产品级的&#xff1f;因为这个电路我已经在各类产品上见过多次&#xff01;很多小伙伴学电子有一个误区…

es6删除数组某一项_精学手撕系列——数组扁平化

参考文章&#xff1a;面试官连环追问&#xff1a;数组拍平(扁平化) flat 方法实现编者荐语&#xff1a;在前端面试中&#xff0c;手写flat是非常基础的面试题&#xff0c;通常出现在笔试或者第一轮面试中&#xff0c;主要考察面试者基本的手写代码能力和JavaScript的基本功。今…

iqc工作职责和工作内容_监理工程师工作职责

1&#xff0e;安全监理员是项目安全生产日常监理工作的主要实施者&#xff0c;代表总监理工程师在项目工程监理过程中行使项目安全生产监理的职责。2&#xff0e;安全监理员应认真贯彻执行《建设工程安全生产管理条例》&#xff0c;贯彻执行劳动保护、安全生产的方针政策、法令…

webservice 实现与his系统对接_[Share] EDI 及其他常见系统对接技术

近期&#xff0c;有客户提及&#xff1a;你们有没有对接技术相关的介绍&#xff0c;不同系统之间的对接技术&#xff0c;现在企业内部系统比较多&#xff0c;有自主开发的&#xff0c;有外部采购的&#xff0c;所以我们想了解一下对接技术相关的信息。小知马不停蹄的做了下功课…

php弱类型漏洞,php代码审计之弱类型引发的灾难

天融信阿尔法实验室 李喆有人说php是世界上最好的语言&#xff0c;这可能是对开发人员来说&#xff0c;确实有这方面的特点&#xff0c;因为它开发起来不像其他语言那样麻烦&#xff0c;就比如&#xff1a;弱类型&#xff0c;它不需要像java等语言那样明确定义数据类型。这给开…

大学计算机基础python第二次作业_第二次python作业-titanic数据练习

原博文 2019-10-14 14:45 − 一、读入titanic.xlsx文件&#xff0c;按照教材示例步骤&#xff0c;完成数据清洗。 titanic数据集包含11个特征&#xff0c;分别是&#xff1a; Survived:0代表死亡&#xff0c;1代表存活Pclass:乘客所持票类&#xff0c;有三种值(1,2,3)Name:乘客…

微小宝公众号排行榜_榜单 广东省技工院校微信公众号排行榜(第51期)

▼2020年10月榜单出炉&#xff01;本期榜单最大看点&#xff0c;莫过于发文33篇的劳模代表——“广东高新技术高级技校”以高达830.49的微信传播指数WCI&#xff0c;荣登第51期广东省技工院校微信公众号排行榜榜首&#xff01;截至本期&#xff0c;实力一向强劲的“广东高新技术…

word公式编辑器_【Word技巧】word使用终极技巧,工程人必会(四)

1、问&#xff1a;Word中怎么在一个英文字母上打对号&#xff1f;答&#xff1a;透明方式插入图片对象&#xff0c;内容是一个√2、问&#xff1a;Word里怎么显示修订文档的状态&#xff1f;文档修订后&#xff0c;改后标记很多&#xff0c;但是在菜单里没有“显示修订最终状态…

加载oracle属性文件,关于属性文件的详细介绍

我们通常会将Java应用的配置参数保存在属性文件中&#xff0c;Java应用的属性文件可以是一个正常的基于key-value对,以properties为扩展名的文件&#xff0c;也可以是XML文件. 在本案例中&#xff0c;將会向大家介绍如何通过Java程序输出这两种格式的属性文件&#xff0c;并介绍…

android 访问服务器sql_XSS 攻击、CSRF 攻击、SQL 注入、流量劫持(DNS 劫持、HTTP 劫持)—— 浏览器安全

今天看了 jsliang 大佬关于网络安全的文章&#xff0c;为了加深一下印象&#xff0c;自己动手写一下。 主要参考文章&#xff1a;网络安全 ——— jsliang XSS攻击 XSS&#xff08;Cross Site Script&#xff09;跨站脚本攻击&#xff0c;指的是向网页注入恶意代码&#xff0c;…

simulink和psim仿真结果不同_在HFSS进行AC耦合电容仿真优化怎么做?

AC耦合电容&#xff0c;也叫DC blocking隔直电容&#xff0c;在几乎所有的高速串行链路中&#xff0c;都可以看到它的身影&#xff0c;它的主要作用是去掉信号中的直流偏置分量&#xff0c;同时让高频分量可以顺利通过&#xff0c;类似于一个高宽带的滤波器。由于电容的焊盘通常…

民生银行 一码付 php,PHP开心码支付免签约第四方支付平台源码修复版

源码说明后台号码admin后台密码123456声明&#xff1a;该源码仅供学习出现&#xff0c;修复者不承担任何责任&#xff0c;下载安装即代表使用者自行承担责任源码安装方法需要服务器开启g11插件PHP5.6&#xff0c;主机用户推荐95云主机&#xff0c;因为已经开启所有扩展插件必须…

oracle主从表分离怎么实时更新数据_高可用数据库UDB主从复制延时的解决

MySQL主从复制的延时一直是业界困扰已久的问题。延时的出现会降低主从读写分离的价值&#xff0c;不利于数据实时性较高的业务使用MySQL。UDB是UCloud推出的云数据库服务&#xff0c;上线已达六年&#xff0c;运营了数以万计的UDB MySQL实例。除了提供高可用、高性能、便捷易用…

vp翻N_VP刀叨叨:如何让G胖给你唱生日歌

VS看起来好凶喵▼ESL欧洲&独联体区VP发推庆祝击败OG昨晚第九个比赛日&#xff0c;OG与VP的比赛无疑是大家关注的焦点&#xff0c;一边是TI双冠王&#xff0c;一边是状态开始回升的俄罗斯毛熊&#xff0c;大家都很期待他们能给我们带来精彩的比赛。不过比赛结果却出乎了不少…

秒后面的单位是什么_为什么兰州马拉松很难跑出好成绩?

如果要评选中国最难PB的马拉松&#xff0c;西北第一马兰州马拉松当之无愧可以排名第一。为什么这么说呢&#xff1f;先来看下今年兰马的一组数据&#xff0c;不管是精英选手还是大众选手&#xff0c;成绩都要比个人PB慢。国内男子冠军是管油胜&#xff0c;成绩为2小时18分58秒&…

surface php老是用不了,surface pro7触摸屏没反应怎么办

发生该问题的原因可能是&#xff1a;有很多可能原因&#xff0c;从校准到硬件或者固件。故障排查可以找到根本原因。1. 清洁屏幕将柔软的无绒布蘸上水或眼镜清洗液来清洁屏幕&#xff0c;但不要直接在屏幕上喷洒液体。2. 重启 Surface注意&#xff1a;你将需要连接键盘或鼠标到…