读取模式错误,计算引擎操作复杂……面对Hadoop这些问题该如何应对?

作者 | Monte Zweben

译者 | 天道酬勤,责编 | Carol

封图 | CSDN 付费下载自视觉中国

Apache Hadoop于2006年出现在IT领域,它使用商品硬件,为组织提供前所未有的数据量存储能力。不仅解决了数据集的大小问题,还解决了数据类型问题,比如由物联网设备、传感器、服务器和社交媒体生成的数据,企业对这些数据的分析越来越感兴趣。数据量、速度和多样性的结合被普遍称为大数据。

读取模式在Hadoop的普及中起着至关重要的作用。企业认为他们不必再担心定义哪些表包含哪些数据以及它们是如何相互连接的繁琐过程了—这个过程花了几个月的时间,而且在完成之前无需执行任何数据仓库查询。在这个发展的新世界里,企业在基于Hadoop的存储库(称为数据湖)中存储尽可能多的数据,并担心以后如何对其进行分析。

企业开始出现数据湖。这些数据湖由商业大数据分发支持的——平台中支持许多独立的开源计算引擎,这些引擎使数据湖以不同方式分析数据。最重要的是,所有这些都是开源的,可以免费试用!不过,用起来会出现什么问题?今天一起来看看。

读取模式是错误的

被誉为Hadoop优势的特性被证明是其致命弱点。首先,随着写模式限制的解除,TB级的结构化和非结构化数据开始流入数据湖。由于Hadoop的数据治理框架和功能仍在定义中,企业难以确定其数据湖的内容和数据沿袭。

另外,数据还没有准备好。企业对数据湖中的数据失去信心,慢慢地,这些数据湖开始变成数据沼泽。读取模式的“构建它,它们就会到来”的哲学失败了。

Hadoop复杂性和管道式的计算引擎

其次,Hadoop发行版提供了许多开源计算引擎,例如Apache Hive,Apache Spark和Apache Kafka,仅举几例,但这证明是一件好事。一个恰当的例子—一个商业Hadoop平台由26个这样的独立引擎组成。这些计算引擎操作起来很复杂,需要专门的技术才能将他们连接在一起,这在市场上很难找到。

错误的焦点:数据湖与应用程序

第三个也是最重要的一个,由于企业优先考虑将所有企业数据存储在一个中心位置,所有开发人员都可以使用这些数据——一个数据仓库,不考虑应用程序如何使用数据,数据湖项目就开始失败了。

因此,Hadoop集群常常成为企业数据管道的网关,这些数据管道过滤、处理和转换数据,然后导出到其他数据库和数据集市,用于下游报告,并且几乎永远无法在操作架构中找到通往真实业务应用程序的方式。

数据湖最终变成了一组巨大的完全不同的计算引擎,它们在完全不同的工作负载上运行,共享相同的存储,这很难管理。这个生态系统中的资源隔离和管理工具正在改善,但它们仍有很长的路要走。所有这些复杂性——只是为了报告。

大多数情况下,企业无法将重点从使用数据湖作为廉价的数据存储库和处理管道转移到使用数据并支持关键任务应用程序的平台。例如,Apache Hive和Apache Spark是Hadoop数据湖中使用最广泛的计算引擎。这两种引擎都用于分析目的——处理类似SQL的查询(Hive)或执行类似SQL的数据转换并构建预测模型(Spark)。这些数据湖实现对于如何在应用程序中使用数据不够关注。

未来的战略

如果你关心Hadoop生态系统的最新发展,在证明数据湖的价值方面面临越来越大的压力,那么你应该首先关注操作应用程序,然后再回到数据。

通过关注具有数据和智能的应用程序的现代化,你最终获得能够利用数据根据经验预测未来可能发生的事情的应用程序,并能够积极主动地做出决策,从而产生卓越的业务结果。以下是成功的应用程序现代化策略的五个要素:

(1) 选择一个现代化的应用程序:首先,选择一个你想要现代化的应用程序,而不是集中精力在数据上。最适合的解决方案是是许多在市场上落后的定制应用程序之一,这些应用程序需要变得更加敏捷、智能和数据驱动。一旦确定了可以为你带来竞争优势的应用程序,你就可以集中精力采购支持该应用程序所需的数据,以及是否可以从数据湖中获取该数据。

(2) 使用横向扩展SQL进行应用程序现代化:多年来,SQL一直是企业工作负载中的主力军,在你组织中有数百名开发人员,业务分析师和IT人员完全熟悉SQL。不会因为将原始SQL应用程序重写为低级NOSQL API而产生额外的时间、费用和风险。选择一个平台,使你能够维护SQL的熟悉的模式和强大的功能,使应用程序现代化,但是要在一个能够在廉价的基础设施上弹性地向外扩展的架构上实现。横向扩展使整个群集具有强大的计算能力,使其比在集中式系统上运行的旧SQL系统快得多。通过横向扩展,你还可以添加更多容量,并随着工作负载的变化而减少容量。

(3)采用ACID平台:ACID遵从性是一种机制,通过该机制事务可以维护数据库中的完整性,并允许用户执行诸如提交和回滚等操作。对于操作应用程序来说,这是一项至关重要的功能,它可以确保数据库在发出提交之前,不会使更改对其他人可见。选择在数据库中的各个事务级别上提供ACID功能的平台。否则,所有这些一致性后果都需要在应用程序代码中处理。所有传统的SQL系统都兼容ACID。数据湖不满足这一点,使得应用程序难以编写。

(4) 结合分析:根据Gartner最近的一篇博客,在过去有充分的理由将IT基础架构分为操作(OLTP)和分析(OLAP)组件,但现在不再如此。ETL用延迟扼杀了我们的SLA。以前,操作和分析工作负载会相互干扰,必须将它们分开。此外,旧数据平台的性能非常差,我们必须将操作方案转换为更适合分析工作负载的星型方案或雪花型方案。ETL不再是必须的,你可以经常使用操作模式在操作平台上运行分析。通过实现这个平台,确保你的应用程序在一个平台上运行,该平台能够最大程度地减少数据移动并且不会增加应用程序的延迟。与昨天或上周的数据相比,它提供了你当前的见解,报告和仪表盘。

(5) 嵌入本机机器学习:应用程序现代化的主要原因之一是将AI和ML注入应用程序中,使它从经验中学习,动态地适应变化并及时做出决策。为了使你的应用程序智能化,选择一个在数据库级别内置了机器学习功能的平台是至关重要的,这样更新的数据可供模型进行实验,训练和执行。

这与迄今为止使用的数据湖完全不同。这种方法通过目前可以利用数据湖的应用程序,更快地为业务线提供了切实的商业价值。

这种方法将确保除了为你的业务提供竞争优势的应用程序现代化之外,还可以保留在数据湖中的投资。

原文链接:https://hackernoon.com/what-happened-to-hadoop-what-should-you-do-now-3i1i3v6r

本文为 CSDN 翻译,转载请注明出处。

推荐阅读

  • 云计算,巨头们的背水一战

  • 整理了一份 Docker系统知识,从安装到熟练操作看这篇就够了 | 原力计划

  • 借助大数据进行社交媒体营销,企业们得这么玩!

  • 追忆童年,教你用Python画出儿时卡通人物

  • AI 终极问题:我们的大脑是一台超级计算机吗?

  • 公链的历史交叉口:PoS还能走多远?

真香,朕在看了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/517649.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Nacos 集群集成SpringBoot2.x 微服务_02

文章目录一、SpringBoot2.x 微服务1. 依赖引入2. bootstrap.yaml配置3. 测试类二、nacos配置规则2.1. 登录nacos2.2. 配置规则三、测试验证3.1. 启动项目3.2. 验证一、SpringBoot2.x 微服务 1. 依赖引入 <parent><groupId>org.springframework.boot</groupId&g…

蚂蚁“备战”TPC-C这1年

阿里妹导读&#xff1a;1年前OceanBase团队开了个会&#xff0c;定了个小目标&#xff0c;接下来的一年中这群工程师闭关攻坚。从掉头发到睡几个小时就跳起来看邮件&#xff0c;更甚至有人天天焦虑地捧着手机等邮件。 1年后&#xff0c;蚂蚁金服自研数据库OceanBase登上TPC-C排…

瞧!公务员的工作还可以这样干

盼啊盼&#xff0c;第六届世界互联网大会在乌镇如期而至。 在今天的大会上&#xff0c;小云带来了帮助公务员提升工作效率的“神器”&#xff0c;平头哥压箱底的“宝贝”...... 一起来深入了解下。 政务钉钉来了&#xff01;告别公务员传统工作方式 今天&#xff0c;浙江省政…

Nacos 集群搭建_01

文章目录一、准备工作1. 服务器部署2. nacos下载2. nacos下载与解压3. 编辑配置文件4. nacos 集群配置二、初始化nacos脚本2.1. 创建nacos数据库2.2. 初始化nacos脚本三、启动nacos集群3.1. 启动nacos服务3.2. 测试验证一、准备工作 1. 服务器部署 系统版本ip部署应用应用版本…

学数据科学,为何不尝试这 9 个编程语言!

在256种编程语言中&#xff0c;了解数据科学的编程语言&#xff01;作者 | Rashi Desai 译者 | Arvin&#xff0c;责编 | 屠敏头图 | CSDN 下载自东方 IC出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;数据科学在相当长一段时间以来一直是一件大事。在当今飞速发展…

Swift 5 时代的机遇与挑战到底在哪里?

作者|刘镇夫&#xff08;小鱼&#xff09; 出品|阿里巴巴新零售淘系技术部 本文是知名 ios 开发者 NSHipster中文译者-刘镇夫&#xff08;小鱼&#xff09;&#xff0c;在云栖大会上为大家带来的分享&#xff0c;本文主要介绍几点&#xff0c;第一、Swift 5 代表什么&#xff1…

Nacos 集群整合 Nginx 实现反向代理、负载均衡_03

文章目录一、Nginx 配置1. 下载安装nginx2. 配置nginx3. 启动nginx4. 测试验证5. 配置域名4.6. 域名验证一、Nginx 配置 1. 下载安装nginx https://gblfy.blog.csdn.net/article/details/119536779 2. 配置nginx # 进入nginx目录 cd /usr/local/nginx/conf# 编辑nginx.conf…

阿里云Kubernetes CSI实践—NAS动态存储卷使用

1. 前言 NAS存储盘能将nfs&#xff08;网络文件系统&#xff09;挂载到你的Pod中&#xff0c;阿里云Kubernetes CSI支持静态存储卷挂载和动态存储卷挂载2种方式&#xff0c; 在静态存储卷挂载的方式中&#xff0c;通常需要手动编辑和创建一个pv/pvc进行挂载&#xff0c;当需要…

怒肝 8 个月源码,我成为了 Spring 开源贡献者

作者 | cxuan 来源 | 程序员cxuan责编| 王晓曼前言我最近一直在写Spring的文章&#xff0c;而且仅仅是 Spring FrameWork 的文章 ,从最开始的官网入门到现在源码的深度分析。主要就是三个系列&#xff1a;官网入门系列&#xff0c;Spring官网读书笔记&#xff0c;这一系列的文章…

HTTPS配置过程

该文章借鉴于博主小东很不戳 先在自己项目中根目录下生成数字证书 生成命令如下&#xff1a;keytool -genkey -alias tomcathttps -keyalg RSA -keysize 2048 -keystore sang.p12 -validity 365 命令解释 • -genkey表示要创一个新的密钥。 • alias表示 keystore 的别名。…

汇报时,如何让老板快速抓住重点?—— 黄金三步法

阿里妹导读&#xff1a;对事物的归类分组是我们人类的天性&#xff0c;我们的大脑会自动将发现的所有事物以某种持续组织起来。但如何组织才能帮助我们解决工作和生活中出现的各种复杂问题&#xff1f;今天&#xff0c;我们请阿里高级技术专家张建飞分享他的黄金三步法。 我们…

Nacos 集群 Nginx MySql SpringBoot2.x 微服务_04

接上一篇&#xff1a; Nacos 集群整合 Nginx 实现反向代理、负载均衡_03 文章目录一、配置规则1. 域名登录nacos2. 测试验证二、SpringBoot2.x 微服务2.1. 依赖引入2.2. bootstrap.yaml配置2.3. 测试类三、测试验证3.1. 启动项目3.2. 验证一、配置规则 1. 域名登录nacos 使用…

Serverless 实战 —— 快速搭建 SpringBoot 应用

前言 首先介绍下在本文出现的几个比较重要的概念&#xff1a; 函数计算&#xff08;Function Compute&#xff09;: 函数计算是一个事件驱动的服务&#xff0c;通过函数计算&#xff0c;用户无需管理服务器等运行情况&#xff0c;只需编写代码并上传。函数计算准备计算资源&am…

人才缺口40万,摆地摊也没有它挣钱,这个神仙职业今年太火了!

当你学习编程时&#xff0c;最先被困扰在哪一步&#xff1f;是不是很容易陷入在语法之类的细节而忽视基础概念&#xff1f;解决当前任务的最佳方法是什么&#xff1f;在多种编程语言之间来回切换&#xff0c;却感觉不到效率的提高&#xff1f;0 基础学习编程&#xff0c;最先入…

首次公开 | 淘系技术总监马鏖谈淘系用户增长

作者|马鏖 出品|阿里巴巴新零售淘系技术部 导读&#xff1a;近年来&#xff0c;关于用户流量的瓶颈让很多企业感到焦虑不安&#xff0c;互联网用户整体增速放缓&#xff0c;用户规模趋于饱和。同时&#xff0c;竞争个体成倍增长&#xff0c;流量资源争夺越发激烈&#xff0c;流…

JDK下载安装以及配置教程

截至2022年&#xff0c;JDK主流版本有JDK8跟JDK11 这里以JDK11为例 一、下载JDK 这里下载方法有两种 1.官网下载&#xff08;需要注册&#xff09; 网址&#xff1a;Java Downloads | Oracle 进入官网往下滑找到Java SE subscribers have more choices 根据提示框依次选择 弹出…

Tomcat10 端口修改 Linux 环境

文章目录1. 编辑文件2. 启动3. 验证1. 编辑文件 修改tomcat默认的端口&#xff0c;将默认端口8080修改为8090&#xff1a; cdapache-tomcat-10.0.10/conf/ vim server.xml 修改http协议端口 关键词&#xff1a;HTTP 修改前&#xff1a; 修改后&#xff1a; 2. 启动 cd ap…

月入过万的副业你要不要?不需要编程知识,不限男女,不限学历

01你知道做什么兼职最赚钱吗&#xff1f;你想拥有一份月薪过万的兼职工作吗&#xff1f;今天&#xff0c;我给你推荐的是看起来高大上&#xff0c;实则难度系数并不高的脚本创作&#xff01;你知道兼职脚本有多赚钱吗&#xff1f;普通程序员每天拿出2小时的时间&#xff0c;每个…

高德在提升定位精度方面的探索和实践

2019杭州云栖大会上&#xff0c;高德地图技术团队向与会者分享了包括视觉与机器智能、路线规划、场景化/精细化定位时空数据应用、亿级流量架构演进等多个出行技术领域的热门话题。现场火爆&#xff0c;听众反响强烈。我们把其中的优秀演讲内容整理成文并陆续发布出来&#xff…

Nginx 反向代理

文章目录一、软件安装验证1. Linux安装nginx2. Tomcat10 下载和配置 Linux 环境3. 服务器部署二、软件安装验证2.1. 启动tomcat2.2. nginx配置2.3. 关键配置2.4. 启动nginx2.5. 测试验证一、软件安装验证 1. Linux安装nginx https://blog.csdn.net/weixin_40816738/article/d…