hadoop lambda_Delta架构:统一Lambda架构并利用Hadoop / REST中的Storm

hadoop lambda

最近,一群人要求我详细介绍我为我们的书《分布式实时计算的风暴蓝图》撰写的Druid / Storm集成。 德鲁伊很棒。 风暴很棒。 两者一起解决了实时维查询/聚合问题。

实际上,人们正在将其视为主流,称其为RAD Stack ,并添加了“ Lambda Architecture”标签。 老实说,也许有更好的方法。 Lamda Architectures的以下假设一直困扰着我。

摘自Nathan关于Lambda Architectures的文章 :

实时计算任意数据集上的任意函数是一个艰巨的问题。 没有哪个工具可以提供完整的解决方案。 相反,您必须使用各种工具和技术来构建完整的大数据系统。

lambda体系结构将问题分解为三层:批处理层,服务层和速度层,从而解决了实时计算任意数据上任意函数的问题。

该建议使大多数人为批处理,速度/处理和查询部署了单独的基础架构/框架,这是很好的,因为它允许您“为每个作业使用正确的工具”。 这导致了诸如“ RAD Stack”之类的问题。 人们为每一层选择一种技术。 (例如,速度=风暴,批处理= Hadoop和服务= Impala)

但是,如果您生活在这样的环境中,则它们需要大量资源,因为整个系统之间的重复使用很少。 我相信人们越来越开始怀疑各层之间的区别 。 其他人则提出了统一Lambda架构 。

最近,我发现自己处于统一主义者的阵营中……

在HMS,几年来我们一直在迭代Lambda架构。 我们有Storm,Hadoop和实时Web服务层。 这些功能均充当数据摄取机制。

它们都处理相同类型的数据,并且仅在接口,容量和客户端期望方面有所不同:

  • 交易处理:
    • 我们的事务处理是我们的Web服务层。
  • 基于流/队列的处理
    • 通常,我们发现自己更多地依赖于我们的事务处理能力。
  • 批量处理
    • 对于批处理,客户的期望甚至进一步降低。

像许多其他人一样,我们发现自己需要支持所有这些范例。 从字面上看,我们正在跨不同的框架/系统重写代码,当这些实现不同时(甚至略有不同),这会造成很大的麻烦。 数字没有排队,等等。

我们被迫提出一个解决方案,并使系统稍微崩溃。

我们用Storm看了DRPC,并考虑了从我们的Web服务层调用Storm,但是DRPC似乎很笨拙,并且没有得到支持。 而且,从Hadoop调用DRPC似乎是不明智的。 (有人尝试过吗?)

相反,我们决定锁定持久性的抽象。 我们环顾了ORM和DAO模式,但大多数都不支持微批处理的概念,这是一种抽象,我们希望该选项可以在不同的处理机制中加以利用。 最后, 我们决定将风暴/突发状态抽象作为持久性的通用机制。 我们构建了storm-cassandra-cql ,并将其嵌入到我们的Web服务和Hadoop中。

从Hadoop和我们的Web服务中,我们实例化了自己的元组,它们实现了Storm Tuple接口。 从那里,我们可以使用State抽象并重新使用Mappers,以确保所有三个处理范例之间的数据模型均一致。

作为一种快捷方式,在Hadoop中,我们直接在reduce阶段使用State对象,将输出格式设置为NullOutputFormat。 理想情况下,我们可能应该实现一个新的OutputFormat,即StormCassandraCqlFormat之类的东西,但是我不确定这会给我们带来很多好处。

对于Web服务,直接集成是直接的。 将JSON转换为元组,在StateUpdater上调用update(),然后在State对象上调用commit()。 但是我们还希望能够在提交到“深度存储”之前进行批处理并执行维度聚合。 这就引入了一个问题,我们将拥有已确认(200个响应代码)但尚未持久的数据。 不好。 如果节点发生故障,我们将丢失数据。 真的不好。

那么,解决方案是什么? 我们本可以集成Druid,但是相反,我们决定保持它的轻便,并…利用Storm作为我们的安全网!

考虑以下对Lambda体系结构的“传统”解释:

传统_lambda

在这种传统方法中,批处理层(Hadoop)通常用于“纠正”速度层(Storm)中引入的处理中的错误。 Hadoop是安全网,可以纠正数字(通常是通过通宵的批处理作业),我们决定采用这种方法来翻转该模型,并使用Storm作为我们的安全网:

delta_architecture

在这种情况下,我们使用嵌入式State对象在批处理中聚合数据,但是在确认HTTP请求之前,我们还写入Kafka队列以实现持久性。 序列图如下所示:

sequence_diagram

我们将事件持久化到队列中,更新“三叉戟状态”对象,然后*然后*返回200。然后,定期将状态刷新到存储。 (在这种情况下为Cassandra),如果我们删除节点也是可以的,因为Storm最终将最终(重新)处理事件并在需要时(重新)合并数据。 (这是我要掩盖一些非常重要的细节的地方,将在下一篇文章中解决)

关键是……我们已经开始从持久性开始崩溃。 我们正在重新使用Hadoop和Web服务中的Trident State抽象,并且已经将Storm移到了“重新处理/安全网”层,该层以前由Hadoop /批处理填充。

由于缺乏更好的术语,我们一直将其称为Delta体系结构,因为整个系统都集中于根据任何和所有处理范例进行的状态增量更新。

希望这能使人们思考。 在我的下一篇文章中,我将解释如何使用相同的体系结构交付维度聚合(如Druid),而无需直接合并Druid。

我们也有未解决的问题-

我们可以执行嵌入式拓扑吗?

这样做有意义吗?

有关更多详细信息,请查看我在Storm NYC聚会中所做的演示, 数据管道和Lambda体系结构的改进 。

我完全理解Lambda的大部分内容只是一个视角问题。 FWIW –这是我的(当前–可能会更改=)。 多亏了内森(Nathan)阐明了Lambda架构的概念,实现“大数据”视图已使人们有了共同的语言,可以与他们讨论一些真正棘手的问题的解决方案。

翻译自: https://www.javacodegeeks.com/2015/03/delta-architectures-unifying-the-lambda-architecture-and-leveraging-storm-from-hadooprest.html

hadoop lambda

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/338299.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言中sizeof和strlen的区别是什么

C语言中sizeof和strlen的区别是:strlen是一个函数,用来计算指定字符串str的长度,但不包括结束字符(即null字符);而sizeof是一个单目运算符,不是函数。区别分析:strlen 是一个函数&am…

c语言中continue语句的作用是什么

continue 的作用是结束本次循环,即跳过循环体中下面尚未执行的语句,然后进行下一次是否执行循环的判定。注意:continue 语句只结束本次循环,而不是终止整个循环。continue 只能在循环语句中使用,即只能在 for、while 和…

java jar killed_容器中Java 程序OOMKilled原因浅析

背景:业务的容器化刚刚搞完,线上开始告警,容器重启,容器重启。describe pod 查看原因是OOMKilled分析:OOMKilled 是pod 中的进程使用的内存超过了.spec.containers[*].resources.limits.memory中定义的内存限制&#x…

eof在c语言中表示什么

在C语言中,或更精确地说成C标准函数库中表示文件结束符(end of file)。在while循环中以EOF作为文件结束标志,这种以EOF作为文件结束标志的文件,必须是文本文件。在文本文件中,数据都是以字符的ASCII代码值的…

go odroid_小众奇葩!Odroid Go Super简评

小众奇葩!Odroid Go Super简评2021-02-27 17:19:277点赞11收藏18评论小编注:此篇文章来自即可瓜分10万金币,周边好礼达标就有,邀新任务奖励无上限,点击查看活动详情儿时出生于苏北小城消息闭塞 玩具不多1994年 老爸南下…

strcpy函数的作用是什么

strcpy函数的作用是复制字符串。C 库函数 char *strcpy(char *dest, const char *src) 把 src 所指向的字符串复制到 dest。需要注意的是如果目标数组 dest 不够大,而源字符串的长度又太长,可能会造成缓冲溢出的情况。声明下面是 strcpy() 函数的声明。c…

fork join框架_Fork / Join框架vs.并行流vs.ExecutorService:最终的Fork / Join基准

fork join框架Fork / Join框架在不同配置下如何工作? 就像即将到来的《星球大战》(Star Wars)一样,围绕Java 8并行性的批评也充满了兴奋。 并行流的语法糖带来了一些炒作,就像我们在预告片中看到的新型光剑一样。 现在…

scanf在c语言中的作用是什么?

scanf()函数scanf()是C语言中的一个输入函数。与printf函数一样,都被声明在头文件stdio.h里,因此在使用scanf函数时要加上#include 。(在有一些实现中,printf函数与scanf函数在使用时可以不使用预编译命令#include 。)…

amqp rabbitmq_通过Spring Integration和RabbitMQ获得高可用性的AMQP支持的消息通道

amqp rabbitmqSpring Integration消息通道默认情况下将消息存储在内存中。 这是因为内存速度快,易于实现,并且不会增加网络成本。 但是,在某些情况下,这可能会引起问题,因为如果应用程序崩溃或服务器意外关闭&#xff…

虚函数和纯虚函数的区别是什么?

虚函数(impure virtual)  C 的虚函数主要作用是“运行时多态”,父类中提供虚函数的实现,为子类提供默认的函数实现。  子类可以重写父类的虚函数实现子类的特殊化。  如下就是一个父类中的虚函数:class A{public: virtual void ss(…

java 编译 器 ide_Java 8发布一年后,IDE和编译器尚未完全就绪

java 编译 器 ide一年前, 2014年3月18日 ,发布了Java SE 8,并通过lambda表达式和streams API带来了功能性编程的幸福。 这对于我们所有的Java生态系统都是个好消息,许多人已经升级到Java8。Stack Overflow已经提出了将近2500个有关…

windows.h有哪些函数

C语言windows.h库的常用函数1:FindWindow函数该函数可以通过窗口类名或者窗口标题名来查找特定窗口句柄,返回值是窗口的句柄(在Windows中,句柄是一个系统内部数据结构的引用。例如当你操作一个窗口,或说是一个Delphi窗…

yxcms安装环境php,Windows7下PHP开发环境安装配置图文方法

操作系统:Windows 7 UltimateWEB服务器:IIS 6.1(内部版本7600)。数据库:MySql5.0.67PHP版本:5.2.13我还担心Win7下可能会不兼容,结果是一点问题都没有。一、安装MySql数据库客户端工具Navicat(导航猫)在这里下载&#…

apache camel_您的Apache Camel应用程序现在包括现成的文档

apache camel几个月前,我在博客中发布了有关即将发布的2.15版本的功能,该功能包括获取有关在端点上配置的每个属性的详细信息的功能-Apache Camel,请向我解释这些端点选项的含义 。 我们继续沿着这条道路前进,今天我们将其从端点…

C语言的三种基本程序结构是什么

一、顺序结构表达式语句、空语句、函数调用语句、复合语句程序举例&#xff1a;从键盘输入一个大写字母&#xff0c;要求改用小写字母输出。#includeint main(){ char x,y; scanf("%c",&x); if(x > A && x < Z) { …

C语言中的指针有什么作用

C语言中的指针的作用是&#xff1a;通过指针不仅可以对数据本身&#xff0c;还可以对存储数据的变量地址进行操作。指针就是内存地址&#xff0c;指针变量是用来存放内存地址的变量。指针定义&#xff1a;指针&#xff0c;是C语言中的一个重要概念及其特点&#xff0c;也是掌握…

rsa php openssl,openssl rsa 使用简介

openssl命令的用法密钥的生成a. 生成非对称密钥对openssl genrsa -out rsa.keyb. 指定生成的密钥的位数,默认512openssl genrsa -out rsa_2048.key 2048c. 为私钥添加密码 (一般都不用)openssl genrsa -out rsa_des3.key -des3密钥的查看d. 查看私钥openssl rsa -in rsa.keye. …

C语言标识符有哪三类

C语言标识符有关键字、用户标识符、预定义标识符三类。C语言规定&#xff0c;标识符只能由字母、数字和下划线组成&#xff0c;并且第一个字符必须是字母或下划线&#xff0c;不能是数字。C语言中的标识符可分为关键字、用户标识符、预定义标识符三类。C语言规定&#xff0c;标…

Hibernate锁定模式– PESSIMISTIC_FORCE_INCREMENT锁定模式如何工作

介绍 在上 一篇 文章中 &#xff0c;我介绍了OPTIMISTIC_FORCE_INCREMENT锁定模式&#xff0c;并将其应用于将子实体版本更改传播到锁定的父实体。 在本文中&#xff0c;我将介绍PESSIMISTIC_FORCE_INCREMENT锁定模式&#xff0c;并将其与乐观的锁定模式进行比较。 相像多于不…

C语言中字符串的结束标志是什么

C语言中字符串的结束标志是【\0】。C语言中没有专门的字符串变量&#xff0c;通常用一个字符数组来存放一个字符串&#xff0c;字符串总是以【\0】作为结束符。\0就是8位的00000000&#xff0c;因为字符类型中并没有对应的这个字符&#xff0c;所以这么写。\0就是 字符串结束标…