Delta架构:统一Lambda架构并利用Hadoop / REST中的Storm

最近,一群人要求我详细介绍我为我们的书《分布式实时计算的风暴蓝图》撰写的Druid / Storm集成。 德鲁伊很棒。 风暴很大。 两者一起解决了实时维查询/聚合问题。

实际上,人们正在将其视为主流,将其称为RAD Stack ,并添加了“ Lambda Architecture”标签。 老实说,也许有更好的方法。 Lamda Architectures的以下假设一直困扰着我。

摘自Nathan关于Lambda体系结构的文章 :

实时计算任意数据集上的任意函数是一个艰巨的问题。 没有哪个工具可以提供完整的解决方案。 相反,您必须使用各种工具和技术来构建完整的大数据系统。

lambda体系结构将问题分解为三层:批处理层,服务层和速度层,从而实时解决了在任意数据上计算任意函数的问题。

该建议使大多数人为批处理,速度/处理和查询部署了单独的基础架构/框架,这很好,因为它允许您“为每个作业使用正确的工具”。 这导致了诸如“ RAD Stack”之类的问题。 人们为每一层选择一种技术。 (例如,速度= Storm,批处理= Hadoop和服务= Impala)

但是,如果您生活在这样的环境中,则它们需要大量资源,因为整个系统之间的重复使用很少。 我相信人们越来越开始质疑各层之间的区别 。 其他人则提出了统一Lambda架构 。

最近,我发现自己处于统一主义者的阵营中……

在HMS,几年来我们一直在迭代Lambda架构。 我们有Storm,Hadoop和实时Web服务层。 这些功能均充当数据摄取机制。

它们都处理相同类型的数据,仅在接口,容量和客户端期望方面有所不同:

  • 交易处理:
    • 我们的事务处理是我们的Web服务层。
  • 基于流/队列的处理
    • 通常,我们发现自己更多地依赖于我们的事务处理能力。
  • 批量处理
    • 对于批处理,客户的期望甚至进一步降低。

像许多其他人一样,我们发现自己需要支持所有这些范例。 从字面上看,我们正在跨不同的框架/系统重写代码,当这些实现不同时(甚至略有不同),这会造成很大的痛苦。 数字没有排队,等等。

我们被迫提出一个解决方案,并使系统稍微崩溃。

我们用Storm看了DRPC,并考虑了从我们的Web服务层调用Storm,但是DRPC似乎很笨拙,并且没有得到支持。 另外,从Hadoop调用DRPC似乎是不明智的。 (有人尝试过吗?)

相反,我们决定锁定持久性的抽象。 我们环顾了ORM和DAO模式,但大多数都不支持微批处理的概念,这是一种抽象,我们希望该选项能够在不同的处理机制中加以利用。 最后, 我们决定将风暴/突发状态抽象作为持久性的通用机制。 我们构建了storm-cassandra-cql ,并将其嵌入到我们的Web服务和Hadoop中。

从Hadoop和我们的Web服务中,我们实例化了自己的元组,它们实现了Storm Tuple接口。 从那里,我们可以使用State抽象并重新使用Mappers,以确保所有三个处理范例之间的数据模型均一致。

作为一种快捷方式,在Hadoop中,我们直接在reduce阶段使用State对象,将输出格式设置为NullOutputFormat。 理想情况下,我们可能应该实现一个新的OutputFormat,即StormCassandraCqlFormat之类的东西,但是我不确定这会给我们带来很多好处。

对于Web服务,直接集成是直接的。 将JSON转换为元组,在StateUpdater上调用update(),然后在State对象上调用commit()。 但是我们还希望能够在提交到“深度存储”之前进行批处理并执行维度聚合。 这带来了一个问题,我们将拥有已确认(200个响应代码)但尚未持久的数据。 不好。 如果节点发生故障,我们将丢失数据。 真的不好。

那么,解决方案是什么? 我们本可以集成Druid,但是相反,我们决定保持它的轻便,并…利用Storm作为我们的安全网!

考虑以下对Lambda体系结构的“传统”解释:

传统_lambda

在这种传统方法中,批处理层(Hadoop)通常用于“纠正”速度层(Storm)中引入的处理中的错误。 Hadoop是安全网,可以纠正数字(通常通过通宵的批处理作业),我们决定采用这种方法来翻转该模型,并使用Storm作为我们的安全网:

delta_architecture

在这种情况下,我们使用嵌入式State对象在批处理中聚合数据,但是在确认HTTP请求之前,我们还写入Kafka队列以实现持久性。 序列图如下所示:

sequence_diagram

我们将事件持久化到队列中,更新Trident State对象,然后*然后*返回200。然后,定期将State刷新到存储中。 (在这种情况下为Cassandra),如果我们删除一个节点也是可以的,因为Storm最终将最终(重新)处理该事件并在需要时(重新)合并数据。 (这是我要掩盖一些非常重要的细节的地方,将在下一篇文章中解决)

关键是……我们已经开始从持久性开始崩溃。 我们正在重新使用Hadoop和Web服务中的Trident State抽象,并且已经将Storm移到了“重新处理/安全网”层,该层以前由Hadoop /批处理填充。

由于缺乏更好的术语,我们一直将其称为Delta体系结构,因为整个系统专注于根据任何和所有处理范例进行的状态增量更新。

希望这能使人们思考。 在我的下一篇文章中,我将解释如何使用相同的体系结构交付维度聚合(如Druid),而无需直接合并Druid。

我们也有未解决的问题-

我们可以执行嵌入式拓扑吗?

这样做有意义吗?

有关更多详细信息,请查看我在Storm NYC聚会中所做的演示, 数据管道和Lambda体系结构的改进 。

我完全理解Lambda的大部分内容都是透视问题。 FWIW –这是我的(当前–可能会更改=)。 多亏了内森(Nathan)阐明了Lambda架构的概念,实现“大数据”视图已使人们有了共同的语言,可以与他们讨论一些真正棘手的问题的解决方案。

翻译自: https://www.javacodegeeks.com/2015/03/delta-architectures-unifying-the-lambda-architecture-and-leveraging-storm-from-hadooprest.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/360677.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

activiti mysql 版本_Mysql8.0.17版本不能自动创建activiti表的坑

maven项目如下:配置好数据库,和activiti的配置之后,开始执行流程部署package com.yuanqiao.first_activiti.deployment;import java.util.List;import org.activiti.engine.ProcessEngine;import org.activiti.engine.ProcessEngines;import …

Linux Kernel 多个本地信息泄露漏洞

漏洞名称:Linux Kernel 多个本地信息泄露漏洞CNNVD编号:CNNVD-201306-028发布时间:2013-06-04更新时间:2013-06-04危害等级: 漏洞类型: 威胁类型:本地CVE编号: 漏洞来源&#xff1a…

Spinner 学习笔记

Adapter 适配器//方法一&#xff1a;直接使用字符串数组//String[] sSexList new String[]{"男", "女"};//方法二&#xff1a;使用资源文件String[] sSexList getResources().getStringArray(R.array.Sexarray);//实例化一个集合适配器ArrayAdapter<S…

Java 8发布一年后,IDE和编译器尚未完全就绪

一年前&#xff0c;即2014年3月18日 &#xff0c;发布了Java SE 8&#xff0c;并伴随着通过lambda表达式和streams API实现了功能性编程的幸福。 这对于我们所有的Java生态系统都是个好消息&#xff0c;许多人已经升级到Java8。Stack Overflow已经提出了大约2500个有关Java 8的…

mysql注入提取邮件_【sql注入教程】mysql注入直接getshell

Mysql注入直接getshell的条件相对来说比较苛刻点把1:要知道网站绝对路径&#xff0c;可以通过报错&#xff0c;phpinfo界面&#xff0c;404界面等一些方式知道2:gpc没有开启&#xff0c;开启了单引号被转义了&#xff0c;语句就不能正常执行了3:要有file权限&#xff0c;默认情…

使用WildFly 8.2.0.Final,Primefaces 5.1和MySQL 5的JDBC领域和基于表单的身份验证

我会不时查看我博客上最受欢迎的内容&#xff0c;并尽力满足您的最佳需求。 因此&#xff0c;阅读我的博客是其他读者推动内容的一种方式。 另一种方法是通过评论或电子邮件与我联系。 今天&#xff0c;我将使用Primefaces修改我的JDBC Realm示例并将其更新到最新的WildFly服务…

【转】代码里的命名规则:错误的和正确的对比

原文出处&#xff1a; goyello 译文出处&#xff1a; 外刊IT评论 编程初学者总是把大量的时间用在学习编程语言&#xff0c;语法&#xff0c;技巧和编程工具的使用上。他们认为&#xff0c;如果掌握了这些技术技巧&#xff0c;他们就能成为不错的程序员。然而&#xff0c;计算…

您的Apache Camel应用程序现在包括现成的文档

几个月前&#xff0c;我在博客中发布了有关即将发布的2.15版本的信息&#xff0c;该功能包括获取有关在端点上配置的每个属性的详细信息的功能-Apache Camel&#xff0c;请向我解释这些端点选项的含义 。 我们沿着这条道路继续前进&#xff0c;今天&#xff0c;我们将其从端点…

具有Spring Boot和数据功能的Java头优先弹性搜索

在本文中&#xff0c;我将为您提供有关如何在Java项目中使用Elastic Search的简单介绍。 由于Spring Boot是开始我们项目的最简单&#xff0c;最快的方法&#xff0c;因此我选择使用它。 此外&#xff0c;我们将大量使用心爱的Spring Data的Repository Goods。 首先&#xff0…

python 表单中值为空的还需要传入么_牛掰!100行Python,自动动手打造一款多国语言翻译软件...

大家在平时的学习或者工作中&#xff0c;往往少不了要阅读外文的文献&#xff0c;或者将外文的文献翻译成中文。这时候就需要打开网页&#xff0c;然后进行搜索&#xff0c;非常的麻烦。既然是玩Python&#xff0c;小编就带领大家来打造一款多种语言翻译的软件&#xff0c;无需…

使用Visual Studio 2010 一步一步创建Powershell Module 和 Cmdlet

之前写了一个C# 调用PowerShell方法&#xff0c; 那么怎么反过来操作呢&#xff0c;也就是怎么样用C#写一个powershell命令呢&#xff1f; 现在就用C#写一个超级简单的Module和Cmdlet 1. 在VS中创建一个Library的项目 文件->新建->项目->C#->Class Library 在这里给…

休眠锁定模式– PESSIMISTIC_FORCE_INCREMENT锁定模式如何工作

介绍 在我以前的文章中 &#xff0c;我介绍了OPTIMISTIC_FORCE_INCREMENT锁定模式&#xff0c;并将其应用于将子实体版本更改传播到锁定的父实体。 在本文中&#xff0c;我将介绍PESSIMISTIC_FORCE_INCREMENT锁定模式&#xff0c;并将其与乐观的锁定模式进行比较。 相像多于不…

实用程序类与函数式编程无关

最近&#xff0c;我被指控反对函数式编程&#xff0c;因为我将实用程序类称为反模式 。 绝对是错的&#xff01; 好吧&#xff0c;我确实认为它们是一种糟糕的反模式&#xff0c;但是它们与函数式编程无关。 我相信有两个基本原因。 首先&#xff0c;函数式编程是声明性的&…

freeredius3.0 mysql_EDIUS视频采集卡 STROM 3G HD/HD SDI

EDIUS STROM 3G HD/HD SDI高清非编系统视音频采集卡STORM 3G? 适用于视频专业人士&#xff0c;满足基于SDI编辑和无带化工作流程&#xff0c;同时可以在低成本的HDMI监&#xff0f;视器上预监。基于PCIe插口类型的STORM 3G解决方案包括EDIUS?非线性编辑软件&#xff0c;3G HD…

以编程方式确定Java类的JDK编译版本

当需要确定使用哪个JDK版本来编译特定的Java .class文件时&#xff0c; 通常使用的方法是使用javap并在javap输出中查找列出的“主要版本”。 我在博客文章Autoboxing&#xff0c;Unboxing和NoSuchMethodError中引用了这种方法&#xff0c;但是在继续以编程方式实现此方法之前&…

如何使用Spring Security和Basic身份验证保护Jersey REST服务

在我之前的博客文章“ 检查REST API是否有效的快速方法–从清单文件中获取GET详细信息”中 &#xff0c;我展示了如何开发REST资源以轻松检查开发的REST API是否可用。 在本文中&#xff0c;我将介绍如何使用Spring Security和基本身份验证来保护此资源的安全性– “在HTTP事务…

python提取数据段_python提取数据段 python数据分析

如何在python中用slice分段取数据&#xff1f;执行以下操作&#xff1a;&gt&gt arange(6)&gt&gt a[0&#xff0c;1&#xff0c;2&#xff0c;3&#xff0c;4&#xff0c;5]&gt&gt a[0:3]&#xff0c;a[5][[2&#xff0c;3&#xff0c;4&#xff0c;4&a…

一个JAXB Nuance:字符串与枚举(受限制的XSD字符串)

尽管用于XML绑定的Java体系结构 &#xff08; JAXB &#xff09;在名义情况下&#xff08;尤其是自Java SE 6以来&#xff09; 相当容易使用&#xff0c;但它也存在许多细微差别。 一些常见的细微差别是由于无法将 XML模式定义 &#xff08;XSD&#xff09;类型与Java 类型精确…

休眠锁定模式– OPTIMISTIC_FORCE_INCREMENT锁定模式如何工作

介绍 在我以前的文章中 &#xff0c;我解释了OPTIMISTIC锁定模式是如何工作的&#xff0c;以及它如何帮助我们同步外部实体状态更改。 在本文中&#xff0c;我们将介绍OPTIMISTIC_FORCE_INCREMENT锁定模式的使用模式。 使用LockModeType.OPTIMISTIC &#xff0c;将在当前正在运…

设置本地Nexus存储库并从Maven部署WAR文件

Maven Central充当中央存储库管理器&#xff0c;其中二进制工件由不同的团队/公司/个人上载并与世界其他地方共享。 就像github和其他对源代码控制非常有效的源代码存储库一样&#xff0c;这些存储库管理器还充当您自己生成的二进制工件的部署目标。 设置本地存储库管理器具有…