大数据架构设计(四十五)

大数据架构有Lambda架构和Kappa架构。

大数据可以解决的问题?

  1. 处理非结构化和半结构化数据。
  2. 大数据复杂性、不确定性特征描述和刻画方法以及大数据系统建模。
  3. 数据易构性 与 决策易购性的关系。(数据易构性主要是不同的数据库种类)

大数据处理系统系统特征:

  1. 鲁棒性和容错性
  2. 低延迟读取和更新能力
  3. 横向扩展
  4. 通用性
  5. 延展性
  6. 即席查询能力(及时响应用户查询需求)
  7. 最少维护能力
  8. 可调试性

Lambda架构设计目的在于提供一个满足大数据系统关键特性的架构。整合离线计算和实时计算,融合不可变性、读写分离和复杂性隔离等原则。

Lambda架构应用场景:机器学习、物联网、流处理。

可分解为三层:

批处理层、加速层和服务层。

批处理层:处理离线数据,历史数据

加速层:实时计算,追加的在线数据

服务层:流处理视图、批处理视图和查询视图。

Hadoop(HDFS)用于存储主数据集,Spark可构成加速度层,HBase作为服务层。

Hadoop是分布式文件系统,存储我们的历史主数据。

Spark是专门大数据处理,快速通用的计算引擎。

Lambda优点:容错性好,查询灵活性,易扩展和易伸缩。

缺点:全场景覆盖代码带来的开销。针对离线的益处不大,可以考虑不需要批处理,只需要实时处理。

Lambda本质是事件溯源(隐式调用)和CQRS 读写分离。

因为lambda是通过消费kafka来存储和计算数据的,以事件驱动为核心,业务数据只是驱动产生的视图,并且 批处理和加速层实现读写分离。写到视图再从视图里面读,并不是实时写和实时读。

Kappa架构的原理

在lambda的基础上进行优化,删除了batch layer批处理层,将数据通道以消息队列进行代替。来了数据直接塞到消息队列,以流处理为主,实时计算没有问题,当需要离线分析的时候,则将数据湖的数据再次通过消息队列重播一次。

Kappa和lambda的区别:

  1. kappa不是lambda的替换架构,而是其简化版,kappa擅长数据增量的写入。
  2. Lambda更适合对历史数据的分析。

Kappa的缺点:

  1. 消息中间件 缓存的数据量和回溯数据有性能瓶颈。通常算法是180天的数据回溯。
  2. 大量不同的实时流进入消息队列,非常依赖计算机系统的能力。
  3. 抛弃了离线数据,所以它离线计算没有lambda稳定。

Kappa+流式数据处理框架,核心思想是读取HDFS里数据仓库数据,一并实现实时计算和历史数据计算。

混合架构系统:

Kappa+flink构件kappa架构,利用Flink来计算,主要解决kappa分析历史数据能力不足问题。

区别:

开发复杂度和维护:

Lambda架构更复杂,开发和维护成本高,需要维护两套。

Kappa架构只需要维护一套,复杂度低,开发、维护成本低。

计算开销:

Lambda需要一直运行批处理,实时计算,计算开销大。

Kappa必要进行全量计算,计算开销相对小。

实时性:

Lambda和kappa都可以满足实时性。

历史数据处理能力:

Lambda批示全量处理,吞吐量大,历史数据处理能力强。

Kappa流式全量处理,吞吐相对较低,历史处理能力弱。

如果业务对Hadoop和spark和strom等关键技术依赖,选择lambda。

如果依赖Flink计算引擎,则kappa更合适。

批处理层每天凌晨将kafka浏览、下单消息同步到HDFS,再将HDFS中的日志解析成Hive表,用hive sql/spark sql计算出分区统计结果hive表,最终hive表导出到mysql服务中。另一方面曝光、点击和花费通过外部数据的第三方api获取,写入mysql表。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/98123.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

系统架构设计:5 论软件的可靠性设计

目录 一 可靠性设计 1 可靠性 2 影响可靠性的因素 3可靠性设计技术 (1)避错技术

设备搭建(waf、蜜罐、ids和ips)

文章目录 防火墙waf网闸蜜罐idsips 防火墙 DMZ区域叫非军事化区减,DMZ有web服务或者MySQL服务,从互联网到dmz的流量一般不拦截(因为需要互联网用户访问web服务),如果dmz沦陷,攻击者想要继续横向移动到内网…

Vue中实现自定义编辑邮件发送到指定邮箱(纯前端实现)

formspree里面注册账号 注册完成后进入后台新建项目并且新建表单 这一步完成之后你将得到一个地址 最后就是在项目中请求这个地址 关键代码如下: submitForm() {this.fullscreenLoading true;this.$axios({method: "post",url: "https://xxxxxxx…

什么是数据库锁(Lock)?有哪些类型的锁

数据库锁(Lock):保护数据完整性与并发性的关键 数据库锁(Lock)是在数据库管理系统中用于管理并发访问数据的重要机制。它们确保了多个用户或事务可以同时访问数据库,同时保护数据的完整性。在本文中&#…

7.wifi开发【智能家居:终】,实践总结:智能开关,智能采集温湿,智能灯。项目运行步骤与运行细节,技术归纳与提炼,项目扩展

一。项目运行步骤与运行细节 1.项目运行步骤(一定有其他的运行方式,我这里只提供一种我现在使用的编译方式) (1)项目运行使用软件与技术: 1.Virtual linux 使用这个虚拟机进行程序的编译 2.Makefile与shl…

2023年下学期《C语言》作业0x02-分支 XTU OJ 1068 1069 1070 1071 1072

第一题 #include<stdio.h>int main() {int a;scanf("%d",&a);if(a>90&&a<100) printf("A");else printf("B");return 0; } 没有换行&#xff0c;不然会格式错误 第二题 #include<stdio.h>int main() {int a;s…

数字人直播系统源码交付,数字人直播软件下载迎来普及化

随着数字人直播行业的蓬勃发展&#xff0c;铭顺科技数字人直播系统成为了行业中的一大亮点。通过一次性买断和源码级交付的模式&#xff0c;数字人直播正迎来普及化的浪潮&#xff0c;这种创新的交付方式带来了许多好处&#xff0c;为数字人直播的推广和应用提供了强有力的支持…

【Navicat】win 10 / win 11:Navicat 15 安装完整教程(navicat 连接 mysql 出现 2059 报错问题解决)

目录 一、Navicat 连接 mysql 出现 2059 报错问题解决 二、Navicat 15 的下载 三、Navicat 15 的安装 四、Navicat 15 的使用 一、Navicat 连接 mysql 出现 2059 报错问题解决 之前使用的是完整版本 navicat 12&#xff0c;但是随着 MySQL 的升级&#xff0c;再连接 MySQL…

【SpringCloud】认识微服务

&#x1f40c;个人主页&#xff1a; &#x1f40c; 叶落闲庭 &#x1f4a8;我的专栏&#xff1a;&#x1f4a8; c语言 数据结构 javaEE 操作系统 Redis 石可破也&#xff0c;而不可夺坚&#xff1b;丹可磨也&#xff0c;而不可夺赤。 认识微服务 一、 服务架构演变1.1 单体架构…

库存管理与策略模式

库存管理是个难题&#xff0c;涉及到采购、销售、仓储、门店、网站订单各个环节&#xff0c;实物库存和系统库存很难保证完全一致&#xff0c;记得系统刚上线第一天&#xff0c;因为实物库存与导入系统的库存有差异&#xff0c;系统又做了限制系统库存必须大于0才允许销售普通订…

Spring的beanName生成器AnnotationBeanNameGenerator

博主介绍&#xff1a;✌全网粉丝4W&#xff0c;全栈开发工程师&#xff0c;从事多年软件开发&#xff0c;在大厂呆过。持有软件中级、六级等证书。可提供微服务项目搭建与毕业项目实战&#xff0c;博主也曾写过优秀论文&#xff0c;查重率极低&#xff0c;在这方面有丰富的经验…

软件测试面试题

一、JMeter进行接口测试步骤 JMeter是一款功能强大的开源负载和性能测试工具&#xff0c;也可以用于接口测试。以下是使用JMeter进行接口测试的基本步骤&#xff1a; &#xff08;1&#xff09;创建测试计划&#xff1a;在JMeter中&#xff0c;您需要创建一个测试计划来组织您…

软件设计原则 1小时系列 (C++版)

文章目录 前言基本概念 Design Principles⭐单一职责原则(SRP) Single Responsibility PrincipleCode ⭐里氏替换原则(LSP) Liskov Substitution PrincipleCode ⭐开闭原则(OCP) Open Closed PrincipleCode ⭐依赖倒置原则(DIP) Dependency Inversion PrincipleCode ⭐接口隔离…

【Oracle】Oracle系列十九--Oracle的体系结构

文章目录 往期回顾前言1. 物理结构2. 内存结构2.1 SGA2.2 后台进程 3. 逻辑结构 往期回顾 【Oracle】Oracle系列之一–Oracle数据类型 【Oracle】Oracle系列之二–Oracle数据字典 【Oracle】Oracle系列之三–Oracle字符集 【Oracle】Oracle系列之四–用户管理 【Oracle】Or…

acwing算法基础之基础算法--前缀和算法

目录 1 知识点2 模板 1 知识点 前缀后下标尽量从1开始&#xff0c;当然不从1开始也是ok的。 a 1 , a 2 , a 3 , . . . , a n a_1,a_2,a_3,...,a_n a1​,a2​,a3​,...,an​ S 1 , S 2 , S 3 , . . . S n S_1,S_2,S_3,...S_n S1​,S2​,S3​,...Sn​ S i S_i Si​&#xff1…

linux基础64——abrtd总结

安装与启动 # 安装abrt图形用户界面 yum install abrt-desktop# 安装abrt客户端 yum -y install abrt-cli# 接收关于 ABRT 检测到的崩溃的电子邮件通知(默认情况下&#xff0c;它会在本地计算机上向 root 用户发送通知。电子邮件目标可以在 /etc/libreport/plugins/mailx.conf…

Java使用WebSocket(基础)

准备一个html页面 <!DOCTYPE HTML> <html> <head><meta charset"UTF-8"><title>WebSocket Demo</title> </head> <body><input id"text" type"text" /><button onclick"send()&…

基于springboot实现人职匹配推荐管理系统演示【项目源码+论文说明】分享

基于springboot实现人职匹配推荐管理系统演示 摘要 随着科学技术的飞速发展&#xff0c;各行各业都在努力与现代先进技术接轨&#xff0c;通过科技手段提高自身的优势&#xff1b;对于人职匹配推荐系统当然也不能排除在外&#xff0c;随着网络技术的不断成熟&#xff0c;带动了…

ADuM1250 ADuM1251 模块 I2C IIC总线2500V电磁隔离 接口保护

功能说明&#xff1a; 1&#xff0c;2500V电磁隔离&#xff0c;2通道双向I2C&#xff1b; 2&#xff0c;支持电压在3到5.5V&#xff0c;最大时钟频率可达1000KHz&#xff1b; 3&#xff0c;将该隔离模块接入总线&#xff0c;可以保护主MCU引脚&#xff0c;降低I2C总线上的干…

【Java 进阶篇】HTML表格标签详解

HTML&#xff08;Hypertext Markup Language&#xff09;表格标签是在网页中用于创建表格的重要工具。表格是一种在网页上以行和列的方式组织和显示数据的有效方式。在本文中&#xff0c;我们将详细介绍HTML表格标签&#xff0c;包括如何创建表格、定义表头、单元格合并等内容。…