大数据——大数据架构

一:大数据应用场景

1.离线批处理

数据量比较大,延迟比较高

2.实时检索

实时检索中的hbase按key值检索较快,因为其存储是顺序存储,但是对value的检索就相对较慢。

数据量大,实时查询数据,不能对数据做大量修改

3.实时处理

通过flume收集数据,存放到kafka中,然后我们可以通过flink或者spark中的structedstreaming来进行处理,处理后的数据我们不放入数据库中,而是放入redis(缓冲器),这样可以提高应用对数据的读取速度 。

4.融合数仓

高斯DB

二.大数据架构概述

大数据架构是关于大数据平台系统整体结构与组件的抽象和全局描述,用于指导大数据平台系统各个方面的设计和实施。
一个典型的大数据平台系统架构应包括以下层次:

  • 数据平台层(数据采集、数据处理、数据分析)
  • 数据服务层(开放接口、开放流程、开放服务);6
  • 数据应用层(针对企业业务特点的数据应用)
  • 数据管理层(应用管理、系统管理)。

 

数据平台层 

数据平台层 是大数据体系中最基础和最根本的部分。数据平台层一般包含三个层次。
数据采集层:包括传统的ETL离线采集、实时采集等。
数据处理层:根据数据处理场景要求不同,对采集回来的数据进行一些规范化的预处理。常用处理                        方式可以分为Hadoop离线处理、实时流处理等。
数据分析层:包括传统的数据挖掘和进一步的机器学习、深度学习等。

数据服务层

数据服务层是基于数据平台层,以开放接口、开放流程为基础,采用基于云计算的大数据存储和处理架构、分布式数据挖掘算法和基于互联网的大数据存储、处理和挖掘大数据服务模式。

构建基于服务的大数据分析模式,提供大数据处理和分析的服务功能。

基于互联网和云计算的大数据存储、处理和挖掘的数据中心系统架构,提供多用户、多任务的大数据分析服务。

数据应用层

数据应用层 是各个企业根据自身的具体业务及应用所规划和实施的大数据应用和服务。主要将大数据应用到行业领域,实现基于行业的应用。

根据企业的特点不同划分不同类别的应用,比如针对运营商,对内有精准营销、客服投诉、基站分析等,对外有基于位置的客流、基于标签的广告应用等等。

主流的应用层面的技术包括大数据统计、分析、挖掘、展现等等。

数据管理层

数据管理层包括应用管理和系统管理。

应用管理主要是从数据设计、开发到数据销毁的全生命周期管理,建立数据标准、质量规则和安全策略等,从而实现从事前管理、事中控制和事后稽核、审计的全方位的数据质量管理,元数据管理和安全管理。

系统管理主要是将大数据平台纳入统一的云管理平台管理,云管理平台包括支持一键部署、增量部署的可视化运维工具、面向多租户的计算资源管控体系(多租户管理、安全管理、资源管理、负载管理、配额管理以及计量管理)和完善的用户权限管理体系,提供企业级的大数据平台运维管理能力支撑。

三.主流大数据架构

大数据基础架构主要为了解决传统BI中在处理大数据时的性能等问题,提供满足日常数据分析和数据处理的能力

大数据流式架构数据全程以流的形式处理,适用于预警、监控、对数据有实时处理要求的场景。

大数据Lambda架构充分利用和整合批处理和流处理各自强项的数据处理架构。其包含了三层:批次处理,实时处理和响应查询的服务层。

大数据Kappa架构在Lambda的基础上进行了优化,将实时和流处理部分进行了合并。将数据通道以消息队列进行替代。Kappa以流处理为主,但是数据却在数据湖层面进行了存储。

大数据统一架构对Lambda进行了改造,在流处理层新增了机器学习层。适用于有大量数据分析需求,同时对机器学习有需求或者规划的场景。

四.大数据基础架构 

企业传统的数据分析的业务需求没有发生变化,但是因为数据量增加、性能等问题导致系统无法正常使用,需要进行升级改造。数据分析需求依旧以BI场景为主,引入大数据基础架构 (Hadoop),使用分布式计算框架和批处理技术提升数据的分析和处理能力。

大数据流式架构

  • 大数据流式架构在大数据基础架构上,去掉批处理部分,从而更专注处理流式数据。
  • 流数据是一组顺序、大量、快速、连续到达的数据序列。应用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。
  • 流式架构在数据接入端没有了ETL,转而替换为数据通道。经过流处理加工后的数据,以消息的形式直接推送给了消费者,满足了用户对数据的实效性需求。

大数据Lambda架构

  • Lambda架构是大数据系统里面举足轻重的架构,大多数架构基本都是Lambda架构或者基于其变种的架构。
  • Lambda架构很好的兼顾了实时处理和离线处理,几乎覆盖了大多数的数据分析和需求处理。可以很好地满足同时存在实时和离线需求的场景。
  • Lambda架构将数据通道分为两个分支:实时流和离线。实时流类似流式架构,保障了其实时性,而离线则以批处理方式为主,保障了最终一致性。

大数据Kappa架构

  • Kappa架构在Lambda架构的基础上进行了优化,将实时部分和流部分进行了合并,将数据通道以消息队列进行替代,依旧以流处理为主,但是数据却在数据湖层面进行了存储。
  • 消息队列(Message Queue)是分布式系统中的重要功能,主要解决应用耦合、异步处理等问题。常用的消息处理方案有 KafkaRabbitMQ ActiveMQ

大数据统一架构

  • 大数据统一架构将机器学习和数据处理进一步整合。从核心上来说,统一架构依然以Lambda为主,只是对其进行了优化和改造,重点是在流处理层新增了数据服务层(数据挖掘,机器学习等)。
  • 数据在经过数据通道进入数据湖后,新增了模型训练部分,并且将其在流式层进行使用。同时流式层不单使用模型,也包含着对模型的持续训练。

五.大数据架构在大数据中的重要性

1.好的大数据架构需要围绕着企业的业务进行设计,而不是单单围绕着技术架构。业务是核心,而技术是业务的支持,好的大数据架构能满足业务的持续发展。

2.大数据架构决定了—个大数据系统的主体结构、宏观特性和具有的基本功能以及特性。

3.好的大数据架构可扩展性强,可维护性高,能为企业未来的业务发展提供数据支撑 。

4.在数据处理技术分布式演进趋势中,Hadoop成为开放的事实标准。但其生态圈庞大复杂,使用合适的架构及其组件尤为重要。

5.大数据架构作为系统协调者角色提供系统必须满足的整体要求,包括政策、治理、架构、资源和业务需求,以及为确保系统符合这些需求而进行的监控和审计活动。

  • 系统协调者定义和整合所需的数据应用活动到运行的垂直系统中。
  • 系统协调者的功能是配置和管理大数据架构的其他组件,来执行一个或多个工作负载。
  • 系统协调者通常会涉及到更多具体角色,由一个或多个角色扮演者管理和协调大数据系统的运行。这些角色扮演者可以是人,软件或二者的结合。

6.大数据架构作为数据提供者角色为大数据系统提供可用的数据。

  • 在一个大数据系统中,数据提供者的活动通常包括采集数据、持久化数据、对敏感信息进行转换和清洗。
  • 作为数据提供者创建数据源的元数据及访问策略、访问控制、通过软件的可编程接口实现推或拉式的数据访问、发布数据可用及访问方法的信息等。
  • 大数据架构通常需要为各种数据源(原始数据或由其它系统预先转换的数据)创建一个抽象的数据源,通过不同的接口提供发现和访问数据功能。

7.大数据架构作为大数据应用提供者在数据的生命周期中执行一系列操作,以满足系统协调者建立的系统要求及安全和隐私要求。

  • 大数据应用提供者通过把大数据框架中的一般性资源和服务能力相结合,把业务逻辑和功能封装成架构组件,构造出特定的大数据应用系统。
  • 大数据架构作为大数据应用程序提供者可以是单个实例,也可以是一组更细粒度大数据应用提供者实例的集合,集合中的每个实例执行数据生命周期中的不同活动。
  • 每个大数据应用提供者的活动可能是由系统协调者、数据提供者或数据消费者调用的一般服务,如Web服务器、文件服务器、一个或多个应用程序的集合或组合。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/13627.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构(二)单链表

一、链表 (一)概念 逻辑结构:线性 存储结构:链式存储,在内存中不连续 分为有头链表和无头链表 同时又细分为单向、循环、双向链表 (二)有头单向链表示意图 以下数据及地址只是为了方便理解…

Colab/PyTorch - 006 Mask RCNN Instance Segmentation

Colab/PyTorch - 006 Mask RCNN Instance Segmentation 1. 源由2. 用 PyTorch 实现 Mask R-CNN2.1 输入输出2.2 预训练模型2.3 模型预测2.4 目标检测流程2.5 推理示例一示例二示例三 3. 推断时间比较(CPU v.s. GPU)4. 总结5. 参考资料 1. 源由 在《Colab/PyTorch - 004 Torchv…

vue2组件的封装+antd

1.vue2表格的封装使用 表格使用 <standard-tables:columns"columns":dataSource"dataSource":loading"loading"bordered:pagination"{ ...pagination, onChange: onPageChange }"><div slot"warnType" slot-scope…

必应bing国内推广开户,全方位必应广告开户流程介绍!

在所有获客渠道中&#xff0c;搜索引擎广告成为企业扩大品牌影响力、精准触达目标客户的关键途径之一。作为全球领先的搜索引擎之一&#xff0c;必应&#xff08;Bing&#xff09;拥有庞大的用户群体和独特的市场优势&#xff0c;是企业不可忽视的营销阵地。云衔科技&#xff0…

vscode添加代办相关插件,提高开发效率

这里写目录标题 前言插件添加添加TODO Highlight安装TODO Highlight在项目中自定义需要高亮显示的关键字 TODO Tree安装TODO Tree插件 单行注释快捷键 前言 在前端开发中&#xff0c;我们经常会遇到一些未完成、有问题或需要修复的部分&#xff0c;但又暂时未完成或未确定如何处…

合约的值类型

基本数据类型&#xff1a;整数、枚举、布尔&#xff08;类似java的数据类型&#xff09;Address、Contract&#xff08;这两种是solidity特有的数据类型&#xff09;Fixed byte array&#xff08;定长字节数组&#xff09; Integer(int/uint) int/uint 以8位字节递增&#xf…

推荐ChatGPT4.0——数学建模

1.建模助手 2. 可直接上传文档分析 3.获取途径 现在商家有活动&#xff0c;仅仅需要19.9&#xff01;&#xff01;&#xff01;&#xff01; 现在有优惠&#xff1a; 推荐人写&#xff1a;love 周卡&#xff0c;半月卡&#xff0c;月卡优惠码是love&#xff0c; 会优惠10元…

表现层框架设计之表现层设计模式_1.MVC模式

1.MVC模式三个核心模块 MVC是一种目前广泛流行的软件设计模式。近年来&#xff0c;随着Java EE的成熟&#xff0c;MVC成为了Java EE平台上推荐的一种设计模式。MVC强制性地把一个应用的输入、处理、输出流程按照视图、控制、模型的方式进行分离&#xff0c;形成了控制器…

Github上传时报错The file path is empty的解决办法

问题截图 文件夹明明不是空的&#xff0c;却怎么都上传不上去。 解决方案&#xff1a; 打开隐藏文件的开关&#xff0c;删除原作者的.git文件 如图所示&#xff1a; 上传成功&#xff01;

全面掌握深度学习:从基础到前沿

引言&#xff1a;深入探索深度学习的世界 在人工智能&#xff08;AI&#xff09;的广阔领域中&#xff0c;深度学习已经成为最令人瞩目的技术之一。它不仅推动了科技的许多突破性进展&#xff0c;也正在改变我们的工作和生活方式。本博客旨在全面总结深度学习的关键知识点&…

Rust面试宝典第14题:旋转数组

题目 给定一个数组&#xff0c;将数组中的元素向右移动k个位置&#xff0c;其中k是非负数。要求如下&#xff1a; &#xff08;1&#xff09;尽可能想出更多的解决方案&#xff0c;至少有三种不同的方法可以解决这个问题。 &#xff08;2&#xff09;使用时间复杂度为O(n)和空间…

RAW转换和图像编辑工具:Capture One 23 Pro (win/mac)中文专业版

Capture One 23是一款功能强大的桌面版照片编辑软件&#xff0c;由丹麦PHASE ONE飞思数码公司开发。 以下是该软件的一些主要特点&#xff1a; 强大的RAW处理功能&#xff1a;Capture One 23支持多种品牌的相机和镜头&#xff0c;提供了丰富的RAW处理工具&#xff0c;包括曝光、…

安装ollama并部署大模型并测试

Ollama介绍 项目地址&#xff1a;ollama 官网地址&#xff1a; https://ollama.com 模型仓库&#xff1a;https://ollama.com/library API接口&#xff1a;api接口 Ollama 是一个基于 Go 语言开发的简单易用的本地大语言模型运行框架。可以将其类比为 docker&#xff08;同基…

【vue-3】动态属性绑定v-bind

1、文本动态绑定&#xff1a; <input type"text" v-bind:value"web.url"> 简写&#xff1a; <input type"text" :value"web.url"> 2、文字样式动态绑定 <b :class"{textColor:web.fontStatus}">vue学…

word页眉线如何置于文字上方

然后 敲黑板&#xff0c;点这里

【Java超详细的学习笔记】Java超详细的学习笔记,适合小白入门,Java语法学习,Java开发学习笔记,Java入门学习笔记

一&#xff0c;Java初学者学习笔记 Java超详细的学习笔记&#xff0c;点击我获取 1&#xff0c;Java基础语法 一个 Java 程序可以认为是一系列对象的集合&#xff0c;而这些对象通过调用彼此的方法来协同工作。下面简要介绍下类、对象、方法和实例变量的概念。 对象&#…

碳课堂|ISO 14067 产品碳足迹国际标准

为规范评估产品碳排放&#xff0c;国际标准化组织发布了《ISO14067&#xff1a;2018温室气体-产品碳足迹-量化要求及指南》&#xff0c;标准量化产品生命周期阶段&#xff08;包括从资源开采、原材料采购到产品的生产、使用和报废阶段&#xff09;的温室气体排放的通用标准。该…

功耗相关总结

文章目录 功耗相关的使用场景MCU中低功耗的应用RTOS中低功耗应用 功耗相关的使用场景 目前越来越多的嵌入式设备采用电池进行供电&#xff0c;而不是跟台式电脑一样&#xff0c;可以一直连接着电源。在电池供电的场景下&#xff0c;对功耗的要求很高&#xff0c;工程师们尽量希…

炫酷gdb

在VS里面调试很方便对吧&#xff1f;&#xff08;F5直接调试&#xff0c;F10逐过程调试--不进函数&#xff0c;F11逐语句调试--进函数&#xff0c;F9创建断点&#xff09;&#xff0c;那在Linux中怎么调试呢&#xff1f; 我们需要用到一个工具&#xff1a;gdb 我们知道VS中程…

从业务角度来看,DevOps 是什么?

如果您在我们的应用程序名称中看到“DevOps”&#xff0c;这意味着我们必须正确解释该术语&#xff0c;我们会这样做&#xff0c;但角度会有所不同。让我们从业务角度看看 DevOps 是什么。 通用名称 首先你应该知道&#xff0c;DevOps 没有明确的定义。是的。 大多数情况下&a…