大数据平台容量评估_大数据平台

73e8d59219464326cacbd611a54d7ab7.png

系统概述

大数据应用支撑平台提供数据支撑服务,对外发布数据服务进行数据价值变现。包含数据采集、数据治理、数据交换、数据存储、数据计算相关组件的搭建、验证,并建立大数据仓库。

b)功能要求

1.数据采集,大数据平台数据源层有各类型数据源,数据类型分为关系型业务库、NoSQL库、文本文件、视频、服务接口,数据格式分为结构化数据、非结构化数据(文件、图片、视频等),为了将多源异构的数据进行采集,需要将源数据原封不动的从源库全量抽取出来,或者只抽取上次抽取以来源库中要新增或修改的数据,因此数据采集工具需要满足对多源异构数据的全量抽取和增量抽取。

2.数据治理,由于从数据采集工具采集过来的数据不具备统一的数据标准及数据格式,数据治理工具需要对到达的数据进行格式检查、标准化、增量对比、数据筛选、拆分后,生成符合标准的、统一格式的数据,使之与大数据平台要求的数据标准、逻辑关系与质量符合。

3.数据交换,为了满足子系统与总系统之间的数据交换及同步的需求,各系统之间的数据传输过程需要符合数据规范标准,交换的双方通过发送和接收任务进行数据交换,整个过程需要保证数据安全保密及可靠性,并且数据查询结果始终一致。

4.数据存储,为了满足数据采集、数据治理、数据交换各个过程中到达存储的数据,数据存储体系需要满足分布式文件存储、分布式列式存储、NoSql数据库存储、图数据库存储、关系型结果库存储;为了满足数据计算和数据分析过程对数据的需求,数据存储体系需要支持全量的从数据存储体系中抽取出来加载到并行数据处理器,增量的结构化数据实时从数据存储体系中抽取出来后加载到处理器中进行分析计算。

5.数据计算,数据计算模块需要为数据分析应用场景提供数据计算能力,需要整合分布式计算框架MapReduce、全文检索存储引擎(Solr)、Spark(SparkSQL、SparkStreaming、GraphX),通过数据匹配、数据搜索、数据重构,提供对海量数据的并行加载与处理功能,并对数据进行实时计算和离线计算,支撑上层数据分析需求。

6.大数据仓库,数据仓库支持从各种不同的数据源中采集数据,包括关系数据库、NoSql库、文本文件、视频文件、数据接口等。采集工具综合运用kettle、dataX、sqoop、kafka、flume等,实现全量采集和增量采集方式。按数据处理的不同阶段,将数据仓库进行分层:

STAGE层(接口层):提供业务系统数据文件的临时存储,是生产系统数据源的直接拷贝,由ETL过程对数据源进行直接抽取,在格式和数据定义上不作任何改变。从各业务系统中抽取、抓取的数据,进入这一层。

ODS/DWD层(细节数据层):简称DWD层,是对STAGE层数据进行沉淀,减少了抽取的复杂性,同时ODS/DWD的信息模型组织主要遵循企业业务事务处理的形式,将企业各专业数据进行集中,将数据按分析的主体的形式存放,跟STAGE层的粒度一致,属于分析的公共资源。

MID层(轻度汇总层):是面向分析型应用,对DWD层的生产数据进行轻度综合和汇总统计。

DM层(数据集市层):将数据按分析的专题组织成多维库表的形式存放,属于分析目标范畴的数据组织与汇总,属于分析的专有资源,其信息主要来源于DWD 和MID层汇总,时间维度可以是日、月、季、年。

MDW层(元数据):对数据仓库中的数据、数据源、采集方式进行描述。

各类数据从业务系统通过ETL工具抽取至接口层,然后经过清洗转换,进入细节数据层,经过汇总统计,进入轻度汇总层,再经过主题划分,按事实表、维度表进行汇总组织,形成数据集市层。

数据仓库的服务主要包括元数据管理、数据处理调度、数据稽核、数据发布。元数据管理对数据仓库中的数据、数据源、采集方式进行管理,为数据处理和发布提供基础元数据。数据处理调度实现各层数据处理过程的调度管理。数据稽核实现数据完整性、一致性、准确性的检查。数据发布实现数据的对外共享发布。

基于数据仓库,搭建数据分析工具,实现数据明细查询、全文检索,数据交互式探索、数据统计和数据挖掘等。数据分析的结果可以进一步接入到应用中,进行可视化展现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/245321.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

oracle数据库访问sqlserver2008,透过SQL Server 2008访问Oracle 10g的配置方法

之前写过一篇关于SQL Server 访问MySQL数据库的文章,最近正好又遇到需要访问Oracle 的情况,将配置过程记录下来也供大家参考。准备工作事先在需要访问Oracle 数据库的主机上完成以下工作:1. 安装SQL Server 数据库:SQL Server 200…

局域网限速软件_2号破解app重器推荐一款强大的快捷软件

破解版精破解版精品软件一些软件需要使用者付费购买才能使用其所有功能(或者才能解除使用期限),这时一些计算机高手就破解这个软件,使其不用付费也可以完全使用全部功能(或者永久使用),这种软件就叫破解版软件。此公众号中的破解版软件都源于…

人工智能到底是啥_人工智能 (AI) 是什么?| Oracle 中国

人工智能是什么?简单来说,人工智能 (AI) 是指可模仿人类智能来执行任务,并基于收集的信息对自身进行迭代式改进的系统和机器。AI 具有多种形式。例如:聊天机器人使用 AI 更快速高效地理解客户问题并提供更有效的回答智能助手使用 …

平板电脑办公软件_大屏平板互动软件-平板电脑触摸大屏控制软件

随着数字化时代的到来,触摸大屏软件的应用范围,更加宽广,无论走到哪里都能够见到,各式各样的触摸屏一体机、LED液晶屏,拼接屏等多种展示器,在这些设备上面,均能够安装着各种功能不同软件&#x…

oracle 备份教研归档失败,归档日志丢失造成Rman备份失败解决办法

--测试库的归档日志文件被无意删除了,下面是解决步骤RMAN> backup as compressed backupset database plus archivelog delete input;启动 backup 于 24-2月 -12当前日志已存档使用通道 ORA_DISK_1使用通道 ORA_DISK_2MAN-00571: RMAN-00569: ERROR MESSAGE STA…

python两个二维数组加法_对二维数组的多个列进行Numpy平均

首先,在我看来,你根本没有平均列的平均值,你只是一次平均两个数据点。在我看来,你最好不要使用reshaping数组,这样你就有了一个可以直接提供给mean的Nx2数据结构。如果列数不太兼容,可能必须先填充它。然后…

苹果6屏幕多大_苹果12使用高通X55,10亿买下的英特尔基带何时能派上用场

阅读本文前,请您先点击上面的蓝色字体,再点击“关注”,这样您就可以免费收到最新内容了。每天都有分享,完全是免费订阅,请放心关注。声明:本文转载自网络,如有侵权,请在后台留言联系…

ora29280 oracle,细节:utl_file_dir错误设置导致ORA-29280

sysORADG(192.168.190.241)> show parameter utlNAME TYPE VALUE------------------------------------ ---------------------- ------------------------------utl_file_dir string /oracle/test123, /oracle/logmnr <-修改前的值sysORADG(192.168.190.241)> alter …

global在python_在Python中使用“global”关键字

在Python中使用“global”关键字我从阅读文档中了解到&#xff0c;Python有一个单独的函数命名空间&#xff0c;如果我想在该函数中使用全局变量&#xff0c;我需要使用global。我正在使用Python 2.7&#xff0c;我尝试了这个小测试>>> sub [0, 0, 0, 0]>>>…

odd raio值 是什麼_乳化油相所需的HLB值

前面有分享过《常用乳化剂HLB值一览表》&#xff0c;为了方便大家查阅HLB值&#xff0c;《有机概念图、HLB值与乳化剂筛选》一文中介绍了HLB值的计算方法以及乳化剂的筛选。今天分享乳化油所需要HLB,方便大家查阅&#xff0c;油相在O/W乳状液和W/O乳状液中所需的HLB值是不同的&…

oracle12c创建schema,Oracle 12c Schema Demo 安装

Oracle 12cR2 schema demo的安装主要参考README.md文件以及Dave的文章&#xff1a;http://www.cndba.cn/dave/article/1985但其中遇到了其他问题(CDB问题)&#xff0c;以下记录安装过程以及故障处理。https://www.cndba.cn/9527/article/2303把文件拷贝到$ORACLE_HOME/demo目录…

4k纸是几厘米乘几厘米_4K纸有多大 。。厘米

展开全部4K纸通常长&#xff1a;53cm&#xff0c;宽&#xff1a;38cm。4K纸一般指“四开”大小62616964757a686964616fe4b893e5b19e31333431343039的纸张&#xff0c;目前有“国际大度”和“国际正度”的两种标准。国际大度四开纸的长宽为&#xff1a;5843cm&#xff1b;国际大…

搜狗输入法在idea打不了汉字_IDEA开发软件在linux环境下使用搜狗输入法无法进行中文输入...

IDEA开发软件在linux环境下使用搜狗输入法无法进行中文输入找到bin目录下的idea.sh文件(其他编辑器也是一样如pycharm.sh、clion.sh)。使用文本编译器打开&#xff0c;找到# -----------------# Run the IDE.# -----------------在前面添加export GTK_IM_MODULEfcitxexport QT_…

caj文件浏览器_caj文件怎么转换成pdf文件?试试这样操作,3步成功转换

诸位小伙伴用过caj文件吗&#xff1f;和pdf文件类似&#xff0c;也和电子书格式有点像&#xff0c;是我们办公中会用到的格式文件&#xff0c;不过假如你分享了一份caj格式的文档给别人&#xff0c;如果他们的电脑上没有安装对应的浏览器&#xff0c;则无法打开、阅读文件哦。鉴…

oracle 小计 排序,使用SQL实现小计,合计以及排序

--说明&#xff1a;个人学习笔记&#xff0c;实现小计合计显示&#xff0c;分组按BANK_IDOP_DATE升序排序复制代码 代码如下:--测试数据CREATE TABLE #TB(ID VARCHAR(10),BANK_ID VARCHAR(10),OP_DATE VARCHAR(10),OPERATOR_NO VARCHAR(20),AMT DECIMAL(10,2))INSERT #TB SELEC…

猜数大小编程c语言_猜数正确编程

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼#include "time.h"#include "stdlib.h"#include "stdio.h"main(){char c;clock_t start,end;time_t a,b;double var;int i,guess;srand(time(NULL));printf("do you want to play it.(y or n) …

python人脸识别门禁_用Python做人脸识别

之前用facenet做了一个人脸识别的Demo,所以在此记录一下。但因为我的水平十分有限&#xff0c;疏漏之处请多见谅。1&#xff0c;这个流程大致是先用mtcnn检测人脸位置&#xff0c;得到一个人脸的bounding box。2&#xff0c;然后用opencv根据上一个bounding box把人脸裁剪出来&…

linux thrift 安装目录,Linux下安装Thrift

Linux下安装Thrift0.11.0版本下载地址&#xff1a;http://mirrors.hust.edu.cn/apache/thrift/0.11.0/thrift-0.11.0.tar.gz执行如下命令安装Thrift依赖&#xff1a;apt-get install automake bison flex g git libboost1.55 libevent-dev libssl-dev libtool make pkg-config1…

微信电脑客户端登陆_电脑端的微信只能开一个?简单操作就能随意开

微信已经成为工作和生活的必备交流工具&#xff0c;每个人几乎都拥有微信号&#xff0c;而且有些人还会注册两个或多个&#xff0c;用以区分工作和私人。但同时登陆多个账号却成为了难题&#xff0c;现在手机上多开已经很方便&#xff0c;而在电脑上默认只能登录一个&#xff0…

基于单片机的自动追日系统设计_基于单片机的自动浇花系统的设计

龙源期刊网http://www.qikan.com.cn基于单片机的自动浇花系统的设计作者&#xff1a;吴蓓张阳来源&#xff1a;《现代信息科技》2018年第03期摘要&#xff1a;为了解决人们生活中由于工作繁忙或无人照料而带来的浇花难的问题&#xff0c;本文基于AT89C51单片机设计了一款自动浇…