大数据平台容量评估_大数据平台

73e8d59219464326cacbd611a54d7ab7.png

系统概述

大数据应用支撑平台提供数据支撑服务,对外发布数据服务进行数据价值变现。包含数据采集、数据治理、数据交换、数据存储、数据计算相关组件的搭建、验证,并建立大数据仓库。

b)功能要求

1.数据采集,大数据平台数据源层有各类型数据源,数据类型分为关系型业务库、NoSQL库、文本文件、视频、服务接口,数据格式分为结构化数据、非结构化数据(文件、图片、视频等),为了将多源异构的数据进行采集,需要将源数据原封不动的从源库全量抽取出来,或者只抽取上次抽取以来源库中要新增或修改的数据,因此数据采集工具需要满足对多源异构数据的全量抽取和增量抽取。

2.数据治理,由于从数据采集工具采集过来的数据不具备统一的数据标准及数据格式,数据治理工具需要对到达的数据进行格式检查、标准化、增量对比、数据筛选、拆分后,生成符合标准的、统一格式的数据,使之与大数据平台要求的数据标准、逻辑关系与质量符合。

3.数据交换,为了满足子系统与总系统之间的数据交换及同步的需求,各系统之间的数据传输过程需要符合数据规范标准,交换的双方通过发送和接收任务进行数据交换,整个过程需要保证数据安全保密及可靠性,并且数据查询结果始终一致。

4.数据存储,为了满足数据采集、数据治理、数据交换各个过程中到达存储的数据,数据存储体系需要满足分布式文件存储、分布式列式存储、NoSql数据库存储、图数据库存储、关系型结果库存储;为了满足数据计算和数据分析过程对数据的需求,数据存储体系需要支持全量的从数据存储体系中抽取出来加载到并行数据处理器,增量的结构化数据实时从数据存储体系中抽取出来后加载到处理器中进行分析计算。

5.数据计算,数据计算模块需要为数据分析应用场景提供数据计算能力,需要整合分布式计算框架MapReduce、全文检索存储引擎(Solr)、Spark(SparkSQL、SparkStreaming、GraphX),通过数据匹配、数据搜索、数据重构,提供对海量数据的并行加载与处理功能,并对数据进行实时计算和离线计算,支撑上层数据分析需求。

6.大数据仓库,数据仓库支持从各种不同的数据源中采集数据,包括关系数据库、NoSql库、文本文件、视频文件、数据接口等。采集工具综合运用kettle、dataX、sqoop、kafka、flume等,实现全量采集和增量采集方式。按数据处理的不同阶段,将数据仓库进行分层:

STAGE层(接口层):提供业务系统数据文件的临时存储,是生产系统数据源的直接拷贝,由ETL过程对数据源进行直接抽取,在格式和数据定义上不作任何改变。从各业务系统中抽取、抓取的数据,进入这一层。

ODS/DWD层(细节数据层):简称DWD层,是对STAGE层数据进行沉淀,减少了抽取的复杂性,同时ODS/DWD的信息模型组织主要遵循企业业务事务处理的形式,将企业各专业数据进行集中,将数据按分析的主体的形式存放,跟STAGE层的粒度一致,属于分析的公共资源。

MID层(轻度汇总层):是面向分析型应用,对DWD层的生产数据进行轻度综合和汇总统计。

DM层(数据集市层):将数据按分析的专题组织成多维库表的形式存放,属于分析目标范畴的数据组织与汇总,属于分析的专有资源,其信息主要来源于DWD 和MID层汇总,时间维度可以是日、月、季、年。

MDW层(元数据):对数据仓库中的数据、数据源、采集方式进行描述。

各类数据从业务系统通过ETL工具抽取至接口层,然后经过清洗转换,进入细节数据层,经过汇总统计,进入轻度汇总层,再经过主题划分,按事实表、维度表进行汇总组织,形成数据集市层。

数据仓库的服务主要包括元数据管理、数据处理调度、数据稽核、数据发布。元数据管理对数据仓库中的数据、数据源、采集方式进行管理,为数据处理和发布提供基础元数据。数据处理调度实现各层数据处理过程的调度管理。数据稽核实现数据完整性、一致性、准确性的检查。数据发布实现数据的对外共享发布。

基于数据仓库,搭建数据分析工具,实现数据明细查询、全文检索,数据交互式探索、数据统计和数据挖掘等。数据分析的结果可以进一步接入到应用中,进行可视化展现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/245321.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

oracle数据库访问sqlserver2008,透过SQL Server 2008访问Oracle 10g的配置方法

之前写过一篇关于SQL Server 访问MySQL数据库的文章,最近正好又遇到需要访问Oracle 的情况,将配置过程记录下来也供大家参考。准备工作事先在需要访问Oracle 数据库的主机上完成以下工作:1. 安装SQL Server 数据库:SQL Server 200…

局域网限速软件_2号破解app重器推荐一款强大的快捷软件

破解版精破解版精品软件一些软件需要使用者付费购买才能使用其所有功能(或者才能解除使用期限),这时一些计算机高手就破解这个软件,使其不用付费也可以完全使用全部功能(或者永久使用),这种软件就叫破解版软件。此公众号中的破解版软件都源于…

平板电脑办公软件_大屏平板互动软件-平板电脑触摸大屏控制软件

随着数字化时代的到来,触摸大屏软件的应用范围,更加宽广,无论走到哪里都能够见到,各式各样的触摸屏一体机、LED液晶屏,拼接屏等多种展示器,在这些设备上面,均能够安装着各种功能不同软件&#x…

oracle 备份教研归档失败,归档日志丢失造成Rman备份失败解决办法

--测试库的归档日志文件被无意删除了,下面是解决步骤RMAN> backup as compressed backupset database plus archivelog delete input;启动 backup 于 24-2月 -12当前日志已存档使用通道 ORA_DISK_1使用通道 ORA_DISK_2MAN-00571: RMAN-00569: ERROR MESSAGE STA…

苹果6屏幕多大_苹果12使用高通X55,10亿买下的英特尔基带何时能派上用场

阅读本文前,请您先点击上面的蓝色字体,再点击“关注”,这样您就可以免费收到最新内容了。每天都有分享,完全是免费订阅,请放心关注。声明:本文转载自网络,如有侵权,请在后台留言联系…

odd raio值 是什麼_乳化油相所需的HLB值

前面有分享过《常用乳化剂HLB值一览表》,为了方便大家查阅HLB值,《有机概念图、HLB值与乳化剂筛选》一文中介绍了HLB值的计算方法以及乳化剂的筛选。今天分享乳化油所需要HLB,方便大家查阅,油相在O/W乳状液和W/O乳状液中所需的HLB值是不同的&…

oracle12c创建schema,Oracle 12c Schema Demo 安装

Oracle 12cR2 schema demo的安装主要参考README.md文件以及Dave的文章:http://www.cndba.cn/dave/article/1985但其中遇到了其他问题(CDB问题),以下记录安装过程以及故障处理。https://www.cndba.cn/9527/article/2303把文件拷贝到$ORACLE_HOME/demo目录…

caj文件浏览器_caj文件怎么转换成pdf文件?试试这样操作,3步成功转换

诸位小伙伴用过caj文件吗?和pdf文件类似,也和电子书格式有点像,是我们办公中会用到的格式文件,不过假如你分享了一份caj格式的文档给别人,如果他们的电脑上没有安装对应的浏览器,则无法打开、阅读文件哦。鉴…

python人脸识别门禁_用Python做人脸识别

之前用facenet做了一个人脸识别的Demo,所以在此记录一下。但因为我的水平十分有限,疏漏之处请多见谅。1,这个流程大致是先用mtcnn检测人脸位置,得到一个人脸的bounding box。2,然后用opencv根据上一个bounding box把人脸裁剪出来&…

微信电脑客户端登陆_电脑端的微信只能开一个?简单操作就能随意开

微信已经成为工作和生活的必备交流工具,每个人几乎都拥有微信号,而且有些人还会注册两个或多个,用以区分工作和私人。但同时登陆多个账号却成为了难题,现在手机上多开已经很方便,而在电脑上默认只能登录一个&#xff0…

win10下装黑苹果双系统_win10远程双系统重装电脑维修7黑苹果笔记本安装做虚拟机服务mac8...

时间很宝贵,如果您的网速满足需求,我们装机时间不超过30分钟哦联系我们专业/靠谱/安全/快捷专业电脑医生优秀团队只服务为您!组装品牌电脑电脑游戏电脑卡顿中毒故障系统电脑虚拟/电脑多开/开机硬件不成功不收费!统统我来解决聚集于电脑各种症状专业远程在线电脑修复电脑问题分分…

结构体内元素不确定_氮长叶,磷长果,那么生物菌肥能长啥?看完终于不纠结了...

农民朋友们都知道,“庄稼一枝花,全靠肥当家”,肥料对于作物产量的高低起着决定性因素。蔬菜的产量、品质、病虫害、早衰、死亡、落花、落果、干尖干叶等都与肥料有着密切的关系。如今市面上肥料种类五花八门,有氮磷钾肥、中微量元…

openssl 添加自定义算法_GitHub:用PyTorch实现17种深度强化学习算法

【新智元导读】深度强化学习已经在许多领域取得了瞩目的成就,并且仍是各大领域受热捧的方向之一。本文推荐一个用 PyTorch 实现了 17 种深度强化学习算法的教程和代码库,帮助大家在实践中理解深度 RL 算法。深度强化学习已经在许多领域取得了瞩目的成就&…

sync是同步还是非同步_音视频是怎么保持同步的?(四)

今天我们来继续讲音视频是怎么保持同步的。常用同步策略前面已经说了,实现音视频同步,在播放时,需要进行选定一个重要参考时钟,读取帧上的时间戳,同时企业根据的参考时钟来动态管理调节播放。它是目前已知的是&#xf…

电脑下面的任务栏怎么取消隐藏_电脑工具栏怎么调到下面

任务栏的隐藏与显示很简单,有时我们在需要时可以灵活的将其隐藏,还原,下面为大家介绍一下电脑工具栏怎么调到下面的方法。电脑工具栏怎么调到下面一、直接使用鼠标拖拽的方式移动“任务栏”用鼠标左键按住任务栏的空白区域不放,拖…

excel怎么启用宏_IT技巧分享51: 解决打开Excel文件提示发现不可读取的内容

在使用过程中难免会碰到一些棘手的问题,比如:Excel打不开,提示为不可读取内容,当遇到这些问题我们改怎么处理呢?经百度一下发现主要原因是因为引用了外部文档数据、指向了外部文档中的宏等等。造成故障的原因&#xff…

JQ 全选后获取选中的值_JQ完全学习版本

获得input标签中name属性名字包含a 的标签对象书写。Function(“input[name * a]”)$("input:disabled")这个选择器的作用Input下隐藏的对象$(":input")和$("input");这两个选择器的区别前者是表单的内容,后者是所有input标签获得一个…

audio h5 src 变了之后_我在叩丁狼学H5

#我在叩丁狼学H5#最近接触到了一些前端框架,像Vue.js,React,发现小程序的框架体系跟它们很像。它们都推崇模块化,组件化,数据与元素绑定。这样没有繁琐的DOM操作,组件之间完全分离,样式和逻辑全…

linux nacos启动_Nacos集群安装配置

上篇文章讲到Nacos从v1.3.2开始,windows系统启动脚本默认改成了集群模式(也就是不带参数"-m standalone"),那么如果双击startup.cmd启动就会失败。这篇文章我们就来讲讲Nacos集群安装。需要安装MySQL安装MySql这里就不讲了,大家找度…

西门子plm_西门子的Teamcenter、TIA Portal、NX MCD是如何结合在一起的

写在面前大家好,我是小智,智能制造之家号主~我一直PLM、MESMOM、SCADA、PLC等提倡融合(理念不一定对哈,大家理性看待,不必喷我),希望每个领域的朋友,在自己努力之余,抬头看看窗外的世界&#xf…