浅谈基于中台模式的大数据生态体系的理解

这篇文章主要浅谈一下我对大数据生态体系建设的理解。
大数据生态系统为高并发,高吞吐,高峰值,高堆积等大规模数据的采集,处理,计算,存储,服务提供了完善的处理体系,致力于打造核心数据中台建设,实现整个生态的高可扩展和高弹性,对数据熵的聚变提供基础数据处理支撑,贯穿整个阿里大数据生态体系和应用场景,对外暴露数据应用层采用适配原则可以和各类集团内应用提供统一的访问和回调接口,对于接受到的数据处理和计算请求会交给数据服务层进行数据清洗,转换和预处理,然后会把数据交由数据计算层来进行数据分拣,计算,提炼出最有价值的数据来实现业务场景最佳适配,数据计算层主要采用流批一体的处理思想,结合各类离线和实时计算平台等自研发的大数据和云计算处理服务来实现大规模高精准的数据计算,挖掘出最有价值的数据,提炼数据价值,同时集成了数据整合和管理体系和工具来进行最终的数据萃取。数据采集层则主要负责增全一体从各类关系型/非关系型数据库,大数据存储引擎,中间件容器中借助各类自研发日志采集服务实现实时/离线采集日志/增全量数据,使用drc等实时数据流基础设施实现数据同步,结合动态表,流表对偶性等实时计算核心概念实现流表数据同步和转换,支持各类数据溯源。数据采集层和数据计算层通过各类自研发消息中间件/数据传输中间件实现数据同步,同时对于数据计算层引入了数据仓库和模型的概念,采集到的数据经过提炼和萃取后会保留有意义的数据到各类数据仓库中,并基于元数据存储引擎对数据进行建模,对外统一暴露调度运行态的数据模型进行业务处理,内部封装了所有的大数据采集,计算和存储服务。
实时计算平台也叫做开放流计算服务,核心API是AntPL SQL,弃用了DataStreamAPI,原因是SQL具有很多特性,比如声明式,自动调优,易于理解,扩展性强,运行稳定,流批一体。比如很多人知道的Apache Flink就是一个面相集团的开放流计算服务,它的底层runtime就是一个统一了流和批的底层处理引擎,而SQL恰好可以在API层面实现流和批的统一。Flink最大的特点就是流批一体的高性能,高效率,面向大数据的实时数据计算引擎,可以随着时间变化和数据变化不断更新结果,始终处于运行状态,对于运行期数据源数据的增量变更会采取增量监听,抓取和实时计算的方式生成新的动态表流,新的动态表流又会作为下一个连续查询的输入源继续参与计算,以此类推,最终会形成一个完整的数据流。在实时计算中,动态表可以理解为随着时间变化不断更新的表,流可以理解为是一个具有输入输出的数据通道,流和动态表是可以通过changelog进行相互转换的,那么我们就把这种特性叫做流表的对偶性,因为我们传统sql都是批处理,是不支持流处理的,无论是概念上还是语法上,都不方便,无法在批流之间建立映射关系,因此如果我们要定义流sql就需要结合Flink SQL的核心概念连续查询来实现,Flink SQL流批一体可以通过一套SQL定义同时实现批流处理,并且对接了绝大多数数据源进行输入输出,比如各类RDB Cluster,Random,AntQ,MetaQ,DataHub,TimeTunnel,TDDL,SLS,DRC,融合队列,HBase,Exploer,ODPS等等,连续查询往上走,还可以上升到维度的概念啊,分层的概念啊,数据分层,多流关联,维表关系等等,再此先不再深入讨论流式SQL的衍变。
Flink SQL核心功能莫过于DataHub,MetaQ(RocketMQ),OTS进行数据分层和流表,维表关联读写,往深点说,还有很多高级特性,比如双流JOIN,维表JOIN,TopN,窗口计算和水位,多路输入输出,MiniBatch,Retraction等机制实现early-fire,支持各类语言的数据计算任务研发,质量管理,整合,运维保障,已经实现了跨语言,跨数据源,跨地域的实时计算开发和管理。兼容T-SQL,PL/SQL,Java,C++,Python,Spark-Jar,Golang等等,内置各类大数据处理引擎如Spark,ODPS,Kepler,Flink,结合大数据存储引擎HBase,Explorer,ODPS,RDS Cluster等等实现数据从数据采集,数据处理,数据计算,数据服务,数据应用的全产业链高效稳定发展,必将为DT时代大数据发展注入更多技术支持,能够兼容更多的大数据业务场景,因此数据中台建设是所有基础设施建设中非常重要的一环。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/683395.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

springboot190基于springboot框架的工作流程管理系统的设计与实现

简介 【毕设源码推荐 javaweb 项目】基于springbootvue 的 适用于计算机类毕业设计,课程设计参考与学习用途。仅供学习参考, 不得用于商业或者非法用途,否则,一切后果请用户自负。 看运行截图看 第五章 第四章 获取资料方式 **项…

机器学习12-基本感知器

感知器(Perceptron)是一种最简单的人工神经网络结构,由美国心理学家Frank Rosenblatt在1957年提出。它是一种单层的前馈神经网络,通常用于二分类问题。 基本感知器由多个输入节点、一个输出节点和一组权重参数组成。每个输入节点都与输出节点连接,并且具有一个对应的权重参…

力扣36.有效的数独

请你判断一个 9 x 9 的数独是否有效。只需要 根据以下规则 ,验证已经填入的数字是否有效即可。 数字 1-9 在每一行只能出现一次。数字 1-9 在每一列只能出现一次。数字 1-9 在每一个以粗实线分隔的 3x3 宫内只能出现一次。(请参考示例图) 注…

VSCode无法连接远程服务器的两种解决方法

文章目录 VSCode Terminal 报错解决方式1解决方式2you are connected to an OS version that is unsupported by Visual Studio Code解决方法 VSCode Terminal 报错 直接在terminal或cmd中使用ssh命令可以连接服务器,但是在vscode中存在报错,最后一行为…

kali无线渗透之WEP加密模式与破解13

WEP加密是最早在无线加密中使用的技术,新的升级程序在设置上和以前的有点不同,功能当然也比之前丰富一些。但是随着时间的推移,人们发现了WEP标准的许多漏洞。随着计算能力的提高,利用难度也越来越低。尽管WEP加密方式存在许多漏洞…

【C++】const、static关键字和构造函数初始化

💗个人主页💗 ⭐个人专栏——C学习⭐ 💫点击关注🤩一起学习C语言💯💫 目录 1. const修饰成员函数 1.1 语法格式 1.2 权限放大缩小 1.3 思考 1.4 解答 2. 再谈构造函数 2.1 构造函数体赋值 2.2 初始…

书生浦语大模型实战营-课程笔记(1)

模型应用过程,大致还是了解的。和之前实习做CV项目的时候比起来,多了智能体这个环节。智能体是个啥? 类似上张图,智能体不太清楚。感觉是偏应用而不是模型的东西? 数据集类型很多,有文本/图片/视频。所以…

代码随想录算法训练营Day32 | 122.买卖股票的最佳时机 II、55.跳跃游戏、45.跳跃游戏 II

122.买卖股票的最佳时机 II 这题感觉还是偏简单的,主要是要理解一点:本题中股票能当天买入当天卖出且能得知明天的股票价格 这个设定省去了很多麻烦,每天先无脑买入即可,如果第二天价格更高就第二天卖出,如果第二天价…

IDEA玩转Git

GIT 基本概念 本地版本控制 git add git commit git checkout Git - Reference 向日葵下载地址:向日葵远程控制app官方下载 - 贝锐向日葵官网 远程库

【Java】笔记:JDBC中Statement常用的几个执行函数

1.executeQuery(String sql): ResultSet 用于执行查询语句(SELECT),返回一个 ResultSet 对象,该对象包含了查询结果的数据。可以通过 ResultSet 提供的方法来获取查询结果。 //声明statement Statement statement connection.c…

神要封,仙要修

(1)人间之战 我记得,那一年,西方的胡夫正要开始修建他的死后极乐世界:金字塔。 那一年,东方也爆发了一场人间大战。 很久很久以前,一支来自乌拉尔山脉南麓脚下的游牧部落,骑着马赶着…

ATCoder Beginner Contest 340 A~G

A.Arithmetic Progression&#xff08;模拟&#xff09; 题意&#xff1a; 输出首项为 a a a&#xff0c;末项为 b b b&#xff0c;公差为 d d d的等差数列。 分析&#xff1a; 按照要求模拟。 代码&#xff1a; #include <bits/stdc.h>using namespace std;int ma…

书城项目历程记录2|最后阶段记录

2024年1月31日 p270-276 1.免用户名登录和注销&#xff08;知识点cookie和session&#xff09; 在学习了cookie和session之后&#xff0c;实现了免用户名登录和注销操作。 免用户名就是在本次session登录成功之后&#xff0c;对session进行setAttribute操作&#xff0c;jsp文…

【C++】模板(超详细!!!!!!)

文章目录 前言1. 泛型编程2. 函数模板2.1 函数模板概念2.2 函数模板格式2.3 函数模板的原理2.4 函数模板的实例化2.5 模板参数的匹配原则2.6 声明和定义分离 3. 类模板3.1 类模板的定义格式3.2 类模板的实例化 4. 模板分离编译4.1 什么是分离编译4.2 模板的分离编译 总结 前言 …

记录一下最近遇到的几个二叉树的题型(附好用的遍历模板)

107. 二叉树的层序遍历 II 102. 二叉树的层序遍历 987. 二叉树的垂序遍历 以上三题可共用一个模板&#xff08;dfs记录数的col和row)&#xff0c;不同之处就是使用哈希表的时候调整一下key和value&#xff1a; # Definition for a binary tree node. # class TreeNode: # …

【Linux笔记】进程间通信之管道

一、匿名管道 我们在之前学习进程的时候就知道了一个概念&#xff0c;就是进程间是互相独立的&#xff0c;所以就算是两个进程是父子关系&#xff0c;其中一个进程退出了也不会影响另一个进程。 也因为进程间是互相独立的&#xff0c;所以两个进程间就不能直接的传递信息或者…

网络安全威胁,如何解决缓冲区溢出攻击

目录 一、什么是网络安全 二、什么是缓冲区 三、缓冲区溢出 四、缓冲区溢出攻击的类型 一、什么是网络安全 网络安全&#xff08;Network Security&#xff09;指的是保护计算机网络及其相关设备、系统和数据免受未经授权访问、破坏、篡改、窃取或滥用的威胁和攻击。随着网…

【doghead】VS2022 win11 安装配置WSL2 以编译linux端的cmake项目并运行1

Visual Studio 2022 在Windows上编译调试WSL2 CMake Linux工程 好像是我自己的vs2022的一个插件支持rust https://github.com/kitamstudios/rust-analyzer.vs/blob/master/PREREQUISITES.md Latest rustup (Rust Toolchain Installer). Install from here. Welcome to Rust!Th…

ElasticSearch分词器和相关性详解

目录 ES分词器详解 基本概念 分词发生时期 分词器的组成 切词器&#xff1a;Tokenizer 词项过滤器&#xff1a;Token Filter 停用词 同义词 字符过滤器&#xff1a;Character Filter HTML 标签过滤器&#xff1a;HTML Strip Character Filter 字符映射过滤器&#x…

『 C++ - STL 』位图(BitMap)与布隆过滤器(Bloom Filter)

文章目录 &#x1f9f8; 位图(BitMap)概念&#x1f9f8; 位图的实现&#x1fa85; 总体框架&#x1fa85; 位图的数据插入&#x1f9e9; 左移操作与右移操作的区别 &#x1fa85; 位图的数据删除&#x1fa85; 位图的数据查找&#x1fa85; 位图整体代码(供参考) &#x1f9f8;…