如何快速搭建云原生企业级数据湖架构及实践分享

简介: 众所周知,数据湖技术在大数据领域炙手可热,随着在云上的广泛部署和应用,其业务价值逐渐获得业界共识。如何快搭建数据湖架构被越来越多的企业探讨。本文主要分享快速搭建云原生企业级数据湖架构及实践分享。

王震,阿里云计算平台事业部 开源大数据平台 技术专家

本文根据王震在 2021开源大数据技术线上Meetup#0821 分享整理

直播回放链接:https://developer.aliyun.com/live/247227

内容框架:

  • 背景介绍
  • 如何使用 DLF数据湖
  • 实操演示

一、背景介绍

什么是数据湖  

数据湖:以一定规则形式存储各种类型的数据

  • 结构化数据( Orc 、Parquet )
  • 半结构化数据 ( Json 、Xml )
  • 非结构化数据(图像 、视频)

为什么需要数据湖    

1、数据规模进一步扩大

  • 大数据存储需要治理
  • 数据治理需要厘清数据依赖关系(血缘)
  • 用户需要明确大数据整体成本(TCO)

2、数据来源多样化

  • 事务数据(MySQL, SqlServer)
  • 搜索数据 (SOLR)
  • 批处理数据 (SPARK, HIVE)

3、数据格式多样化

  • Parquet / Orc / Avro / Csv / Json / Text

4、数据分析场景多样化

  • 基于语义的搜索分析
  • 随机/近实时 OLAP 分析

5、数据分析用户多元化

  • 分析用户角色多元化 (开发/测试/数据/BI)
  • 用户数据访问合规管控诉求

数据湖能做什么

1、针对数据规模进一步扩大

  • 数据湖提供 【数据血缘】服务
  • 数据湖提供 【数据治理】服务
  • 数据湖帮助用户明确大数据的整体成本

2、针对数据来源多样化

  • DLF 提供【统一元数据】服务

• 解决多引擎元数据一致性问题

• 解决元数据使用和维护成本问题

3、针对数据格式多样化

  • DLF 提供【数据入湖/元数据爬取】服务

• 支持 MYSQL/KAFKA 入湖,元数据爬取

• 支持离线/实时入湖, 满足不同业务时效要求

• 支持 DELTA/HUDI 等数据湖格式

4、针对数据分析场景多样化

  • DLF 提供【统一元数据服务】

• 可以切换不同引擎 MC/EMR/DDI

• 数据探索在不同引擎之间一致

5、针对数据分析用户多元化

  • 数据湖提供【访问权限控制】服务

• 多引擎下的数据访问集中授权/避免反复授权

• 解决多用户数据访问合规问题

  • 数据湖提供【访问日志审计】服务

• 解决用用户数据访问合规审查问题

image.png

二、如何使用 DLF 数据湖

数据入湖

1、大量异构外部数据源【数据入湖】服务

  • 全量导入 : 批量入湖一次导入
  • 增量导入 : 实时入湖流失增量导入

image.png

2、大量现存Hadoop生态数据 【元数据爬取】服务

  • 将数据导入数据湖OSS进行存储
  • 元数据爬取 提取原有数据schema

image.png

数据查询

数据湖【统一元数据】服务支持多种引擎查询

  • 使用数据探索(SPARK)对入湖数据进行探查
  • 使用MAXCOMPUTE对数据进行深度复杂加工
  • 使用Databricks DDI专用集群对数据进行探索
  • 更多引擎支持中…

image.png

数据治理

一、使用【权限访问控制】服务控制数据访问

  • 进行 库/表/列 级别的访问权限设置
  • 统一的元数据,只需要设置一次

二、使用【数据治理】服务明确大数据总成本

  • 日/周/月 级别的存储使用情况 – 及时释放过时的大存储文件
  • 日/周/月 级别的计算使用情况 – 及时识别数据上的异常计算

三、实操演示

数据湖构建 DLF 体验链接:https://dlf.console.aliyun.com/

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/512586.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

设置android应用闪屏图片_Android实现启动页面(闪屏页面)

不难发现,我们手机上的很多app都有启动页面,例如打开简书App在显示主页文章前会有一个启动页面,如下所示:简书启动页面随后是一个广告页面,最后才进入到主页去。那么我们自己怎么实现这个效果呢?下面开始讲…

5分钟搞定AlertManager接入短信、语音等10+种通知渠道

简介: Alert Manager是开源监控系统Prometheus中用于处理告警信息的服务,通过将日志服务开放告警配置为Alert Manager中的一个Receiver,可以将Alert Manager产生的告警消息发送到日志服务。 SLS告警管理 AlertManager作为Prometheus生态系统…

c语言编程输出数组元素之和,C语言 输出一个数组中,所有元素之和为0的子序列...

本程序用到了一个时间种子,来随机产生10个整数[-5~5],函数是randData( )。还有一个计算子序列为0的函数ZeroSubarray( )。randData( )如下:int arr[10];void randData(int a[], int start, int end){srand(time(NULL));for (int i start; i …

小米百万美金大奖花落机器狗团队,5 年千亿重砸研发鼓励创新

1月4日,第三届小米百万美金技术大奖公布,CyberDog铁蛋四足仿生机器人在 68个参评项目中脱颖而出,一举获得最高奖。值得一提的是,该团队拥有两名 2020 年应届毕业生成员。 小米集团创始人、董事长兼CEO雷军在微博高兴地说道&#x…

日志审计携手DDoS防护助力云上安全

简介: 本文主要介绍日志审计结合DDoS防护保障云上业务安全的新实践。 日志审计携手DDoS防护助力云上安全 1 背景介绍 设想一下,此时你正在高速公路上开车去上班,路上还有其他汽车,总体而言,大家都按照清晰的合法速度…

linux推出超级用户_linux添加root权限用户

方法一:1.添加普通用户并设置密码[rootcentos6 ~]# useradd ggg[rootcentos6 ~]# passwd gggChanging password for user ggg.Newpassword:BADPASSWORD: it is WAY too shortPASSWORD: is a palindromeRetype new password:passwd: all authentication tokens updat…

日期天数转换c语言程序,C语言 ---计算连个日期之间的天数转换

/* 返回绝对值 */int abs(int a,int b){if(a>b)return (a-b);elsereturn (b-a);}/* 判断是否为闰年:是,返回 1 ; 不是, 返回 0 . */int IsLeap(int year){if(((year%40)&&(year%100!0))||year%4000)return 1;elsereturn 0;}/* 判断某个日期从年初(y年1月1日)到该天(…

MySQL 深潜 - 一文详解 MySQL Data Dictionary

简介: 在 MySQL 8.0 之前,Server 层和存储引擎(比如 InnoDB)会各自保留一份元数据(schema name, table definition 等),不仅在信息存储上有着重复冗余,而且可能存在两者之间存储的元…

中国加速计算市场第二名,宁畅正领跑“智能算力定制”赛道

构建“元宇宙”最缺什么?对此,服务器新一线厂商宁畅给出的答案是“定制化算力”。 2022年1月6日,在“创立两周年媒体会”上宁畅透露,伴随IT头部企业进入“元宇宙”赛道,以及宁畅“智定”战略推进,2021年宁…

filter动态参数 maven_使用Profile和Resources Filter隔离测试环境

Maven能够帮我们很好的管理测试,我们可以在src/test/java和 src/test/resources下面使用JUnit或者TestNG 编写单元测试和集成测试,然后在命令行运行 mvn test,测试就会自动运行,同时产生详细的测试报告。对只有一两个人的项目来说…

CPU Burst有副作用吗?让数学来回答!| 龙蜥技术

简介: 使用CPU Burst的副作用是什么?是否有不适用的场景呢?戳我给你答案~ 编者按:CPU Burst 特性已合入 Linux 5.14,Anolis OS 8.2、Alibaba Cloud Linux2、Alibaba Cloud Linux3也都支持CPU Burst特性。 在系列文章的…

c语言动态规划公共字符串,最长公共子串 C语言 动态规划

给定两个字符串 text1 和 text2,返回这两个字符串的最长公共子序列。一个字符串的 子序列是指这样一个新的字符串:它是由原字符串在不改变字符的相对顺序的情况下删除某些字符(也可以不删除任何字符)后组成的新字符串。 例如,“ace”是 “abc…

用了 HTTPS,没想到还是被监控了!

作者 | 轩辕之风来源 | 编程技术宇宙大家好,我是轩辕。上周,微信里有个小伙伴儿给我发来了消息:随后,我让他截了一个完整的图,我一瞅,是HTTPS啊!没用HTTP!再一瞅,是www.b…

AI让边缘更智能 边缘让AI无处不在

简介: 城市管理和城市服务逐步走向智能化,智慧化。到2019底,全国100%的副省级城市,95%以上的地级市,以及50%以上的县级市均提出建设新型智慧城市,并已经有32个主要城市成立了专门的大数据管理机构&#xff…

wepy组件子父传值_【WePY小程序框架实战三】-组件传值

父子组件传值静态传值静态传值为父组件向子组件传递常量数据,因此只能传递String字符串类型。父组件 (parent.wpy)子组件(child.wpy){{name}}props{name:String}onLoad(){console.log(this.name);//leinov}动态传值sync修饰符来达到父组件数据绑定至子组件的效果也可…

开源自建/托管与商业化自研 Trace,如何选择?

简介: 随着微服务架构的兴起,服务端的调用依赖愈加复杂,为了快速定位异常组件与性能瓶颈,接入分布式链路追踪 Trace 已经成为 IT 运维领域的共识。但是,开源自建、开源托管或商业化自研 Trace 产品之间到底有哪些差异&…

python 覆盖list_【Python妙招】gt;gt;gt;看腻了能不能换成别的啊……当然可以啦:)...

原文作者:站在两个世界边缘 & 小象编辑:VL今天给大家介绍几个Python里(可能没那么广为人知的)小知识,希望能给大家带来帮助,让编程更有乐趣。1.如何修改解释器提示符正常情况下,我们在终端下执行Python 命令是这样…

阿里云IoT Studio升级版新增解决方案引擎 大幅提升方案交付效率

简介: 8月25日,阿里云发布IoT Studio升级版,新增了解决方案引擎,让设备方案商复用之前搭建的解决方案模板进行简单的定制化修改,即可交付。使整个物联网解决方案的交付过程由几个月,缩短到几小时&#xff0…

如何用 Nacos 构建服务网格生态

简介: Nacos 在阿里巴巴起源于 2008 年五彩石项目(该项目完成微服务拆分和业务中台建设),成长于十年的阿里双十一峰值考验,这一阶段主要帮助业务解决微服务的扩展性和高可用问题,解决了百万实例扩展性问题&…

华为oj题目c语言,华为OJ机试题目——24点游戏算法

对于这种题用程序实现只能是穷举的思想,而做法各异,如下代码是利用符号的不断变化,利用4个数计算值,默认是4个数字a,b,c,d是按顺序计算的,即默认是加了括号的,即(((a op1 b)op2 c)op3 d)。而4个数字要组合顺…