企业级数据湖实践

简介:2021云栖大会云原生企业级数据湖专场,阿里云智能高级解决方案架构师周皓为我们带来《企业级数据湖最佳实践》的分享。

image.png

本文主要分享了数据湖的核心能力及几个最佳实践案例。

以下是精彩视频内容整理

一、统一数据存储,多引擎对接,运存分离

在这一节开始之前,先回顾一下数据湖几个核心的能力:

  • 集中存储、多种引擎对接

各种类型的数据用集中方式统一存储在OSS,无缝对接如 EMR 等各类计算引擎,支持开源计算生态

  • 数据无需处理、直接存储

对接多种数据输入源,提供便捷的数据接入和数据消费通道,多种类型数据都可以按照原始产生的形态直接存储,随需再进行处理,对比传统数仓 schema 限制结构,更适配业务快速发展的应用场景

  • 更灵活架构、运存分离

存算分离架构带来非常好的灵活性,通过计算与存储解耦合提供更灵活的系统架构设计空间,让计算、存储资源具备更好的扩展性,充分提高资源利用率,极大降低运维管理难度、优化 TCO。这也是本文介绍案例中,客户选择数据湖方案的一个重要原因。

image.png

二、最佳实践案例

Yeahmobi- 移动互联网广告实践案例

Yeahmobi,作为一家技术驱动发展的企业国际化智能营销服务公司,主要涉及到的就是智能营销业务,每天的业务波动非常大。如果采用传统的架构,势必要按照业务的峰值准备资源,就会造成很多 CPU 资源无法得到最大化的利用。这也是许多智能营销互联网公司的痛点。基于此,大多企业选择了数据湖方案。

  • 存储与计算解耦合,让计算资源使用量可以按照线上业务量的变化动态增减,减少常驻资源量
  • 多种不同类型计算引擎,轻松对接在线广告各种场景所需要的分析要求
  • 通过数据湖方案,整体TCO优化达到30%,让业务形态更具竞争力

只要将数据存储在数据湖中,计算资源可以按照业务的变化实现动态的伸缩与创建,只需维护一个最小的常驻计算资源就足够了。在这种情况下,再结合兼具半托管和全托管模式的 EMR 动态伸缩计算及分析的能力,可以极大地降低运维的难度。这也是许多智能营销公司选择这套数据湖方案的原因。Yeahmobi 选择这套数据湖方案后,TCO 降低了30%。

image.png

数禾科技-互联网金融实践案例

数禾科技是一家互联网金融科技公司,因其所在行业的特性及本身的业务场景需求,对数据的安全可靠性,以及数据访问控制的细粒度都有很高的要求。数禾服务了大量内部和外部用户,数据安全敏感,要求严格的数据权限隔离。其次,整个业务变化也需要非常强劲的吞吐能力来支撑计算及存储。

其实在数禾的发展过程中,最早采用的是最常见最通用的大数据集群构建方式既通过服务器搭建,然而很快就发现这种方式无法跟上业务的快速发展:一是存储成本显著增长,一个标准的 HDFS 集群是三个冗余备份,在考虑到水位,整个文件系统的开销等因素后,存储成本是显著增加的。二是因为业务的快速扩容, 如果频繁增加 HDFS 集群节点,会影响业务的可用性。

基于以上原因,数禾选择了阿里云数据湖方案。数据湖采用 对象存储 OSS 作为底座,无需担心容量的扩展或是小文件的增加。文件数量的快速增加会对 HDFS 集群的 NameNode 造成比较大的压力,但是对象存储结构无需担心文件数量增加,哪怕是到万亿级的 object 的数量,也没有任何压力。采用了数据湖方式以后,多 bucket 切分搭配阿里云的 RAM 体系,可以做到非常细腻度的访问控制。再通过例如 OSS 与 EMR 在软件层合作优化的 JindoFS 方案,能够输出超过 TBS 的吞吐能力,以支撑整个业务的需求,实际操作体验超越自建HDFS。此外,通过云上弹性资源能力,任务可以随需进行千台规模节点的弹性伸缩,达到降本增效的效果。

image.png

数据湖经典使用场景-冷热数据分层

模式特点

  • 应用与业务系统的长期运行积累了大量的冷数据,不断增长的冷数据对现有集群的存储空间压力大
  • 需要解决冷数据存储空间,同时为访问频繁的热数据留出性能优化空间
  • 优化冷数据的长期存储成本,要能远低于热数据存储成本,并且冷数据要能便于读取

冷热数据分层是数据湖的一个经典使用方式。应用与业务系统的长期运行会产生大量冷数据,对整个集群的运维产生非常大的压力。一方面是规模上的压力,通用的大数据集群里面的服务器架构比较同构导致冷数据的优化的空间不大,如果通过增加高密度的或者异购的机型,在实践中会导致集群运维管理难度的大幅度提升。另外一方面是在 IDC 环境中,要想快速扩容,物理集群会受限于很多因素。这也是很多数据湖客户从传统的大数据集群架构往数据湖迁移的原因。目前已经有很多客户拥抱了数据湖,全面使用 OSS。无法一步到位的时候,客户会先将温数据和冷数据先沉降到 OSS。早在2016年,OSS 就已经与 Hadoop 生态充分融合,Hadoop 3.0可以直接访问 OSS,写好的任务不用做任何修改就可以直接运行,大幅减少了迁移的难度。迁移过来之后,OSS 上的智能生命周期管理简单地配置一个生命周期策略,就可以按照规则把冷数据进一步沉降到归档和冷归档类型中,进一步降低成本。

image.png

教育科技平台实践案例

客户价值

  • 通过 OSS 多存储类型和数据生命周期管理,实现冷数据长期存储的成本优化,通过云上承载冷数据,IDC 自建集群无需扩容,解决机房空间难题
  • 通过 OSS 数据湖的高可扩展性,有效的帮助客户解决了大数据存储的性能吞吐问题,规避了自建 HDFS 文件系统在元数据节点的性能瓶颈
  • 客户已经在规划进一步通过云上弹性资源去扩容计算资源,减小一次性资源投入

这是一个冷热分层的实际案例。教育平台涉及到的业务场景包含各种日志的采集,通过使用的日志帮助学生改进学习。这个客户也面临一个问题,大量日志采集以后对于空间占用会造成非常大的压力。客户又是自建 IDC,很难在一段时间内就完成物理空间的扩容,所以最后选择了数据湖方案。通过专线打通了 IDC 和阿里云的连接,使用阿里云的资源扩容现有 IDC ,再通过专线将线下的冷数据迁移到了数据湖中,为线下的业务腾出了空间,压力释放以后,空间就非常灵活了。然后进一步将很多应用日志直接入湖,通过对象存储及多版本能力,为数据可靠性提供更多的保障,同时也使用了冷归档能力将温数据进一步沉降以降低成本。入湖的数据则通过专线拉到本地计算,但是在数据湖的使用过程中,客户想进一步使用云上的计算资源以扩容计算能力,就无需一次性采购线下的计算服务器,进一步降低成本。

image.png

全球化在线游戏实践案例

客户价值

  • 通过日志服务,打通应用日志的采集、投递,贯通实时计算引擎,为后续的用户热力图 ,用户轨迹,用户登陆,在线人数统计提供数据支撑
  • 通过 OSS 数据湖承载所有日志数据的长期存储,与离线分析引擎结合,能够更深入对日志数据进行分析
  • 全球统一化架构部署,对于一款面向全球化的游戏,可以保证在全球任何一个区域都可以使用相同的部署方式,简化运维部署难度

一款全球化的游戏一般要服务全球玩家,这就要求全球统一化架构部署以降低运维难度,而阿里云数据湖在全球任何一个区域都可以使用相同的部署方式,可以完全匹配客户的需求。此外,游戏行业日志的采集非常关键,比如游戏在线人数的大屏展示,就是通过采集应用服务器的日志去做分析。针对这个客户,我们采用了阿里云的日志服务,从千台万台机器规模的应用服务器中实时采集日志,推送到 Flink 中做实时计算,并将结果实时写入到 ClickHouse,提供实时性的查询。OSS 在这个场景中,作为了日志的的永久存储。SLS 把采集的日志定期投递到 OSS ,并且通过 OSS SDK 和一些命令行工具,直接将一些应用日志传到 OSS ,存储到 OSS 的日志可以进一步通过离线分析,如通过 Spark、Hive 做更大规模的分析,并将深度分析的结果再写入到 ClickHouse,提供更多的分析查询。

image.png

小鹏汽车-自动驾驶实践案例

数据湖与各种存储产品之间是无缝打通的。在这个自动驾驶案例中,我们提供了一套完整的从采集到存储到分析的方案。闪电立方提供了车载的部署能力,解决了自动驾驶场景下每天采集的大量路面数据的存储问题,采集完以后通过就近的接入点快速地存储到 OSS 数据湖中去,解决了最后一公里的问题,把数据上传到 OSS 以后,可以直接使用阿里云的各项计算引擎,包括 EMR、MaxCompute 等对数据进行各种各样的清洗标注和分析。CPFS 是阿里云上的一款支持大规模并行计算的存储产品,它有非常高的吞吐能力,并且是 posix 语义的。OSS 数据湖与 CPFS 无缝的数据流动,使得训练数据也能传递到 CPFS中,对数据 GPU 进行分析,并将最终的结果写回到 OSS 做长期的存储。

image.png

不光在互联网领域,包括自动驾驶、高性能计算等都已经广泛的应用数据湖。希望有更多的用户可以在生产业务中引入阿里云数据湖。

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/511988.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

浅述 Docker 的容器编排

作者 | 天元浪子来源 | CSDN博客概述作为容器引擎,Docker为容器化的应用程序提供了开放标准,使得开发者可以用管理应用程序的方式来管理基础架构,实现快速交付、测试和部署代码。随着容器的大量使用,又产生了如何协调、调度和管理…

Cloudera CDP 企业数据云测试开通指导

简介: 基于阿里云部署的 Cloudera CDP 企业数据云平台已经进入公测阶段,本文详细介绍了相关试用/试用流程。 基于阿里云部署的 Cloudera CDP 企业数据云平台已经进入公测阶段,如对该平台感兴趣,可以使用下面的流程进行试用。 如需…

重装linux之后gcc等下载不了,Redhat linux下安装gcc

一、安装步骤1、使用whichgcc命令发现gcc没有安装2、拷贝gcc-3.2.2-5.i386.rpm 尝试安装说明在这之前还需要先装binutils、cpp、glibc-devel这三个包3、拷贝binutils-2.13.90.0.18-9.i386.rpmcpp-3.2.2-5.i386.rpmglibc-devel-2.3.2-11.9.i386.rpm 到install目录分别安装rpm -i…

解决 Serverless 落地困难的关键,是给开发者足够的“安全感”

简介:越来越多的云产品都会向全托管、Serverless 形态演进。当云的产品体系 Serverless 化达到一个临界值,通过函数计算这样的 Serverless 计算服务结合其他 Serverless 形态的云服务,能够完整的实现整个应用时,Serverless 就会变…

如何通过任务调度实现百万规则报警

简介:报警是一个公司的日常需求,常见的形态除了满足运维过程中的基础设施监控报警(CPU/内存/磁盘等)之外,部分公司也会在应用指标(如 QPS、RT 等)及业务指标(如 GMV/日活 等&#xf…

linux无法关机 grub2,Ubuntu关机卡住无法关机如何解决?

电脑无法关机是最让人头疼的事,在Ubuntu系统中,有时会遇到关机卡住的情况,导致关不了机,遇到这种情况千万不要强制关机,下面小编就教你如何解决这个问题。解决方案:在终端用sudo vi打开/boot/grub/grub.cfg…

不用跑项目,组件效果所见即所得,绝了!

作者 | 零一来源 | 前端印象大家好,看到一个好东西,忍不住来分享一下。我们在写需求时都会封装一些组件,然后会为该组件定义一些 props ,使其跟业务分离,变得更通用。写完组件后需要验证一下组件的效果,也就…

Kubernetes 已经成为云原生时代的安卓,这就够了吗?

简介:本文将介绍如何在 Kubernetes 上构建新的应用管理平台,提供一层抽象以封装底层逻辑,只呈现用户关心的接口,使用户可以只关注自己的业务逻辑,管理应用更快更安全。 作者:司徒放 导语:云原生…

我们如何实现“业务 100% 云原生化,让阿里中间件全面升级到公共云架构”?

简介:在今年的天猫双 11 中,中间件支撑了 5403 亿的交易量,并全面升级到了公共云架构。 此次的架构升级,是以开源为内核、以公共云为基础、以 OpenAPI 进行解偶扩展,在架构上,对开源、自研、商业化进行统一…

两台电脑usb直连 linux,两台电脑怎么传文件没有网线(两台电脑usb直连)

对于两台电脑的数据传输而言,当下可通过各类社交(QQ,陌陌、微信.....)、传输(飞鸽传书、360快传......)软件都可以实现但由于各类软件需要下载安装以及相关软件学习使用成本,迫使很多用户都放弃了这种想法那么,今天我们对两台需要…

Gartner发布2022年数据分析十二大趋势:数据和分析将成为创新起源

数据与分析将会成为创新的起源,为企业发展创新助力同时,还将有基于数据的变现、降本增效,基于数据与分析的决策能力已成为有韧性企业的最核心能力。 作者 | 宋慧 出品 | CSDN 云计算 对数据的分析已经被企业与技术界愈加重视,国际…

重拾面向对象软件设计

简介:从上个世纪五十年代冯诺依曼创造第一台计算机开始,一直到现在只有短短70年时间,从第一门计算机语言FORTRAN,到现在我们常用的C,JAVA,PYTHON等,计算机语言的演进速度远超我们所使用的任何一…

数据与AI如何提升IT运维价值?锐捷发布乐享智能运维管理平台

运维的价值如何体现,听刚刚发布锐捷乐享智能运维管理平台的锐捷网络怎么说。 编辑 | 宋慧 出品 | CSDN云计算 运维可能是 IT 技术人中最苦的岗位。 IT系统运维工作就像安全一样,平稳运行不出事故是“份内事”,出了事故则要冲到修复一线。因此…

阿里云服务网格ASM集成SLS告警

简介:随着微服务的流行,微服务的架构也在不断的发展演进,Spring Cloud 与 Dubbo为代表的微服务开发框架也得到了普及和落地;在云原生时代,无侵入的服务网格(Service Mesh)开始走向成熟&#xff…

走进英特尔中国研究院探索创新日:发布最新科研成果与创新策略

如何穿越技术周期,英特尔揭秘创新策略与最新科研进展。 “2022英特尔中国研究院探索创新日”在北京举行。此次活动以“智探索汇无界”为主题,展示了英特尔中国研究院一系列前瞻性研究项目和创新成果。活动中,英特尔研究院副总裁、英特尔中国研…

零基础玩转SLS日志查询-SLS Query Builder发布

简介:日志服务(Log Service,简称 SLS) 是阿里云提供的行业领先的日志大数据解决方案,一站式提供数据收集、清洗、分析、可视化、告警等功能。智能查询分析是数据中台重要的一环,SLS支持秒级查询10亿到千亿级…

块存储监控与服务压测调优利器-EBS Lens发布

简介:SLS团队联合EBS团队发布了EBS Lens,针对块存储提供数据分析、资源监控的功能,可以帮助用户获取云上块存储资源信息与性能监控数据、提升云上块存储资源的管理效率、高效分析业务波动与资源性能消耗情况。 EBS监控现状 块存储是阿里云为…

阿里云 EventBridge 事件驱动架构实践

简介:我们认为 EventBridge 是云原生时代新的计算驱动力,这些数据可以驱动云的计算能力,创造更多业务价值。 作者:周新宇 本文内容整理自 中国开源年会 演讲 首先做一个自我介绍,我是 RocketMQ 的 PMC member 周新宇…

代理网关设计与实现(基于NETTY)

简介:本文重点在代理网关本身的设计与实现,而非代理资源的管理与维护。 作者 | 新然 来源 | 阿里技术公众号 一 问题背景 平台端购置一批裸代理,来做广告异地展现审核。从外部购置的代理,使用方式为:通过给定的HTTP …

Gartner 发布2022年数据分析十二大趋势:数据和分析将成为创新起源

作者 | 宋慧出品 | CSDN 云计算数据与分析将会成为创新的起源,为企业发展创新助力同时,还将有基于数据的变现、降本增效,基于数据与分析的决策能力已成为有韧性企业的最核心能力。对数据的分析已经被企业与技术界愈加重视,国际研究…