【数据湖加速篇】 —— 数据湖结构化数据优化与查询加速方案

简介: 近几年,数据湖架构的概念逐渐兴起,很多企业都在尝试构建数据湖。相比较大数据平台,数据湖在数据治理方面提出了更高的要求。对于数据湖场景所提出的新需求,“传统”的大数据工具在很多方面都面临着新的挑战。JindoTable 正是专为解决数据湖管理结构化数据甚至是半结构化数据的痛点而设计的,包括数据治理功能和查询加速功能。

概述

近几年,数据湖架构的概念逐渐兴起,很多企业都在尝试构建数据湖。相比较大数据平台,数据湖在数据治理方面提出了更高的要求。对于数据湖场景所提出的新需求,“传统”的大数据工具在很多方面都面临着新的挑战。JindoTable 正是专为解决数据湖管理结构化数据甚至是半结构化数据的痛点而设计的,包括数据治理功能和查询加速功能。

数据优化

数据湖需要存储来自各种数据源的数据。对于 HDFS 集群,小文件问题让很多用户倍感烦恼。在存储计算分离的数据湖中,小文件同样会产生很多问题:过多的文件数会导致目录list时间显著变长,小文件也会影响很多计算引擎的并发度。此外,由于对象存储一般以对象为单位,小文件也会导致请求数量的上升,会明显影响元数据操作的性能,更会增加企业需要支付的费用。而如果数据文件过大,如果数据又使用了不可分割的压缩格式,后续计算的并发度会过低,导致无法充分发挥集群的计算能力。因此,即使是数据湖架构中,对数据文件进行治理和优化也是非常必要的。

基于数据湖所管理的元数据信息,JindoTable 为客户提供了一键式的优化功能,用户只要在资源较为空闲时触发优化指令,JindoTable 可以自动为用户优化数据,规整文件大小,进行适当的排序、预计算,生成适当的索引信息和统计信息,结合计算引擎的修改,可以为这些数据生成更加高效的执行计划,大幅减少用户查询的执行时间。数据优化对用户透明,优化前后不会出现读取的数据不一致的情况。这也是数据湖的数据治理所不可或缺的功能。

查询加速

JindoTable 还有一项重磅功能,就是查询加速功能。在数仓中,数据分析总是越快越好。尤其是 Ad-Hoc 场景,对查询延迟非常敏感。现在“湖仓一体”的概念也很火,对于数据湖这种普遍使用存储计算分离场景的架构,如何尽可能减少 IO 开销,对于缩短查询时间是非常关键的。

之前介绍的 JindoTable 数据优化功能,是在存储端减少额外开销,并且通过提前的计算,为运行时优化打好基础。JindoTable 的查询加速功能则是在查询执行时,通过把计算推向存储,减少计算时整体的 IO 压力,同时利用存储端空闲的计算资源提供高效的计算,缩短整体查询时间。JindoTable 的加速服务结合修改后的各种计算引擎,可以把尽可能多的算子下推到缓存端,并且利用高效的 native 计算能力过滤大量原始数据,再把数据高效地传输给计算引擎。这样,计算引擎所需处理的数据大大减少,甚至一些计算也可以直接略过,后续的计算所需的时间自然也就大为减少。
9.png

分层存储

数据湖所存储的数据量通常增长迅速。对于传统的 Hadoop 集群,如果数据量急剧增长,所需的存储资源也要相应增加,这样会导致集群规模迅速扩大,计算资源也会变得过剩。抛开集群规模增长导致的其他问题不谈,光是运营集群的成本问题就足够让人头疼。好在公有云平台提供了对象存储的服务,我们可以按存储的数据量来付费,这在节约成本的同时,用户也不用担心 HDFS 在集群资源和数据量快速增长情况下的稳定性问题。但数据量快速增长还是会等比例的增加整体开销。

阿里云的对象存储服务 OSS,为用户提供了低频存储和归档存储,对于访问不是那么频繁的数据,如果能够转为低频或归档模式来存储,可以尽量节约成本。而一部分数据如果有频繁的访问需求,放在远离计算资源的对象存储上,又会导致计算时的 IO 出现瓶颈。JindoTable 对接数据湖中各种计算引擎,以表或分区为最小单位,统计数据的访问频次。根据用户设定的规则,JindoTable 可以告诉用户哪些表或者分区的访问频次较高,让用户可以通过 JindoTable 命令,借助 JindoFS 提供的底层支持,把这些表或者分区对应的数据缓存到计算集群内,加速查询的执行。同时,对于访问频次较低的表或者分区,用户也可以使用 JindoTable 把对应的数据转为低频或者归档存储类型,或是设置生命周期。在需要对归档数据操作的时候,可以直接用 JindoTable 对归档数据进行解冻。JindoTable 还为用户提供了元数据管理,方便用户检视表或者分区当前的存储状态。JindoTable 让用户能尽可能高效地管理自己的数据,节约成本的同时,不牺牲计算性能。
10.png

小结

对于企业来说,数据湖为各种来源的数据提供了整合的可能性。背靠丰富的云产品体系,数据湖架构可以帮助客户进一步发掘数据价值,实现企业愿景。JindoTable 在数据湖解决方案中,为用户提供数据治理和查询加速的增值功能,进一步降低用户数据入湖的门槛,帮助用户在更低的成本下,实现更高的数据价值。

 

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/515029.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Kubernetes 也有局限性吗?

作者 | Draveness来源 | 真没什么逻辑头图 | 下载于视觉中国2014 年发布的 Kubernetes 在今天俨然已成为容器编排领域的事实标准,相信谈到 Kubernetes 的开发者都会一再复述上述现象。如下图所示,今天的大多数个人或者团队都会选择 Kubernetes 管理容器&…

Kubernetes 新玩法:在 yaml 中编程

简介: 如何做性能测试?要么是通过编码的方式完成,写一堆脚本,用完即弃;要么是基于平台,在平台定义的流程中进行。对于后者,通常由于目标场景的复杂性,如部署特定的 workload、观测特…

对话猿辅导:阿里云远程办公零信任落地创新安全

简介: 大型实战场景验证,灵活应对复杂环境。 2020,一场突如其来的新冠疫情,引发了史上最大规模的远程办公。疫情让安全问题暴露得更加突出,与疫情的对抗也是阿里云安全的战场。 9月18日,2020云栖大会技术…

阿里云发布边缘计算视频上云解决方案 为海量视图处理提供城市级云基础设施

简介: 2020云栖大会在云上成功召开,此次大会汇聚行业领袖,共同见证数智未来的重构进程。在9月18日的产品发布大厅,阿里云正式发布边缘计算视频上云解决方案,旨在依托城市级云计算基础设施,实现海量视图数据…

数据湖元数据服务的实现和挑战

简介: 数据湖元数据服务为大数据而生,为互通生态而生,期望后续继续完善其服务能力和支撑更多的大数据引擎,通过开放的服务能力、存储能力、统一的权限及元数据管理能力,为客户节省管理/人力/存储等各项成本&#xff0c…

美国燃油“动脉”被黑客切断,网络安全走向哪里?专访山石网科|拟合

从无序中寻找踪迹,从眼前事探索未来。 > 2021 年正值黄金十年新开端,CSDN 以中立技术社区专业、客观的角度,深度探讨中国前沿 IT 技术演进,推出年度重磅企划栏目——「拟合」,通过对话企业技术高管大咖,…

云时代的智能运维平台,助力企业创新迭代

简介: 智能的运维平台,帮助企业业务平稳、智能、高效地运行。 每一起严重事故背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患。—— 海恩法则(Heinrich‘s Law) 随着云计算时代的到来,大量企业将自己的业务逐步迁移…

数据湖架构,为什么需要“湖加速”?

简介: 湖加速即为数据湖加速,是指在数据湖架构中,为了统一支持各种计算,对数据湖存储提供适配支持,进行优化和缓存加速的中间层技术。那么为什么需要湖加速?数据湖如何实现“加速”?本文将从三个…

“阿里日”102 对新人举办集体婚礼,张勇证婚:“又热,又爱”!

整理 | 王晓曼出品 | 程序人生 (ID:coder _life)2021年5月10日,是第十七个“阿里日”,同时也是第十六次阿里巴巴举办员工集体婚礼。据悉,今年共有1541对新人报名集体婚礼,其中,双职工…

阿里巴巴电商搜索推荐实时数仓演进之路

简介: 自建实时数仓到底难在哪里?实时数仓应该怎么建?阿里巴巴搜索团队告诉您答案 作者:张照亮(士恒)阿里巴巴搜索事业部高级技术专家 1. 业务背景 阿里巴巴电商搜索推荐实时数据仓库承载了阿里巴巴集团…

多数据源一站式入湖

简介: 通过一站式入湖,将不同数据源的数据统一归并到以OSS对象存储为基础架构的集中式数据湖存储中,解决了企业面临的数据孤岛问题,为统一的数据分析打好了基础. 背景 数据湖作为一个集中化的数据存储仓库,支持的数据…

一文说透架构设计的本质

作者 | 猿码架构来源 | 云时代架构头图 | 下载于视觉中国前言:在软件研发领域,程序员的终极目标都是想成为一名合格的架构师。然而梦想很美好,但现实却很曲折。在实际工作中,程序员会分很多种,有的擅长编码实现&#x…

“视频云营业厅”发布,蚂蚁 mPaaS 加速金融机构数字化转型

简介: 线下业务线上办,便民服务不间断 在业务和数据争相“上云”的今天,更多金融机构加速数字化转型进程,将原有的人对人、线下、柜面核心业务进一步线上化,扩充全新的业务触点,开启远程业务办理的新模式。…

被Python「苦虐」的日子太惨了!

Python因为其优越的特性广泛应用于数据分析、人工智能、Web开发、后端开发、自动化测试/运维、爬虫等领域,也得到了很多企业的青睐。甚至连BATZJ的技术大牛,都无可否认Python现在对于一个程序员发展的重要性!最近一两年,我身边也有…

阿里云肖力:原生安全打造云上绿洲

2020年9月17日-18日,一年一度的云栖大会在云上如约而至。疫情加速数字化转型大背景之下,云原生以一种高能见度为各行业带来了一个更动态多变、更具效率和生命力的架构。云原生安全具有什么优势,能否解决线下业务场景的安全困局?作…

Nacos Go 微服务生态系列(一)| Dubbo-go 云原生核心引擎探索

简介: 作为微服务框架的核心引擎--注册中心,是必不可缺少的组件,市面已经有多款注册中心支持 Go 语言,应该如何选择呢?我们可以对目前主流的支持 Go 语言的注册中心做个对比。 作者 | 李志鹏 近几年,随着 …

微软每年豪砸安全研发 10 亿美元,聊聊背后的技术密码

从无序中寻找踪迹,从眼前事探索未来。正值 IT 黄金十年新开端, CSDN 欲以中立技术社区专业、客观的角度,深度探讨中国前沿 IT 技术演进,现在推出年度重磅企划——「拟合」,通过对话企业高管大咖,跟踪报道企…

Chrome浏览器直接下载pdf文件的设置步骤

使用Google Chrome浏览器,在点击网页中的pdf文件时,浏览器会直接将pdf文件打开并显示,要下载pdf文件的话,还需要进行另存操作。 有的时候我们点击pdf文件就是为了直接下载,而不是为了在浏览器中查看pdf文件。可以按以…

Bilibili资深运维工程师:DCDN在游戏应用加速中的实践

简介: bilibili资深运维工程师李宁分享《DCDN在游戏应用加速中的实践》从bilibili游戏应用的效果和成本入手,深入浅出地分享DCDN全站加速在游戏加速场景中的应用。 日前,云栖大会新一代CDN的技术突破与应用实践专场中,bilibili资…

Gartner:云安全的未来——中国的安全访问服务边缘架构

作者 | Gartner高级研究总监 Evan Zeng 编辑 | 宋 慧 头图 | 付费下载于东方IC Gartner最新的“安全领域新兴技术及趋势影响雷达”(Emerging Technologies and Trends Impact Radar: Security)显示,安全服务及接入边缘技术具有极高重要性&am…