喜报!酷克数据携手中移在线入选2023大数据“星河”数据库优秀案例

12月20日-21日,由中国信通院、中国通信标准化协会主办,中国通信标准化协会大数据技术标准推进委员会承办的“2023数据资产管理大会”在京召开。

在会上,第七届大数据“星河(Galaxy)”案例评选结果正式公布。中移在线服务有限公司(中移在线)与酷克数据联合申报的《基于云原生化的数据仓库平台,实现数据算力交付效率全面提升》项目,凭借全栈自主可控、敏捷高效、安全稳定的先进特性,成为业内首个容器化部署的大规模云原生数据仓库,荣膺2023大数据“星河”数据库优秀案例奖。

大数据“星河(Galaxy)”案例征集活动主要面向甲方落地单位,旨在通过实地生产案例与场景,总结和推广真实可用的大数据实践与经验,在国内大数据产业具有公认的行业标杆性和极高的认可度。

第七届大数据“星河(Galaxy)”案例征集包括数据库与其他五项大数据应用方向,覆盖电信、金融、政务、能源、制造等行业。案例征集自9月启动以来,受到了业界领先甲方单位与厂商的广泛关注。经过形式审查和专家评审,共评选出数据库优秀案例26个。

项目背景

中移在线营服数据处理平台建设初期采用了当时业界广泛运用的“Hadoop+MPP数据库”混搭架构作为数据仓库。随着数据量的不断增长,平台扩容和运维漫长繁琐,无法满足高时效性、高重要性应用的发展需求。

围绕集团公司赋予的“全网集中服务的提供者、渠道运营的集中支撑者、业务的后台集中处理者”的定位,中移在线向云原生技术积极布局。经过广泛的市场调研和产品比较,最终以酷克数据的存算分离、弹性并行处理(EPP)数据库产品——HashData云数仓为核心,实施Vertica全面替换,构建统一高效、敏捷智能、湖仓一体的数据体系,提供统一、多样化、面向应用、面向主题的数据服务能力,为中移在线数字化转型提供强大的数据能力底座

首先,在本项目中,中移在线采用HashData EPP数据仓库,与原有基础云平台、对象存储集成,采用容器化部署方式建立起云原生数据仓库。

传统MPP架构的数据仓库,由于数据量大,网络、IO吞吐量高,无法采用容器化部署,难以实现资源利用的效率最大化。中移在线和酷克数据的技术团队克服了网络、存储、调度、管理等方面遇到的诸多技术挑战,突破过往容器化仅用于无状态应用场景或开发测试环境的限制,采用K8S+HashData 的技术路线,在国内率先建成实际生产环境下的容器化部署大规模云原生数据仓库。

图1:基于容器化部署的云原生数据仓库解决方案

基于HashData存储、计算、元数据三者分离的架构,借助更轻量级的容器虚拟化技术,进一步扩展了云原生数据仓库平台的弹性伸缩优势,以及高可用能力、自动化运维能力和资源敏捷交付能力大幅提升了项目交付速度,降低了数据迁移和拓展难度,实现计算资源和交付效率的全面提升。

相比原有数据处理平台,基于容器化部署的HashData云数仓,具备高可用、高并发能力,计算资源可水平无限扩展、支持秒级扩缩容等能力,并且在扩缩容期间不影响业务连续性,满足不同场景业务数据计算、查询需要,实现了计算资源快速部署、高效交付的建设目标

同时,在项目实施过程中,中移在线在HashData云原生数据仓库平台计算引擎层构建起多种异构数据技术组件的生态兼容能力,采用融合分析技术,支持把核心仓库区的数据与大数据区的数据进行关联融合分析,减少数据搬迁提升加工效率和数据资源利用率,满足公司业务部门日益复杂的分析场景需求。最终,通过云原生数据仓库与流处理系统、批处理系统、数据湖、对象存储的集成,实现了数据高效汇聚,以及不同存储之间数据低成本流动与透明访问,助力数据高效融通、赋能生产运营。

此外,本次项目充分发挥了HashData丰富的接口能力与各种开发语言和上下游生态软件兼容性强的特性,顺利实现了云原生数据仓库与现有报表指标工具、智能统计工具、数据洞察工具、自助分析工具、研发云平台等系统的兼容适配,面向用户提供高效的数据检索与分析能力,提升用户数据使用效率和体验。

在存量数据应用迁移方面,借助HashData云原生数据仓库引擎用户自定义函数、用户自定义数据类型的特性,保持数据库引擎间的兼容性;此外,通过HashData完善的迁移工具功能,优化迁移方案,最大程度地实现了存量数据应用的“一键式”自动迁移及验证操作,大幅缩减了迁移人力投入和整体项目周期,快速释放新平台业务价值。

图2:Vertica存量应用工具化迁移方案

项目亮点

在本项目中,中移在线采用了HashData作为构建云原生数据仓库平台的核心引擎。依托HashData强大的数据查询分析能力和云计算弹性伸缩能力,新平台在技术架构、资源交付、业务赋能等方面实现了全方位提升:

  • 数据仓库系统架构创新

HashData云数仓解决了传统数据仓库在存算耦合、弹性伸缩、元数据管理等方面的弊端,各模块之间完全解耦,并采用分布式部署,摆脱了传统MPP数据库的各种架构限制和制约,为客户提供成熟稳定的海量数据管理平台,最大限度释放数据价值。

  • 数据仓库容器化部署创新

中移在线在国内率先在实际生产环境实现了云数仓容器化大规模部署和应用。通过采用K8S+HashData技术路线,新平台具备秒级快速扩缩容、读写分离、高可用、自动化运维、资源敏捷交付等能力,快速满足业务发展需要,同时也进一步提升了资源利用率,赋能企业降本增效。

  • 灵活高效的资源隔离能力创新

基于存算分离的架构,项目实现了基础设施资源和应用解耦,可以根据计算集群的工作负载变化,灵活、动态调配计算集群资源。计算集群间性能相互隔离,资源和操作完全独立,不会产生相互竞争 CPU、内存和IO的情况,从容应对纷繁复杂的数据应用场景。

  • 应用驱动的自动缓存能力创新

HashData缓存采用LRU算法,实现了按需、自动化的缓存管理,提升了热点数据访问效率,让底层存储更高效满足上层应用需求。

  • 智能化自愈能力创新

HashData提供了管理组件实时监控整个集群的运行状态,当感知到节点故障时将自动执行不同策略下的恢复操作,实现故障自愈,保证整个数仓服务实现高可用,有效适应数仓平台从决策管理辅助系统到业务运营关键支撑平台的转变,并满足用户对平台全天候可用性的预期。

项目价值

基于容器化部署的云原生数据仓库的建成,有效支撑了中移在线打造开放式数据生态体系,推动将数据变为资产并服务于业务以数据驱动业务增长,实现数据可见、可用、可经营,驱动业务创新和数据管理提速增效:

  • 深化云原生技术应用,实现数据基础平台架构云化升级

本次云数仓平台建设,是中移在线实现整个数据基础平台架构云化升级的重要一环。利用HashData云架构的可自由伸缩、灵活调配等优势,大幅提升计算资源快速部署、高效交付能力,支撑架构创新、数据生态、相互融合的特色数据体系,赋能公司未来业务高质量发展。

  • 构建OneData数据平台,实现真正意义上的企业级统一数据视图

在本次云数仓平台的建设中,将过往分散在四套独立Vertica集群中的数据统一迁移至全辖共享的对象存储,以更低成本、更高扩展性和可靠性,实现了全部数据资产的统一数据平台纳管,建立起真正意义上的企业级统一数据视图,消除了数据孤岛,避免了数据二义性对业务分析的影响,大幅降低了数据的使用与维护成本。

  • 解耦数据应用与数据库集群资源,实现资源管理与运维管理新范式

基于HashData的松耦合架构,创新性实现了数据应用与数据库集群资源的解耦,建立起统一的数据分析算力资源池,实现资源细粒度的管理与调度,支持离线计算与在线计算任务混部,达到峰谷互补的效果,大幅提升服务器资源利用率。

  • 建立湖仓一体数据体系,实现不同组件间数据高效融通与共享协作

本次项目建立起了以HashData云数仓为核心的湖仓一体数据体系。通过外部表和连接器这两类组件,实现了面向异构计算工作资源负载下的统一多维度查询分析服务架构,支持在多种计算引擎间共用计算和存储资源,避免了大批量数据的搬迁,有效降低了整体数据链路的成本、代价和复杂性,提升加工效率和数据资源利用率,满足公司业务部门日益复杂的分析场景需求。

图3:中移在线云原生化数据仓库平台湖仓一体系统集成解决方案示意图

  • 完善迁移工具功能,实现存量应用“一键式”快速高效平滑迁移

在存量数据应用迁移方面,通过HashData完善的迁移工具,最大程度实现了存量数据应用的“一键式”自动迁移及验证操作,在较短时间内完成了约600T存量数据、10万个表、2000多个ETL脚本迁移与转换工作,节省了大量人力成本。

同时,在经济效益方面,使用HashData云数仓比在原有Vertica平台基础上扩容升级节省超过千万元;采用存算分离架构以及容器化部署技术方案,硬件资源节省达到30%。

本次项目中,中移在线不仅完成了对传统技术栈的替代,更重要的是在数据仓库平台架构方面实现了技术创新。基于容器化的云原生数据仓库平台,采用全栈信创架构技术栈,支持一云多芯(X86/C86/ARM)、一库双栈(通用/信创),在实现公司数字资产管理和运营全栈自主可控的同时,也实现了数据线全面技术升级。

云原生数据仓库平台从硬件、操作系统、数据库三个维度以信创供应链为基础搭建技术架构,具备高可用、易拓展等特点,结合容器化技术,构建基础算力与存储资源可统一管理、动态调配、敏捷交付,且无对外服务故障“断点”的大数据服务体系

本次项目全栈自主可控,兼顾安全稳定与敏捷高效,实现了数据算力交付效率全面提升,为中移在线全面提升业务处理的数智化水平奠定了坚实基础,为业务效率与技术融合创新提供了有力支撑

未来,中移在线和酷克数据将积极响应国家和行业号召,围绕“数字经济、信创工程、创新驱动”的发展战略,积极推进技术架构转型升级,赋能数据高效融通,为提升线上营服能力、营销转化能力构筑强大数据融通计算底座。

公司简介

酷克数据是中国领先具备自主可控研发能力的数据仓库软件厂商,核心团队主要由来自Pivotal、Teradata、IBM、Yahoo!、Oracle和华为等公司资深的云计算、分布式数据库和大数据专家组成。凭借深厚的技术积累以及极具前瞻性的产品理念,HashData数据仓库已广泛应用于金融、电信运营商、能源、政府、交通物流和互联网等多个行业领先客户。

中移在线服务有限公司是中国移动在数字化时代全新设立的全资专业子公司,致力于以更高的服务效能,更优的服务质量,做数字服务的提供者和创新者,成为客户满意、社会信赖的卓越服务品质创造者。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/577635.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华纳云:组策略与注册表之间的区别和联系

组策略和注册表是在 Windows 操作系统中用于配置和管理系统行为的两种不同的管理机制。它们之间有着紧密的联系,但也有一些重要的区别。 区别: 定义和作用: 组策略: 组策略是一种集中管理和配置 Windows 系统设置的机制。通过组策…

如何在Laravel中屏蔽错误提示(两种方法)

前言 Laravel是一个非常流行的PHP框架,其提供的错误提示机制使得在开发过程中出现问题时可以迅速定位原因,从而提高了开发效率。然而,有时候我们在正式上线的时候,不希望用户看到任何错误提示,这时候我们可以通过屏蔽…

Java 中 Stream 流的使用方法

目录 一、Stream 的概念 二、Stream 的特点 三、Stream 的使用步骤 1、Stream 的创建 1.1、通过Collection对象的stream()或parallelStream()方法 1.1.1、stream() 和 parallelStream() 两个方法的区别 1.2、通过 Arrays 工具类的 stream() 方法 1.3、通过Stream接口的of()…

Local Binary Convolutional Neural Networks (LBCNN)

论文:https://arxiv.org/abs/1608.06049 代码:GitHub - juefeix/lbcnn.torch: Torch implementation of CVPR17 - Local Binary Convolutional Neural Networks http://xujuefei.com/lbcnn.html 摘要: 我们提出了局部二值卷积(LBC)&#x…

在uni-app项目中,如何进行性能优化

在uni-app项目中,可以通过以下几种方式进行性能优化: 减少请求次数:合并请求,将多个请求合并成一个请求,减少网络请求次数,提高性能。优化图片加载:使用合适的图片格式,并进行压缩和…

python实现对终端信息的清屏或者部分行清除

有些时候我们看到部分工具能够在给出提示项或者下载库信息的时候,有点类似滚动的效果,其实就是清除了一些行的字符信息。虽然我总结的不是很全,但是就我知道的方式而言,总结了下面的一些方法实现工具,仅供参考&#xf…

【效率工具】利用python进行本地知识库(PDF和WORK文件内容)的批量模糊搜索

目录 前言 一、为什么要进行本地文档的批量搜索? 二、如何去做呢?

【ScienceAI Weekly】DeepMind最新研究再登Nature;我国首个自研地球系统模型开源;谷歌推出医疗保健模型

AI for Science 的新成果、新动态、新视角抢先看—— * DeepMind 最新研究 FunSearch 登 Nature * 谷歌推出医疗保健行业模型 MedLM * 晶泰科技冲刺港交所,AI机器人赋能 AI for Science * GHDDI 与微软研究院科学智能中心达成合作 * 用于地震学处理分析的 AI 工…

服务器的出口IP地址查询

在服务器中,IP地址是至关重要的。但是很多情况下我们看见的IP地址多数为内网IP。比如192.168.X.X。这些都是内网IP,也就是脱离了内网环境我们就无法再访问这些IP地址。 工作中,我们常常会接触到IP白名单;使用云服务器时需要配置安…

【华为机试】2023年真题B卷(python)-分月饼

一、题目 题目描述&#xff1a; 中秋节公司分月饼&#xff0c;m个员工&#xff0c;买了n个月饼&#xff0c;m<n&#xff0c;每个员工至少分1个月饼&#xff0c;但可以分多个&#xff0c;单人份到最多月饼的个数为Max1&#xff0c;单人分到第二多月饼的个数是Max2&#xff0c…

python(上半部分)

第一部分 1、input()语句默认结果是字符串 2、type()可以判断变量的类型 3、input()输出语句 &#xff08;默认为字符串类型&#xff09; 4、命名规则&#xff1a;中文、英文、数字、_&#xff0c;数字不可开头&#xff0c;大小写敏感。 5、 %s&#xff1a;将内容转换成…

常用css属性

所有 CSS 背景属性 属性描述background在一条声明中设置所有背景属性的简写属性。background-attachment设置背景图像是固定的还是与页面的其余部分一起滚动。background-clip规定背景的绘制区域。background-color设置元素的背景色。background-image设置元素的背景图像。bac…

Java并发(二十一)----wait notify介绍

1、小故事 - 为什么需要 wait 由于条件不满足&#xff08;没烟干不了活啊&#xff0c;等小M把烟送过来&#xff09;&#xff0c;小南不能继续进行计算 但小南如果一直占用着锁&#xff0c;其它人就得一直阻塞&#xff0c;效率太低 于是老王单开了一间休息室&#xff08;调…

refusing to merge unrelated histories如何解决git冲突

当使用git merge命令合并分支时&#xff0c;如果Git检测到分支之间存在不相关的提交历史记录&#xff0c;它会给出refusing to merge unrelated histories错误。这种情况下&#xff0c;可以通过以下几种方法解决冲突。 强制合并&#xff1a;使用git merge命令时&#xff0c;加…

如何在uni-app项目中进行数据持久化

在uni-app项目中进行数据持久化有多种方法&#xff0c;以下是几种常用的方式&#xff1a; 使用uni-app的本地存储API&#xff08;uni.setStorageSync和uni.getStorageSync&#xff09;进行数据存取。例如&#xff1a; // 存储数据 uni.setStorageSync(key, value); // 获取数…

vue场景 无分页列表条件过滤,子组件多选来自父组件的列表

日常开发中&#xff0c;经常会遇到下面场景&#xff1a; 页面加载一个无分页列表&#xff0c;同时工具栏设置多个条件可对列表过滤的场景(典型的就是关键字模糊查询)父组件传给子组件列表&#xff0c;子组件中需要多选列表多选&#xff0c;选择结果返回父组件 1 无分页列表过…

鸿蒙 - arkTs:网络请求封装和使用

1. module.json5文件配置网络请求 {"module": {"requestPermissions": [{"name": "ohos.permission.INTERNET"}]} } 2. 在pages同级创建一个文件夹&#xff0c;起名为api 3. api文件夹下创建index.ts文件&#xff0c;文件内容&…

前端---css 选择器

1. css 选择器的定义 css 选择器是用来选择标签的&#xff0c;选出来以后给标签加样式。 2. css 选择器的种类 标签选择器类选择器层级选择器(后代选择器)id选择器组选择器伪类选择器 3. 标签选择器 根据标签来选择标签&#xff0c;以标签开头&#xff0c;此种选择器影响范…

支持向量机(Support Vector Machine,SVM)算法 简介

支持向量机&#xff08;Support Vector Machine&#xff0c;SVM&#xff09;算法&#xff0c;简称SVM 算法。 在保证了分类正确性的同时&#xff0c;还尽可能让两个样本的类别更容易区分。简单来说就是&#xff0c;不仅做对了&#xff0c;还保证了质量。 当样本数据是线性可分…

行业首台7英寸彩屏,掌阅iReader Color 7 发布

12月22日消息&#xff0c;掌阅iReader 继2021年发布 C6 Pro 后&#xff0c;时隔2年再次推出彩屏系列新产品 Color 7&#xff0c;该产品为彩色电子纸智能阅读本&#xff0c;采用 Kaleido3 新一代彩色电子纸技术&#xff0c;黑白像素密度为 300PPI &#xff0c;彩色像素密度为 15…