混合云模式助力斗鱼搭建混搭大数据架构

云栖号案例库:【点击查看更多上云案例】
不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策!

案例背景

2019杭州云栖大会大数据企业级服务专场,由斗鱼大数据高级专家张龙带来以 “混合云模式下 MaxCompute+Hadoop 混搭大数据架构实践” 为题的演讲。本文讲述了从 Apache Hadoop 阶段到 Cloudera CDH 阶段斗鱼大数据架构的发展历程。提出了上云过程中斗鱼遇到的问题和跳战,包括数据安全、数据同步以及迁移任务。概括了混合云模式给斗鱼带来资源效率更高和资源成本更低的变化。

斗鱼大数据架构发展历程

 

image

在2014年中期,斗鱼就开始使用大数据,最开始使用的是简单的HBase和Hadoop。在2015年,开始使用CDH运维大数据集群,主要针对可视化运维。在2017年的下半年,斗鱼开始接触阿里云大数据的一些产品,并且与其他产品做了对比。最终选择了阿里云的MaxCompute。

  • Apache Hadoop阶段

由于业务场景比较简单,组件较少,并且使用的人也少,但可以灵活的操作,同时集群规模较小,运维要求低,可以自由的利用开源,培养了许多人才。但在发展过程中也遇到了一些阻碍,例如:组件增多,运维成本高,业务增长快,集群扩容操作繁琐,人员增加,数据安全要求高,物理机操作,环境安全难保障。

  • Cloudera CDH阶段

斗鱼为何选择Cloudera CDH?原因主要有:首先,它能满足业务发展需要,多组件运维成本低,集群扩容操作简单,数据安全及环境安全有保障。其次,CDH在国内被广泛使用。最主要的一点是斗鱼的团队内部有CDH人才。

Cloudera CDH给斗鱼带来了许多便利,包括支持丰富的组件,不用考虑兼容性,可以通过CM统一管理,进行Web化管理,同时支持中文。另外,支持安全管理,以及对Kerberos安全认证。

自建集群遇到了发展瓶颈,涉及到资源效率问题和资源成本问题。资源效率问题包括资源预算审批慢、机器采购周期长以及机房部署效率低。资源成本问题包括机器资源成本高、机房成本高还不稳定以及闲时资源空置较多。

 

image

大数据上云的挑战

上云面临的挑战主要是如何保证数据安全,因为数据是企业核心的资源,安全性是非常关键的。其次是如何保持数据同步,是因为云上云下存在着海量数据。最后,因为云下存在大量的历史业务,那该如何将业务安全迁移到云上也是一个问题。

  • 如何保证数据安全?

对于数据丢失的问题,阿里使用原始数据进行备份,这是很关键的。对于核心数据泄露问题,几率是很小的,因为泄露数据之后所要承担的风险远大于打败竞争对手所提供的收益。对于云环境面向外网,如何保证安全访问的问题,可以增加账号访问IP白名单及审计,设置公司内部才可访问。

  • 如何保持数据同步?

由于每天会产生PB级历史数据和TB级数据增量。如何快速准确同步数据问题,可以使用数据同步工具,主要是基于DataX的改造。同时提高网络专线能力,增加多根专线,自动地进行异常切换,与云上平台业务进行隔离。利用数据校验工具,校验数据同步任务以及数据量。

  • 如何安全迁移业务?

业务的安全迁移需要做到三个要求:1.不能引起故障,保证迁移可行性验证。2.迁移成本不能太高,业务侧尽量少改动。3.能上云也要能下云,尽量保证云上云下操作一致性。
为了做到不引起故障,要做到三个需要:需要做业务场景测试,保证业务场景全部覆盖到,并且能够识别能够迁移的业务场景。需要数据质量检验,确保相同业务云上云下产出数据的一致性。需要数据效率验证,确保云上任务数据产出时间,同时不影响业务。

  • 如何保证较低的迁移成本?

斗鱼在IDC中运行的任务主要分两部分,第一部分是Java任务,占比很小,特点是基于封装的HiveClient工具进行查询计算。第二部分是XML配置化任务,特点是基于自定义XML文件,支持HiveSQL统计后导入其他存储。针对这些任务的特点,斗鱼也做了相应的改造。针对封装OdpsClient,可以将HiveClient改成OdpsClient,并且改Hive URL为云环境。针对加模板改URL,可以引入MaxCompute参数模型,改Hive URL为云环境。

为了保证能上云也能下云,第一,需要数据能上能下,就是前面提到的数据同步中心。 第二,需要完善的配套工具,云上云下环境尽量透明化使用。第三,多使用通用功能,通过SQL+UDF能覆盖大部分场景。

混合云模式带来的变化

 

image

 

image

混合云模式带来的变化主要针对资源效率低,难以跟上业务发展,以及资源成本高,企业财务压力大两方面。在资源效率方面,从自建集群到MaxCompute有一些变化,包括提前半年或一年提预算变成按量付费,采购耗时1到3个月变成资源可以无限使用,机房上架1周以上变为无机房概念。相比于IDC自建集群,MaxCompute每年大概节约1000w成本,保障集群零故障。同时也有一些附加的收益,包括阿里云的专业服务,当遇到技术问题时可以请教阿里的专家来帮助解决,以及计算资源可以量化,可以知道钱花在哪些业务了,以及与阿里专家交流,帮助解决业务难题。

 

image

在自建机房时,斗鱼也做了一些开发,下图所示为数据开发,包括基于Hue的查询计算和云上的DataStudio数据开发,然后将Hue的API和DataStudio的API集中起来形成斗鱼的大数据开放平台,作用是可以提供给数据部门的人使用,也可以提供给业务部门的分析人员使用。

 

image

此外,斗鱼也做了一些实践,称为多活数据中心,如下图所示。斗鱼通过确立自建机房的数据和阿里云数据在这两个数据中心的角色,保证可以在多活数据中心的状态下支撑更多的业务。

 

image

混合云带来的变化总结起来,资源成本和资源效率是最大的两个变化,还有可量化的成本、增值服务、额外的专业服务等,不仅可以给我们自己部门人员用,还可以给其他业务部门的人来用,并且他们对使用成本也是直接可见的。

image

云栖号案例库:【点击查看更多上云案例】
不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策!

原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/516716.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

架构师技术文档:Redis+Nginx+Spring全家桶+Dubbo精选

最近花了很长的时间去搜罗整理Java核心技术好文,我把每个Java核心技术的优选文章都整理成了一个又一个的文档。今天就把这些东西分享给老铁们,也能为老铁们省去不少麻烦,想学什么技能了,遇到哪方面的问题了 直接打开文档学一学就好…

天弘基金交易数据清算从8小时缩至1.5小时 解决余额宝算力难题

天弘基金作为国内总规模最大的公募基金,阿里云MaxCompute为我们构建了企业级一站式大数据解决方案。MaxCompute对于海量数据的存储、运维、计算能力强大且安全稳定,MaxCompute服务将原本需要清算8小时的用户交易数据缩短至清算1个半小时,同时…

nginx指定配置文件启动及重启

1、验证配置文件 /usr/local/nginx/sbin/nginx -tc /usr/local/nginx/conf/nginx.confor /usr/local/nginx/sbin/nginx -t -c /usr/local/nginx/conf/nginx.conf2、指定配置文件启动 /usr/local/nginx/sbin/nginx -c /usr/local/nginx/conf/nginx.conf3、指定配置文件重启 …

配置MaxCompute任务消费监控告警,避免资源过度消费

MaxCompute 按量计费资源为弹性伸缩资源,对于计算任务,按任务需求提供所需资源,对资源使用无限制,同时MaxCompute按量计费的账单为天账单,即当天消费需要第二天才出账,因此,有必要对计算任务的消…

Vue3.0 备受热捧!2020 前端开发进阶必读

你好,我是汤小洋。前华为全栈工程师,南京大学软件工程硕士,拥有11年全栈开发及内部培训分享经验。作为一名前端人,学习从不是一件容易的事,这是我一路走过来的真实感受。“只要付出,就有收获”、“只要努力…

Docker 查看日志记录

日志文件对于处理故障十分重要,对于docker容器如何查看日志呢 查看docker容器的日志用到的是docker logs这个命令: 先看下官方给的命令说明 docker logs --help–details 显示更多的信息 –f, --follow 跟踪实时日志–since string 显示自某个timestam…

PyODPS DataFrame 处理笛卡尔积的几种方式

PyODPS 提供了 DataFrame API 来用类似 pandas 的接口进行大规模数据分析以及预处理,本文主要介绍如何使用 PyODPS 执行笛卡尔积的操作。 笛卡尔积最常出现的场景是两两之间需要比较或者运算。以计算地理位置距离为例,假设大表 Coordinates1 存储目标点…

Docker JFrog Artifactory 7.27.10 maven私服(仓库配置篇)

文章目录一、二、 建立远程仓库2.1. 仓库列表2.2. 仓库创建演示2.3. 阿里云仓里调整三、建立本地仓库3.1. 仓库列表3.2. 仓库创建演示四、创建虚拟库4.1. 仓库列表4.2. 仓库创建演示五、创建用户/组/权限5.1. 创建用户5.2. 创建用户组5.3. 创建权限5.4. 获取密文密码5.5. 生成配…

ODPS2.0重装上阵,优化提升SQL语言表达能力

MaxCompute(原ODPS)是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用,支撑了多个BU的核心业务。 MaxCompute除了持续优化性能外,也致力于提升SQL语言的用户体验和表达能力,提高…

野鸡大学怎么知道考生电话的?

来源 | 隐小卫责编 | 晋兆雨封图 | CSDN 下载自视觉中国当你在某度频繁搜索“高考”、“志愿”、“大学”、“本科”等关键词时,你的手机号码等信息有可能被非法抓取。并且打包进行交易,卖给培训班、网校、医院等机构进行所谓的“精准获客”。当然&#…

快速入门ECS快照功能,助力大数据容灾保护

阿里云快照是云盘数据在某个时刻完整的只读拷贝,是一种便捷高效的数据容灾手段,常用于数据备份、制作自定义镜像、应用容灾等。 应用场景 推荐您在以下场景中使用快照: 容灾备份:为云盘创建快照,再使用快照创建云盘获…

Docker JFrog Artifactory 7.27.10 maven私服(IDEA 实战篇01) linux

文章目录一、私服配置1. 账户密码2. 本地仓库3. ip/port二、IntelliJ IDEA2.1. 创建项目2.2. 指定配置2.3. 下载依赖2.4. 依赖查看2.5. 注意事项一、私服配置 将服务端生成的配置复制下来&#xff0c;进行修改 1. 账户密码 2. 本地仓库 3. ip/port 内容&#xff1a; <?xml…

一文看懂专有网络和交换机的定义及关系

在专有网络&#xff08;Virtual Private Cloud&#xff0c;简称VPC&#xff09;中使用云资源前&#xff0c;您必须先创建一个专有网络和交换机。您可以在一个专有网络中创建多个交换机来划分子网。一个专有网络内的子网默认私网互通。 专有网络和交换机 专有网络VPC是您独有的…

2020中关村论坛未来青年论坛:聚焦科技与产业数字化转型,让创新成果落地开花

8月26日&#xff0c;由中关村科技园区管理委员会指导&#xff0c;朝阳区人民政府、未来论坛联合主办&#xff0c;中关村朝阳园管委会承办的“2020中关村论坛未来青年论坛”&#xff0c;在北京举行。 作为2020中关村论坛的首场先锋论坛&#xff0c;2020中关村论坛未来青年论坛聚…

JFrog Artifactory 7.27 上传应用到私服和从maven私服下载制品

文章目录一、上传微服务应用1. 生成配置2. 拷贝配置3. 执行上传4. 验证5. 自定义配置二、下载制品2.1. 获取密文密码2.2. 执行下载一、上传微服务应用 1. 生成配置 生成Artifactory仓库上传配置文件&#xff0c;选择仓库&#xff0c;点击‘Set Me Up’查看部署配置 2. 拷…

TS安装和配置

安装• 全局安装TypeScript语言的编译器: npm i -g typescript • 用vscode打开项目文件夹&#xff0c;右键选择在终端中打 开&#xff0c;在终端中输入: tsc -init • 说明: tsc是ts语言的编译器, c是compile的意思&#xff0c; 编译。 结果: • 在当前项目文件夹中生成了tsco…

阿里云2020上云采购季,你适合买什么云产品?

线下IDC机房成本高? 自建数据库卡、慢&#xff0c;延迟高? 被黑客攻击了怎么办&#xff1f; 今年IT预算没多少? 不知道怎么过等保2.0&#xff1f; 你遇到了哪些问题&#xff1f;来阿里云2020上云采购季&#xff01;主会场请戳&#xff1a;https://www.aliyun.com/sale-…

docker 查看实时日志

# 查看实时日志 docker logs -f 容器ID/容器name docker logs -f 0403377b5719 docker logs -f jfrog-oss

从零开始入门 K8s | 理解 CNI 和 CNI 插件

作者 | 溪恒 阿里巴巴高级技术专家 本文整理自《CNCF x Alibaba 云原生技术公开课》第 26 讲&#xff0c;点击直达课程页面。 关注“阿里巴巴云原生”公众号&#xff0c;回复关键词“入门”&#xff0c;即可下载从零入门 K8s 系列文章 PPT。 导读&#xff1a;网络架构是 K8s…

老码农:这段代码绝了,切勿模仿!

作为一名老码农&#xff0c;我的心这次凉透了&#xff01;事情起因很简单&#xff1a;我在某Hub上浏览时候&#xff0c;发现这样的一条信息&#xff1a;Python 超过 C、JS 薪酬排行第一&#xff08;最大招聘网站Indeed.com数据&#xff09;噗&#xff0c;996刚下班的我&#xf…