阿里关涛谈大规模计算—从数字化阿里到数字化城市的进化

在刚刚结束的2018杭州云栖大会上,阿里巴巴通用计算平台负责人,阿里巴巴计算平台资深技术专家关涛从计算力,联合计算,智能化,企业级服务能力四个方面详细介绍阿里巴巴统一的超大规模数据计算平台MaxCompute的探索与实践。从数字化阿里巴巴,到数字化企业,再到数字化城市,MaxCompute快速进化,加速科技普惠, 驱动数字中国。

飞天2.0 MaxCompute是阿里巴巴在9年前做飞天系统的三大件之分布式计算部分。9年后的今天,MaxCompute已经是可以承载EB级的数据存储能力,百PB级的单日计算能力,公共云覆盖国内外十几个国家和地区,专有云包含城市大脑在内部署超过100+套的阿里巴巴的统一计算平台。

阿里巴巴集团副总裁周靖人在本次云栖大会接受采访时称,阿里巴巴从2008年就开始做大数据和云计算,之前是为了支撑核心的电商业务,随着阿里巴巴业务的增长,大数据的平台得到了高速的发展,这个平台就是MaxCompute的前身。所以说,计算平台的产品,首先是在阿里巴巴自身的业务场景里面取得了巨大的成功,在整个业务发展中起到了至关重要的作用。经过这么大业务体量的高强度验证过后,我们希望把同样的技术普惠到全球,所以才把这些产品通过阿里云做对外输出,去服务各行业的企业用户。从历史来讲,至少在中国,阿里云整个计算平台应该是历史最悠久,当然也是技术积累最深,同时也是经受住了非常大的业务考验,具有真正企业级服务能力的大数据智能计算平台。

阿里云机器智能首席科学家闵万里,在云栖大会主论坛的演讲中表示,MaxCompute是ET大脑供血系统极其重要的组成部分,是我们的镇山之宝,如果没有MaxCompute,今天我在这里将没办法给大家讲述任何一个成功的案例。 我们通过ET城市大脑自动化监控城市路口信号灯,这当中,没有什么魔术,就是因为有了MaxCompute,有了大规模的分布式计算,数据越大,场景越大,越能体现大规模计算的能力。

以下依据关涛演讲进行整理


谢谢大家,我是关涛。前面提到的杭州城市大脑,是一个非常新的平台,是阿里巴巴一步一步向上走的平台。我们最开始希望数字化阿里巴巴,再往后,就希望把数字化普惠到企业层面,现在我们开始数字化一个城市了。

用一个放大镜看一看城市数字化时做了哪些事?刚才提到了1300个路口,我们实际上数字化了1300个路口,包含了4500路摄像头,每一路摄像头每一秒钟生成24帧数据,这一帧数据实际上是一张高清图片,也就是1920X1024X24位的色彩景深,这一路数据如果不经过压缩,一帧的数据大概50M,在这一帧数据中,我们会做车辆识别、车牌识别、行人识别,包括像压线这样的违章检测等操作。在帧和帧之间去看车辆速度,路口拥堵,以及路口和路口之间后续可能的拥堵指数。从数字化一个城市的层面来看,无疑对数字和计算的一个极致要求。我们要想做到算得起,算的快,算的准,就需要有一个强大的计算平台。


飞天2.0MaxCompute是阿里巴巴在9年前做飞天系统的三大件之一,分布式存储、分布式调度、分布式计算,它是分布式计算的部分。9年后的今天MaxCompute已经可以承载EB级的数据存储能力,百PB级的单日计算能力,在公共云上以及覆盖了国内外的十几个国家和地区,专有云上包含城市大脑在内部署超过100+套,整体已达到10万台规模。就是这样一个计算平台满足了包括城市大脑在内的所有计算力要求。

从系统架构来看,MaxCompute超大规模的计算服务最底层包含异构的计算集群,支持CPU、GPU、FPGA集群以及未来的智能硬件集群。这些集群分布在不同地方,通过统一的元数据管理和统一的调度系统联动在一起,在用户看来这10万台机器就是一台计算机。向上我们提供包括批计算、流计算、内存计算、机器学习、迭代等一系列计算能力,这一整套计算平台成为了阿里巴巴经济体,以及阿里云背后计算力的强有力支撑。

今天我想为大家展开介绍以下四点:

一,作为计算平台,计算力是最核心的指标。

在2015年GraySort 竞赛中,我们用377秒完成了100TB的数据排序,打破了此前Apache Spark创造的1406秒纪录,获得世界冠军。2016年我们又拿到了CloudSort最优成绩, 表明我们不仅算得快,而且算得便宜。2017年MaxCompute挑战TPCX-Bigbench 100TB 的30个query指标,成为全球第一个测试通过的计算引擎。2018年我们在同样的100TB规模上,性能指标提升了一倍。 另外在超小型10TB规模的指标上,我们与其他开源竞品进行了比对分析,性能超过开源竞品3倍。这是计算力的持续升级。也是满足数字洪峰涌进时对计算力的要求。通过这种方式使得计算力更便宜,也使得智能化更普惠。

第二,计算下推比数据上移更高效。

大多数用户上云,通常情况下数据不会在一个系统里。对于在线服务,数据通常会在数据库里支撑前台业务,对于半结构化log,以及非结构化的音视图等数据通常情况下存储在数据湖里。前端数据库的数据有非常丰富的index的支持,可以算的非常高效,后端是一个超大规模存储,中间是一个大数据体系,会把结构化数据以列式的方式存储下来支撑超大规模的数据计算。

这样就会面临一个挑战,就是用户预期要把所有数据放在一起来算,得到一个最好的结果。面对这种挑战,通常有两种解法,一种是所谓数据上移概念,就是把所有数据上移到统一系统中,上传同步之后再做计算,这样可以完成计算任务。但是会带来三个问题,一是数据冗余,相当于把同样数据备份一份或者两份;二是同步有延迟,在延迟里无法进行计算;三是实时性受影响。

基于此,我们提出联合计算的概念,我们认为计算下推比数据上移更高效。什么是联合计算呢?就是不需要数据同步,通过在大数据系统中的一个作业,可以联动其它系统。比如我可以在一个作业中把数据库系统的作业和大数据系统做一个join,在join时如果有 filter或aggregation,可以把部分计算下推到数据库系统中,由这个系统来计算。实现一个作业在多套系统之间的联动,在每一部分都依赖于当时系统最优的优化,做最优的决策,在这个层面上实现数据之间的联动和打通,这是联合计算的概念。

第三,Auto Data Warehouse让大数据自动驾驶。

这是我们希望今年可以在公共云上推出的一个新功能。 五年前我们在阿里面对了巨大的现实挑战,数据爆发式增长,每年增长几倍。以目前数字来看,平均每个阿里巴巴员工大概有100个作业,每天有五六百万作业在系统中跑。如果把这些作业平摊到负责数据平台的同学中,每个人负责几十万张表,十几万个作业。以人的理解力来讲,真的没有办法理解这些数据之间的关系和作业之间的关系,因为它过于复杂。

我们要怎么做呢?当时很难回答的一个问题是数据有没有冗余,计算是不是可以复用。如果某一个作业失败了,某一个数据出了问题,到底影响面有多大,这些问题当时没法回答。所以五年前,我们开始做一套系统,从最基本的数据可发现做数据地图开始,然后做数据血缘,找到数据之间的关系,看数据冷热之间分离能力,再看数据自动优化。到最后当有一张新的数据表进来时,自动去找关联关系,我们把这样的系统结合成Auto Data Warehouse数据自动驾驶系统。这套系统在阿里巴巴内部实践表明,在计算优化上提升了35%,数据冗余去重层面降低了20%的存储能力,在资源规划层面,提升了超过75%的计算效率。这套系统在阿里巴巴非常成功的得以实现,今年我们也会在公共云上提供给大家。

第四,MaxCompute是面向企业的完整服务,不只是单一引擎。

再回归到杭州城市大脑,可以看到这个平台不再是一个基础的平台,而是杭州城市背后的数据支撑系统。如果这个系统出现问题的话,很有可能对国计民生都有影响。这对于系统的要求除了计算力之外,又不仅仅是计算力,还包含稳定性,可容灾能力,可恢复能力,当交通出现拥堵,出现超大规模人流时的弹性能力等。当遇到突发情况,比如山竹,物理原因导致某些网络断掉时,我们有预警能力和自恢复能力。所有能力总结成一个词就是“企业化的能力。” MaxCompute不止是一个引擎,而是一整套平台,包含完整的企业化服务。

除了计算之外,包含账号系统,项目管理系统。账号系统听起来简单,如果一个企业有上万人用一个平台时,账号分离就变得非常关键了。 数据安全系统,是指把数据分成若干个属性,若干个数据标签。比如:高优先级,低优先级,高秘级,低秘级,高隐私、低隐私,什么样的数据授权给什么系统,授权给什么样的人,需要有系统保障。监控系统,则是我们不希望等系统出了问题时,用户才能知道,而是希望在系统可能要出现问题时,或者有概率出现问题时,能够做提前预警,做提前的处理。

今年我们也新推出了DQC数据正确性验证系统,当数据变得非常复杂时,会搞不清楚数据哪里出了问题。比如用户作业写错了,我们可以在若干个层面加以验证,通过一系列规则的方式保证数据的正确性。还有新推出的,已经实施在某些专有云项目里的多集群容灾系统,这套系统满足了金融性容灾系统,符合中国第一代金融法规要求。除了计算力,联合计算,智能化以外,开发同样很重要。

阿里巴巴有超过1万人在这个平台上做开发,阿里云上有数万家企业客户在这个平台上做开发,影响几十万人,开发效率同样关键。今年我们全新升级了DataWorks开发和调试平台,更有数据集成系统,作业的pipline管理系统,同时可以和机器学习联动,和数据分析和BI平台联动,同时也推出APP Studio。除了引擎之外,整体把一个企业级的计算服务完整搭建到一起。

计算力,联合计算,智能化和企业级服务能力,构建成一个完整的大数据平台,我们将不断以技术驱动平台和产品化发展,让企业和社会能够拥有充沛的计算能力,持续快速进化,驱动数字中国。


原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/520943.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

15年大厂经历!大佬总结:0基础如何学习Python?

在学习之前,你一定要知道你的学习目标是什么。现在市面上有太多人鼓吹“Python太火了”、“Python第一”。但是,注意,“火”、“第一”一定不能成为你学习的理由,千万别火急火燎的随大流。正确做法是,看看市面上的真正…

STL体系结构概述

文章目录 STL是什么?STL的六大组件STL的实现版本额外补充一、容器范围区间二、容器结构与分类序列式容器关联容器有序关联容器不定序关联容器 参考 本文将是STL系列的第一篇文章,主要参考《STL源码剖析》,辅以网络博文,不定时更新…

迁移学习让深度学习更容易

深度学习在一些传统方法难以处理的领域有了很大的进展。这种成功是由于改变了传统机器学习的几个出发点,使其在应用于非结构化数据时性能很好。如今深度学习模型可以玩游戏,检测癌症,和人类交谈,自动驾驶。 深度学习变得强大的同…

java多线程系列:通过对战游戏学习CyclicBarrier

CyclicBarrier是java.util.concurrent包下面的一个工具类,字面意思是可循环使用(Cyclic)的屏障(Barrier),通过它可以实现让一组线程到达一个屏障(也可以叫同步点)时被阻塞&#xff0…

Wi-Fi 6到底有什么特别?

戳蓝字“CSDN云计算”关注我们哦!作者 | 甜草莓责编 | 阿秃▋ 什么是Wi-Fi 6 ?Wi-Fi 6,是Wi-Fi联盟给IEEE Std. P802.11ax起的别名。众所周知,以前我们的Wi-Fi都是叫作802.11a/b/n/g/ac/ax之类的名字。这种命名方式实在容易让人…

matlab直流电机pid调速仿真,直流电机双闭环PID调速系统仿真设计

目录直流电机双闭环PID调速系统仿真1 转速、电流双闭环直流调速系统的组成及工作原理2 双闭环调速系统的动态数学模型3 调节器的设计3.1 电流调节器的设计3.2 转速调节器的设计4 搭建模型5 参数计算5.1 参数的直接计算5仿真具体参数6 仿真结果7 结束语8 参考文献摘要在工程的应…

【小技巧】桌面图标出现蓝色问号的怎么办?

【背景】 今天因为要联调前端所以用SVN更新了一下前端的代码,结果没想到桌面图标全部变成了带着蓝色问号的,吓了自己一跳。查了一下之后顺利解决了,不过以防万一记录一下解决方法。 【内容】 解决步骤:首先确定是SVN的问题导致了…

恒强制版系统980_速来围观 | 恒强制版小图高级功能讲解

点击蓝字关注我们 Spring comes小图是用自定义的动作来定义使用者色码(120-183)。小图的主要构成如下图:1. 模块色数属性模块色数有如下规则:(1) 小于100(一般填1)的小图为普通小图【980修改】;(2) 小于200大于100(一般填101)的小图为提花小图…

读懂这篇文章,你的阿里技术面就可以过关了 | Apache RocketMQ 101

在美国的大学课程中,101是所有课程中的第一门,是新生入学后的必修课程。阿里巴巴中间件技术专家刘振东在上周的Apache RocketMQ开发者沙龙北京站的活动上,进行了主题为《ApacheRocketMQ 101》的分享,帮助开发者从0开始学习 Apache…

Nacos 计划发布v0.2版本,进一步融合Dubbo和SpringCloud生态

在近期的Aliware Open Source 成都站的活动上,阿里巴巴高级工程师邢学超(于怀)分享了Nacos v0.2的规划和进度,并对Nacos v0.3的控制台进行了预览。Nacos v0.2将进一步融入Duboo和Spring Cloud生态,帮助开发者更好的在微…

你还在疯狂加班打码?兄dei,不如跟我学做超融合吧!

纵观过去十年,媒体、娱乐、交通、银行、保险、医疗、旅游、物流等行业,无一不打上了数字化的烙印。据统计,一百多年前,公司的平均寿命是67年;而在当今的数字化时代,则锐减至15年。 除此之外,更有…

你只差这两步 | 将Sentinel 控制台应用于生产环境

这是围绕 Sentinel 的使用场景、技术对比和实现、开发者实践等维度推出的系列文章的第四篇。 第一篇回顾: Dubbo 的流量防卫兵 | Sentinel如何通过限流实现服务的高可用性 - 传送门 第二篇回顾: RocketMQ 的保险丝| Sentinel 如何通过匀速请求和冷启动…

eclipse分级,分级列表显示 - bieshixuan的个人博客 - OSCHINA - 中文开源技术交流社区...

这是个效果图设计思想是,使用左右两个tableview分别展示NSArray * _allArr;NSMutableArray * _rightArr;UITableView * _leftTableView;UITableView * _rightTableView;初始化_arr [{"全部":[ "棉花", "小麦", "水稻", &q…

分布式消息规范 OpenMessaging 1.0.0-preview 发布

OpenMessaging 是由阿里巴巴牵头发起,由 Yahoo、滴滴、Streamlio、微众银行、Datapipeline 等公司共同发起创建的分布式消息规范,其目标在于打造厂商中立,面向 Cloud Native ,同时对流计算以及大数据生态友好的下一代分布式消息标…

腾讯云重磅发布系列自研产品,自研服务器星星海为云而生

今日在腾讯全球数字生态大会成都峰会上,腾讯云重磅发布系列自研产品,包括腾讯自研第四代数据中心T-block产品家族、第一款真正为云而生的自研服务器“星星海”等基础产品,结合现场发布的弹性容器服务、无服务器等自研产品,腾讯云正…

wsimport将wsdl生成java 调用时碰到的一个问题Could not initialize Service

在一个采用了XFire作为WebService框架Web项目中,添加由JDK1.6 wsimport命令生成的一个WebService客户端调用,在客户端调用时出现了如下问题 log4j:WARN No appenders could be found for logger (org.codehaus.xfire.jaxws.Provider). log4j:WARN Pleas…

服务化改造实践(二)| Dubbo + Kubernetes

“没有最好的技术,只有最合适的技术。”我想这句话也同样适用于微服务领域,没有最好的服务框架,只有最适合自己的服务改造。在Dubbo的未来规划中,除了保持自身技术上的领先性,关注性能,大流量,大…

电子技术基础数字部分第六版_大部分数字图书馆技术特点与应用分析

数字图书馆是一个开放式的硬件和软件的集成平台,通过对技术和产品的集成,把当前大量的各种文献载体数字化,将它们组织起来在网上服务。从理论上讲,数字图书馆是一种引入管理和应用数字化技术的方法,它的主要特点有&…

腾讯云与智慧产业总裁汤道生:产业互联网是一场“持久战”

“产业互联网是一场‘持久战’,腾讯希望和合作伙伴一起参与转型,让每一个产业都变身为智慧产业,实现数字化、网络化和智能化。”10月29日,在腾讯全球数字生态大会成都峰会上,腾讯公司高级执行副总裁、云与智慧产业事业…

NLP领域中更有效的迁移学习方法

在深度学习领域,迁移学习(transfer learning)是应用比较广的方法之一。该方法允许我们构建模型时候不光能够借鉴一些其它科研人员的设计的模型,还可以借用类似结构的模型参数,有些类似于站在巨人的肩膀上进行深入开发。…