专访李飞飞 :从清华附中高材生到阿里飞刀,一口井钻出「云原生」

简介: 他初三上清华,如今是达摩院数据库首席科学家。李飞飞从学术界走向工业界,带领阿里云技术团队一手打造了云原生分布式数据库,让阿里「全面上云」的战役再下一城。今天,他用一口水井为我们道出了云原生!

如果要用一个关键词来定义中国当下的消费时代,“双11”是再贴切不过了。

从2009年11月起,它只花了十年的时间,就从一个只有27家商户参与的打折日,变成了一个全民狂欢的消费节,2019年已经有超过18万家品牌参加,累计成交额更是高达2684亿元。

每年的双11,都是互联网的流量洪峰。
专访李飞飞1.png
 

面对逐年攀升的成交额数据,到底是什么作为支撑呢?

阿里巴巴集团副总裁、阿里云智能事业群数据库产品事业部总裁、达摩院数据库与存储实验室负责人李飞飞在新智元专访中透露,去年双11交易峰值达到了每秒55万笔,而每笔交易又能拆分成很多个事务,总的下来每秒会有几百万的transaction事务在0:00:01那一刻发生,交易量会暴涨133倍。比如说之前一秒有一个,现在就是一秒有133个。

短时间内如此高的增长,对后端的计算和存储系统的挑战巨大。系统的弹性、可扩展性及高可用性要非常好,不然难以支撑瞬间的交易暴涨。

这是对数据科学的极大挑战,也是每个有抱负的「数据科学家」最好的舞台,李飞飞为这个舞台准备了20年。
 

从清华附中起飞:李飞飞如何走上数据科学之路?

李飞飞从小喜欢深挖钻研,参加了很多数学和物理竞赛。

在清华附中的国家教委理科实验班,没有了高考的压力,李飞飞便一头扎进了竞赛里。

16岁是个分水岭。那一年,他初三毕业进入了国家教委理科实验班,确定了后续保送进清华的道路。

本科的毕业设计,让他第一次接触到了数据科学。那个年代,大数据还没有兴起,但在当时的李飞飞看来,这个工作具有前瞻性的意义。
专访李飞飞2.png

即使来到了2017年,「数据科学家」这个岗位也依然很「感性」。

因为当时,数据科学还不是一门大热学科,「数据科学家」的概念还停留在表层,很少有人能透过枯燥和乏味参悟到其中的魅力。

从2001年初到2002年上半年,在这一年多的时间里,李飞飞都沉浸在自己的毕设项目里,每天都和外文网站上的海量数据打交道。

通过对BBC、CNN等网站信息的拆解并分析Hyperlink资源,成功将网站的结构拓扑出来,并描绘出一个完整的后台,还初步实现了对网站信息的自动化理解。

「现在回头来,我们当时这个项目看其实是非常超前的,以当时的技术确实也也不大可能lead to somewhere」,在谈到本科毕设的项目时,李飞飞如是说。

虽然当时只用了一些分词、词频统计等简单的方法,但是已经有了现代NLP技术的影子。真正有前瞻思考的人总是走在时代的前面。

「01、02年左右,还没有大数据的概念,但本质上,我认为大数据和数据库是同源同本的,也就是对数据的管理和处理。

「这个项目对我的锻炼很大,当时的那个人工智能,包括深度神经网络跟NLP的技术还没有发展起来,其实当时已经有神经网络,我本科时期上过这门课,印象还很深,觉得这个效果很好,但是当时因为集群的规模、算力的限制,也没有深度的网络。」

管中窥豹,可见一斑。

通过这个项目,李飞飞很早地认识到了数据驱动的力量和永无止境的探索空间。

「在那个年代,很多的上层应用分析,很多时候是rule-based,也就是规则驱动,定义规则,然后根据这个来搭建系统,但当时我们做那个项目就已经感受到数据驱动的力量。

专访李飞飞3.png

「数据从生产、处理到存储、消费,这个全链路的理解、挖掘和管理,是永远没有止境的,因为数据量在不断地变大。数据类型在不断地这个复杂化。基于这些数据构建的上层应用也在多样性,也在多样化」

数据的挖掘和管理如同一个滚滚向前的车轮,随着时代和技术的演进不断向前,激发了李飞飞在这个领域探索不断探索的热情。

在这个具有超前意识项目的熏陶下,李飞飞毅然决然地走上了数据科学的道路,转而到美国波士顿大学攻读数据库系统和大数据。之后又先后在佛罗里达和犹他大学计算机系任教,从助理教授到副教授,一路做到正教授,这一干就是10年。

这所低调的名校在图形处理方面和系统方向颇有名气,大名鼎鼎的著名软件公司Adobe联合创始人John Warnock,就是在犹他大学完成了本科和博士学位。

连著名动画公司皮克斯也是犹他大学教授和博士生共同创立,还出过三个图形图像方向的图灵奖获得者。

互联网Internet的前身—ARPANET 的诞生通常被认为是网络传播的“创世纪”,由西海岸的4个节点构成:加州大学洛杉矶分校( UCLA)、斯坦福研究院(SRI)、加州大学圣塔芭芭拉分校(UCSB)和犹他大学(UTAH),其中之一就在犹他大学计算机系。

系统方向的顶级会议OSDI的最佳论文奖Jay Lepreau Award也是以犹他大学计算机系教授Jay Lepreau命名的。
 

阿里云总裁一席话让他毅然加入阿里:技术创造新商业

谈到在数据科学道路上的引路人,李飞飞讲到了著名的数据库领域的图灵奖获得者Michael Stonebraker。
专访李飞飞4.png

提到Stonebraker普通读者可能不熟悉,但是在领域内,他所搭建的主流开源数据库PostgreSQL几乎是无人不知无人不晓。

Stonebraker不仅仅research做得好,也能做到真正的system driven research,做教授期间又开了很多家在行业内影响深远的数据库公司。

在数据库领域,他是学术科研能力和技术产品化能力结合的典范。在飞刀的印象里,Stonebraker堪称真正的旗帜性人物。

在高校职教的八九年,让李飞飞更深入地认识到学校和工业界的不同。学校是一个相对来讲更加自由的氛围,造就的人也更加纯粹,科研就是把复杂的问题简单化,去找寻最本质的问题,而公司有更强的导向性,以市场、客户需求为导向。公司的短期目标更加明确。

「在公司里你要思考的是,如何将技术变成产品,如何将产品变成商品。而在学校里,你更关注的是在技术层面去创新突破,可能还没有到产品,或者远远没有到商品,这两者的能力象限要求是完全不同的。」李飞飞在采访中提到。

在高校做科研的岁月里,李飞飞获奖无数,获IEEE ICDE 2014 10年最有影响力论文奖、ACM SIGMOD 2016最佳论文奖、ACM SIGMOD 2015最佳系统展示奖、IEEE ICDE 2004最佳论文奖等,但是走出高校的象牙塔,工程化产品化的吸引力也在感召着他。

回国之前,李飞飞也多次接触过谷歌Facebook等硅谷大厂,但最终选择回国加入阿里,还要源于时任阿里巴巴CTO、现任阿里云总裁张建锋的一番话。

面试时, 张建锋的一句话深深打动了他,「技术创造新商业」,让飞刀深入思考起技术的本质。
专访李飞飞5.png

「最后我想明白,我们从技术角度思考的是性能提升多少,成本降低多少,但最终本质上驱动这个社会发展演进的是商业的力量。」

从这个意义上讲,阿里云的达摩院和数据库事业部正是科研和商业的有机结合,钻研技术的同时还可以参与产品的商业化过程,正中靶心。

此外,阿里内部包括电商、物流、新零售、金融等在内的多样化业务和海量数据带来的丰富挑战也给了飞刀小试牛刀的用武之地。

从一个历史长河的角度来看,能够创造商业价值的技术才是真正有生命力的,我真的是这样觉得。」飞刀总结说。
 

从清华附中起飞:「一口井」钻出云原生数据库

现实中也有很多类似双十一的场景,都需要一个可以弹性扩容的数据库来支撑。

就在2018年,阿里启动了一个「全面上云」的战役,将双11核心系统的计算、存储、网络、数据库全都搬到了阿里云上。

专访李飞飞6.gif

而在今年刚刚结束的云栖大会上,阿里巴巴宣布成立云原生技术委员会,同时推出了云原关系型数据库PolarDB、云原生分布式数据库PolarDB-X、云原生数据仓库AnalyticDB(ADB)、云原生数据湖分析DLA、云原生多模数据库Lindorm等一系列自研的云原生数据库产品。
专访李飞飞7.png

这些产品不是孤零零的,而是形成了一个完整的体系。

此举也标志着阿里云数据库全面进入了云原生+分布式时代。阿里技术委员会主席王坚说,这将让阿里云与客户「坐在同一架飞机上」。

传统的数据库可以分类为OLTP、OLAP、NoSQL,它们面临的最大挑战就是要保证读写并发量很高的时候的一致性,避免读写错误的发生,以及海量数据的低成本存储和高效的计算与分析。

专访李飞飞8.png

云原生(Cloud Native)数据库在这三个领域都有所应用。

要理解云原生,首先要理解的就是「云」。云不仅仅是把资源放到云端那么简单。传统的计算机架构中,资源都是「紧耦合」在一起的。

李飞飞举了一个生动的例子——水桶和井。井里的水需要打出来拿到厨房用,如果把厨房比作CPU,我们可以说水井和厨房是紧耦合的。

当用水多时,除了加大井的深度和宽度,还可以构建「分布式」的水井,通过某种装置把各家的水井连接起来。

但通过装置来调度每家每户的水井,这种「分布式」的过程也十分复杂,需要一个高效的调度系统。

理解了分布式,再来看云。

李飞飞表示,「云」的第一个本质就是「用虚拟化的技术将资源池化」。

用水井的例子解释「云」就是,表面上还是100口独立的水井,但是水井的底部已经连在一起,形成了一个隐形的池塘。

「云」的第二个本质是「资源解耦」,存储和计算要解耦合,再将存储和计算分别池化。这样的好处就是扩容可以变得非常灵活,如CPU的核心数和存储可以自由扩容。
专访李飞飞9.png

云原生数据库就是通过资源池化、存储和计算分离、资源解耦,从而具备更高的弹性和高可用性以及分布式的能力,来满足业务对按需按量使用和按需按量付费的需求。

专访李飞飞10.png

云原生关系型数据库PolarDB、云原生分布式数据库PolarDB-X、云原生数据仓库AnalyticDB(ADB)表面上看起来和传统数据库没有很大的区别,都具有存储引擎、优化引擎、界面引擎等,但是底层对资源的使用和调度却发生了翻天覆地的变化。虽然底层发生了变化,但希望对于用户来说,是一个透明的感受不到的改变。

专访李飞飞11.png

李飞飞还表示,未来,多模态数据的处理问题和资源的智能调度,是云原生数据库要面临的挑战之一。

疫情期间,在线教育和游戏行业都发生了本质的变化,使用云原生数据库可以更好的满足弹性的需求。

不仅如此,云原生数据库还可以实现离在线一体化,数据处理与计算分析一体化,大数据与数据库一体化,帮助用户实现会数据库就会大数据,不再需要编写复杂的Hadoop和Spark程序,只需要简单的SQL就可以完成复杂的任务处理,大大减少用户的开发难度。同时,很多用户定位的时间问题也被缩短到了7分钟以内。

最后,李飞飞还表示,阿里云的云原生数据库坚持自主研发、自主可控,在生态上会100%兼容现有的数据库,用户不必担心未来被锁死在这里,可以按照需求进行灵活迁移。
 

云原生是趋势,技术创造价值才有意义

对技术的探索,帮助人类不断进步和提升,那什么样的技术才值得我们去追求?

李飞飞认为,要从本质上去思考,这项技术最终会不会变成一个可规模化,持续化产生商业价值的东西。

这个问题听着好像很空很大,但实际上静下心来去想,什么节点需要去做什么样的创新突破,就容易实现了,比如说云原生为什么是一个趋势。

因为资源解耦、弹性可扩展这些真的是变成了按需按量,就跟以前为什么从家家户户从水井打水喝水,演进成都用自来水一样,不喝随时可以停掉。

所以云原生数据库来,本质上是解决了资源使用效率和拥有资源成本的问题,这就变成了一个商业的问题。

那技术只有创造商业价值才是有意义的吗?

如果从人类文明的历史来看,很多技术在短期内可以没有商业价值。

但是,不能等到100年以后才变现,那这个技术就没有意义了。现在快速变化的环境下,最多三年,必须要把技术演进带来的商业价值和逻辑讲清楚,因为公司需要去不断地演进不断地提升运营效率。

做数据库的这些年,用李飞飞自己的话说,更倾向于从逻辑的角度去思考一些问题。

「比如说我会比较关注这个因果关系,相关性,比如说我看很多东西就会先想他是不是有相关性,有了相关性之后,再想这个是简单的相关,还是有内在的因果关系。」

未来,一切都将是数据驱动的,寻找数据之间的关联才能衍生新价值。

 

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/514740.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里雷卷:RSocket从入门到落地,RSocket让AJP换发青春

简介: 借助 RSocket 的架构提供,我们可以将之前比较复杂的方案简化,当然最最重要的是性能的提升,即便之前的一些性能提升技术点,可能由于一些约束等,现在和 RSocket 对接,那些问题都不存在啦&am…

英特尔拥抱开源,岂能没有杀手锏?

10 年前,Netscape 创始人、硅谷著名投资人马克安德森说“软件吞噬世界”,如今已发展为“开源吞噬世界”。据《2020年度 GitHub Octoverse 报告》显示,GitHub 上开发者数量达到 5600 万,新增 6000 万个存储库以及 19 亿个 contribu…

Java全能手册火了!Redis/Nginx/Dubbo/Spring全家桶啥都有!

前言本文是为了帮大家快速回顾了Java中知识点,这套面试手册涵盖了诸多Java技术栈的面试题和答案,相信可以帮助大家在最短的时间内用作面试复习,能达到事半功倍效果。本来想将文件上传到github上,但由于文件太大有的都无法显示所以…

云原生实时数仓首次在2020双11核心数据场景落地

简介: 这是史上数据量、计算量最大的一年,是实时处理要求最高、与机器智能结合性最强的一次双11,也是全球最大规模的一次云原生实践。背后作为数据核心支撑的大数据平台更是创下新的世界纪录。 刚刚结束的2020天猫双11又创下两项新记录&…

Flink + 强化学习搭建实时推荐系统

大家好,我叫许日花名欢伯,在2016年盒马早期的时候,我就转到了盒马的事业部作为在线数据平台的研发负责人,现在阿里云的计算平台负责DataWorks的建模引擎团队。今天的分享内容也来源于另一位嘉宾李启平(首义&#xff09…

MySQL 避坑指南之隐式数据类型转换

作者 | 不剪发的Tony老师责编 | 欧阳姝黎出品 | CSDN博客????知之为知之,不知为不知,是知也。——《论语》今天我们来聊聊 MySQL 中存在的隐式数据类型转换以及可能带来的问题。当两个不同类型的数据进行运算时,为了使得它们能够兼容&…

二级java题型及分值_计算机二级java考试内容

计算机二级java考试内容Java支持快速原型和容易试验,它将导致快速程序开发。这是一个与传统的、耗时的“编译、链接和测试”形成鲜明对比的精巧的开发过程。下面是小编整理的关于计算机二级java考试内容,希望大家认真阅读!基本要求1.掌握Java语言的特点、…

淘宝直播在冲刺最复杂的人工智能技术!

01 上周,主播林珊珊测试了一下淘宝直播团队依据他个人形象打造的虚拟主播,也就是林珊珊下播以后,让虚拟主播上场,粉丝在直播间可以跟虚拟主播互动,虚拟主播则实时介绍商品,回答消费者提问。 第二天&#x…

2020双十一,阿里云GRTN拉开直播和RTC技术下半场的序幕

直播,已经成为了“剁手党”们最喜闻乐见的一种购物形式。对直播体验的极致追求,也是淘宝技术人们长期的努力方向。为了提升用户购物体验,让直播更加丝滑,让剁手更快一些,在2020双十一期间,淘宝首次启用了阿…

开拓新格局 共赢新 Power 2021浪潮商用机器新布局

6月25日,以“新格局新核心新Power”为主题的2021浪潮商用机器客户大会在沪隆重举行,本次大会吸引了来自证券、保险、医疗、制造、交通等重点行业的上百位客户代表以及ISV等渠道合作伙伴。会上,浪潮商用机器正式发布了面向关键计算的浪潮全新K…

大促场景系统稳定性保障实践经验分享

每到双11,如何保障系统高峰扛得住、长期平稳是每个大促人必须面对的问题。在今年双11之前,阿里云在上海举办了一场线下交流,阿里大促和稳定性保障负责人、中间件专家、解决方案专家等将历年总结的大促经验分享给参会嘉宾,我们选取…

考拉海购全面云原生迁移之路

今年 8 月底,入驻“阿里动物园”一周年的考拉海购首次宣布战略升级,在现有的跨境业务基础上,将重点从以“货”为中心变成以“人”为中心,全面发力会员电商。 外界不知道的是,对考拉海购来说,不只是完成了业…

新零售:从上云到云原生 Serverless

作者 | 七凌来源 | 阿里巴巴中间件头图 | 付费下载于 IC Photo某零售商超行业的龙头企业,其主要业务涵盖购物中心、大卖场、综合超市、标准超市、精品超市、便利店及无人值守智慧商店等零售业态,涉及全渠道零售、仓储物流、餐饮、消费服务、数据服务、金…

企业双11业绩增长156% 、成交额突破151亿元...... 这背后是阿里云数据中台的场景赋能

红星美凯龙天猫数字化卖场累计成交金额突破151.52亿元;杜蕾斯全网销售额突破1.7亿元,天猫官方旗舰店销售额同比增长105%;滴露全网销售额突破1.8亿元,天猫官方旗舰店销售额同比增长156%;波司登首铺准确率提升79%…… 在…

Gartner:2020年全球IaaS公有云服务市场增长40.7%

编辑 | 宋 慧 供稿 | Gartner 头图 | 付费下载于视觉中国 根据全球信息技术研究和顾问公司Gartner的统计结果,2020年全球基础设施即服务(IaaS)市场达到643亿美元,相比2019年的457亿美元增长40.7%。2020年亚马逊仍在IaaS市场排名第…

jmeter+mysql+set_jmeter学习指南之操作 mysql 数据库

JMeter 通过 JDBC Connection Configuration 和 JDBC Request 可以连接数据库,并进行增删改查操作,支持各种常见的数据库,本文以最常用的 MySQL 数据库为例讲解,其它数据库的使用方法类似。一、下载驱动包在使用之前,需…

如何快速实现精准的个性化搜索服务

简介: 用户行为数据如何实时的应用在搜索服务中那? 怎样在1天内就可实现【精准的个性化搜索系统】搭建那? 今天小编将通过【阿里云开放搜索】中的三大“个性化搜索算法模型”给大家详细介绍,希望给予您更多解决思路~ 一、个性化排…

写代码时发现......还得是 SpringBoot !一篇拿下

关注了很多技术类公众号的读者肯定有这样一个感受,SpringBoot相关的文章铺天盖地,并且SpringBoot相关的文章阅读量、收藏量都很高,这也从侧面反映了SpringBoot技术的火爆。一切都在证明,SpringBoot已经成为了Java程序员必备的技能…

当 TiDB 与 Flink 相结合:高效、易用的实时数仓

简介: 利用实时数仓,企业可以实现实时 OLAP 分析、实时数据看板、实时业务监控、实时数据接口服务等用途。但想到实时数仓,很多人的第一印象就是架构复杂,难以操作与维护。而得益于新版 Flink 对 SQL 的支持,以及 TiDB…

云原生时代微服务的高可用架构设计

简介: 在8月20日“阿里巴巴技术质量精品课”上,来自蚂蚁的经国分享了对云原生时代微服务的高可用架构设计的全面解析,为大家介绍了应用架构演进路径、云原生时代的技术福利、高可用架构的设计原则以及经典案例的设计。 演讲嘉宾简介&#xf…