简介: 他初三上清华,如今是达摩院数据库首席科学家。李飞飞从学术界走向工业界,带领阿里云技术团队一手打造了云原生分布式数据库,让阿里「全面上云」的战役再下一城。今天,他用一口水井为我们道出了云原生!
如果要用一个关键词来定义中国当下的消费时代,“双11”是再贴切不过了。
从2009年11月起,它只花了十年的时间,就从一个只有27家商户参与的打折日,变成了一个全民狂欢的消费节,2019年已经有超过18万家品牌参加,累计成交额更是高达2684亿元。
每年的双11,都是互联网的流量洪峰。
面对逐年攀升的成交额数据,到底是什么作为支撑呢?
阿里巴巴集团副总裁、阿里云智能事业群数据库产品事业部总裁、达摩院数据库与存储实验室负责人李飞飞在新智元专访中透露,去年双11交易峰值达到了每秒55万笔,而每笔交易又能拆分成很多个事务,总的下来每秒会有几百万的transaction事务在0:00:01那一刻发生,交易量会暴涨133倍。比如说之前一秒有一个,现在就是一秒有133个。
短时间内如此高的增长,对后端的计算和存储系统的挑战巨大。系统的弹性、可扩展性及高可用性要非常好,不然难以支撑瞬间的交易暴涨。
这是对数据科学的极大挑战,也是每个有抱负的「数据科学家」最好的舞台,李飞飞为这个舞台准备了20年。
从清华附中起飞:李飞飞如何走上数据科学之路?
李飞飞从小喜欢深挖钻研,参加了很多数学和物理竞赛。
在清华附中的国家教委理科实验班,没有了高考的压力,李飞飞便一头扎进了竞赛里。
16岁是个分水岭。那一年,他初三毕业进入了国家教委理科实验班,确定了后续保送进清华的道路。
本科的毕业设计,让他第一次接触到了数据科学。那个年代,大数据还没有兴起,但在当时的李飞飞看来,这个工作具有前瞻性的意义。
即使来到了2017年,「数据科学家」这个岗位也依然很「感性」。
因为当时,数据科学还不是一门大热学科,「数据科学家」的概念还停留在表层,很少有人能透过枯燥和乏味参悟到其中的魅力。
从2001年初到2002年上半年,在这一年多的时间里,李飞飞都沉浸在自己的毕设项目里,每天都和外文网站上的海量数据打交道。
通过对BBC、CNN等网站信息的拆解并分析Hyperlink资源,成功将网站的结构拓扑出来,并描绘出一个完整的后台,还初步实现了对网站信息的自动化理解。
「现在回头来,我们当时这个项目看其实是非常超前的,以当时的技术确实也也不大可能lead to somewhere」,在谈到本科毕设的项目时,李飞飞如是说。
虽然当时只用了一些分词、词频统计等简单的方法,但是已经有了现代NLP技术的影子。真正有前瞻思考的人总是走在时代的前面。
「01、02年左右,还没有大数据的概念,但本质上,我认为大数据和数据库是同源同本的,也就是对数据的管理和处理。」
「这个项目对我的锻炼很大,当时的那个人工智能,包括深度神经网络跟NLP的技术还没有发展起来,其实当时已经有神经网络,我本科时期上过这门课,印象还很深,觉得这个效果很好,但是当时因为集群的规模、算力的限制,也没有深度的网络。」
管中窥豹,可见一斑。
通过这个项目,李飞飞很早地认识到了数据驱动的力量和永无止境的探索空间。
「在那个年代,很多的上层应用分析,很多时候是rule-based,也就是规则驱动,定义规则,然后根据这个来搭建系统,但当时我们做那个项目就已经感受到数据驱动的力量。
「数据从生产、处理到存储、消费,这个全链路的理解、挖掘和管理,是永远没有止境的,因为数据量在不断地变大。数据类型在不断地这个复杂化。基于这些数据构建的上层应用也在多样性,也在多样化」
数据的挖掘和管理如同一个滚滚向前的车轮,随着时代和技术的演进不断向前,激发了李飞飞在这个领域探索不断探索的热情。
在这个具有超前意识项目的熏陶下,李飞飞毅然决然地走上了数据科学的道路,转而到美国波士顿大学攻读数据库系统和大数据。之后又先后在佛罗里达和犹他大学计算机系任教,从助理教授到副教授,一路做到正教授,这一干就是10年。
这所低调的名校在图形处理方面和系统方向颇有名气,大名鼎鼎的著名软件公司Adobe联合创始人John Warnock,就是在犹他大学完成了本科和博士学位。
连著名动画公司皮克斯也是犹他大学教授和博士生共同创立,还出过三个图形图像方向的图灵奖获得者。
互联网Internet的前身—ARPANET 的诞生通常被认为是网络传播的“创世纪”,由西海岸的4个节点构成:加州大学洛杉矶分校( UCLA)、斯坦福研究院(SRI)、加州大学圣塔芭芭拉分校(UCSB)和犹他大学(UTAH),其中之一就在犹他大学计算机系。
系统方向的顶级会议OSDI的最佳论文奖Jay Lepreau Award也是以犹他大学计算机系教授Jay Lepreau命名的。
阿里云总裁一席话让他毅然加入阿里:技术创造新商业
谈到在数据科学道路上的引路人,李飞飞讲到了著名的数据库领域的图灵奖获得者Michael Stonebraker。
提到Stonebraker普通读者可能不熟悉,但是在领域内,他所搭建的主流开源数据库PostgreSQL几乎是无人不知无人不晓。
Stonebraker不仅仅research做得好,也能做到真正的system driven research,做教授期间又开了很多家在行业内影响深远的数据库公司。
在数据库领域,他是学术科研能力和技术产品化能力结合的典范。在飞刀的印象里,Stonebraker堪称真正的旗帜性人物。
在高校职教的八九年,让李飞飞更深入地认识到学校和工业界的不同。学校是一个相对来讲更加自由的氛围,造就的人也更加纯粹,科研就是把复杂的问题简单化,去找寻最本质的问题,而公司有更强的导向性,以市场、客户需求为导向。公司的短期目标更加明确。
「在公司里你要思考的是,如何将技术变成产品,如何将产品变成商品。而在学校里,你更关注的是在技术层面去创新突破,可能还没有到产品,或者远远没有到商品,这两者的能力象限要求是完全不同的。」李飞飞在采访中提到。
在高校做科研的岁月里,李飞飞获奖无数,获IEEE ICDE 2014 10年最有影响力论文奖、ACM SIGMOD 2016最佳论文奖、ACM SIGMOD 2015最佳系统展示奖、IEEE ICDE 2004最佳论文奖等,但是走出高校的象牙塔,工程化产品化的吸引力也在感召着他。
回国之前,李飞飞也多次接触过谷歌Facebook等硅谷大厂,但最终选择回国加入阿里,还要源于时任阿里巴巴CTO、现任阿里云总裁张建锋的一番话。
面试时, 张建锋的一句话深深打动了他,「技术创造新商业」,让飞刀深入思考起技术的本质。
「最后我想明白,我们从技术角度思考的是性能提升多少,成本降低多少,但最终本质上驱动这个社会发展演进的是商业的力量。」
从这个意义上讲,阿里云的达摩院和数据库事业部正是科研和商业的有机结合,钻研技术的同时还可以参与产品的商业化过程,正中靶心。
此外,阿里内部包括电商、物流、新零售、金融等在内的多样化业务和海量数据带来的丰富挑战也给了飞刀小试牛刀的用武之地。
「从一个历史长河的角度来看,能够创造商业价值的技术才是真正有生命力的,我真的是这样觉得。」飞刀总结说。
从清华附中起飞:「一口井」钻出云原生数据库
现实中也有很多类似双十一的场景,都需要一个可以弹性扩容的数据库来支撑。
就在2018年,阿里启动了一个「全面上云」的战役,将双11核心系统的计算、存储、网络、数据库全都搬到了阿里云上。
而在今年刚刚结束的云栖大会上,阿里巴巴宣布成立云原生技术委员会,同时推出了云原关系型数据库PolarDB、云原生分布式数据库PolarDB-X、云原生数据仓库AnalyticDB(ADB)、云原生数据湖分析DLA、云原生多模数据库Lindorm等一系列自研的云原生数据库产品。
这些产品不是孤零零的,而是形成了一个完整的体系。
此举也标志着阿里云数据库全面进入了云原生+分布式时代。阿里技术委员会主席王坚说,这将让阿里云与客户「坐在同一架飞机上」。
传统的数据库可以分类为OLTP、OLAP、NoSQL,它们面临的最大挑战就是要保证读写并发量很高的时候的一致性,避免读写错误的发生,以及海量数据的低成本存储和高效的计算与分析。
云原生(Cloud Native)数据库在这三个领域都有所应用。
要理解云原生,首先要理解的就是「云」。云不仅仅是把资源放到云端那么简单。传统的计算机架构中,资源都是「紧耦合」在一起的。
李飞飞举了一个生动的例子——水桶和井。井里的水需要打出来拿到厨房用,如果把厨房比作CPU,我们可以说水井和厨房是紧耦合的。
当用水多时,除了加大井的深度和宽度,还可以构建「分布式」的水井,通过某种装置把各家的水井连接起来。
但通过装置来调度每家每户的水井,这种「分布式」的过程也十分复杂,需要一个高效的调度系统。
理解了分布式,再来看云。
李飞飞表示,「云」的第一个本质就是「用虚拟化的技术将资源池化」。
用水井的例子解释「云」就是,表面上还是100口独立的水井,但是水井的底部已经连在一起,形成了一个隐形的池塘。
「云」的第二个本质是「资源解耦」,存储和计算要解耦合,再将存储和计算分别池化。这样的好处就是扩容可以变得非常灵活,如CPU的核心数和存储可以自由扩容。
云原生数据库就是通过资源池化、存储和计算分离、资源解耦,从而具备更高的弹性和高可用性以及分布式的能力,来满足业务对按需按量使用和按需按量付费的需求。
云原生关系型数据库PolarDB、云原生分布式数据库PolarDB-X、云原生数据仓库AnalyticDB(ADB)表面上看起来和传统数据库没有很大的区别,都具有存储引擎、优化引擎、界面引擎等,但是底层对资源的使用和调度却发生了翻天覆地的变化。虽然底层发生了变化,但希望对于用户来说,是一个透明的感受不到的改变。
李飞飞还表示,未来,多模态数据的处理问题和资源的智能调度,是云原生数据库要面临的挑战之一。
疫情期间,在线教育和游戏行业都发生了本质的变化,使用云原生数据库可以更好的满足弹性的需求。
不仅如此,云原生数据库还可以实现离在线一体化,数据处理与计算分析一体化,大数据与数据库一体化,帮助用户实现会数据库就会大数据,不再需要编写复杂的Hadoop和Spark程序,只需要简单的SQL就可以完成复杂的任务处理,大大减少用户的开发难度。同时,很多用户定位的时间问题也被缩短到了7分钟以内。
最后,李飞飞还表示,阿里云的云原生数据库坚持自主研发、自主可控,在生态上会100%兼容现有的数据库,用户不必担心未来被锁死在这里,可以按照需求进行灵活迁移。
云原生是趋势,技术创造价值才有意义
对技术的探索,帮助人类不断进步和提升,那什么样的技术才值得我们去追求?
李飞飞认为,要从本质上去思考,这项技术最终会不会变成一个可规模化,持续化产生商业价值的东西。
这个问题听着好像很空很大,但实际上静下心来去想,什么节点需要去做什么样的创新突破,就容易实现了,比如说云原生为什么是一个趋势。
因为资源解耦、弹性可扩展这些真的是变成了按需按量,就跟以前为什么从家家户户从水井打水喝水,演进成都用自来水一样,不喝随时可以停掉。
所以云原生数据库来,本质上是解决了资源使用效率和拥有资源成本的问题,这就变成了一个商业的问题。
那技术只有创造商业价值才是有意义的吗?
如果从人类文明的历史来看,很多技术在短期内可以没有商业价值。
但是,不能等到100年以后才变现,那这个技术就没有意义了。现在快速变化的环境下,最多三年,必须要把技术演进带来的商业价值和逻辑讲清楚,因为公司需要去不断地演进不断地提升运营效率。
做数据库的这些年,用李飞飞自己的话说,更倾向于从逻辑的角度去思考一些问题。
「比如说我会比较关注这个因果关系,相关性,比如说我看很多东西就会先想他是不是有相关性,有了相关性之后,再想这个是简单的相关,还是有内在的因果关系。」
未来,一切都将是数据驱动的,寻找数据之间的关联才能衍生新价值。
原文链接
本文为阿里云原创内容,未经允许不得转载。