全世界只有3.14 % 的人关注了
数据与算法之美
前两天,阿里云宣布开源“计算王牌”——实时计算平台Blink,回馈给ApacheFlink社区。官方称,计算延迟已经降到毫秒级:浏览网页的时候,你只是眨了一下眼睛,但在淘宝、天猫处理的信息已经刷新了17亿次。
DataArtisans(Flink创始公司)的 CTO Stephan Ewen还兴奋地表示:“阿里巴巴是Flink最大的贡献者之一,很高兴阿里能将内部优化的Flink版本开源给社区,让开发者享受到更先进的计算能力。”
那么实时计算到底是什么呢?
随着互联网的发展,大数据量爆发给企业带来了很大的业务压力,需要有高吞吐、低延迟的大数据计算解决方案服务自己的大规模数据业务场景。
传统的计算方式是把数据按照一定的时间间隔保存下来,再进行计算,虽然这个时间间隔被不断缩短,但还是有一定的问题。比如可能造成网购时的“超卖”。
2004年,Google的三篇论文开启了离线大数据处理的篇章,其中MapReduce被各大公司作为数据处理的主要方案,但PB规模数据计算是MapReduce难以逾越的瓶颈。
此后Spark发展至今,用批处理方式将大数据计算带入了分钟级的反应延迟,但在动态调整、事物机制、延迟性、吞吐量等方面并不优秀。
如今,流式主导的分布式计算正在主导大数据计算引擎将企业带入近乎实时数据环境,代表就是flink,基于流来模拟批,在技术上有更好的扩展性。
Flink早期起源于德国柏林工业大学的一个研究项目Stratosphere,并于2014年4月捐献给Apache软件基金会,同时重新定位品牌为Flink,经过8个月孵化期,在2014年12月成功从Apache软件基金会毕业,成为Apache顶级项目,从此开始在大数据领域航行。
2015年的时候,Filnk几乎没有人知道,更没有人大规模使用。但在同年的大数据峰会Hadoop Summit上已经有声音说:感觉Flink出来之后,Hadoop就显得不怎么需要了……
阿里是全球第一批使用Flink做大数据计算引擎研发的公司,2015年就引入内部,但最早Flink只能支持小流量互联网场景的数据处理。
阿里觉得Flink很有潜力,决定进行改造,并把这个内部版本取名Blink,是英文眨眼的意思:“一眨眼,所有东西都计算好了!”
2016年,阿里和DA的创始人Kostas 和Stephan在当年的Hadoop Summit大会上做了唯二的两场Flink演讲。
Kostas提前看到了议程,感到相见恨晚,主动联系了阿里,希望阿里能用团队研究的成果影响社区。
阿里负责人深受感动:“从那时候开始就觉得,我们不仅得把阿里内部的业务做好,还要为Flink社区做贡献,把Flink社区做好。”
就这样,阿里跟组织“接上了头”,成为了Flink社区的核心成员,也成为Flink后来欣欣向荣的关键。
2016年同年,阿里开始尝试:让实时计算支撑“双11”上的实时机器学习任务。双11当天,数亿人在淘宝天猫搜索商品,他们的每次查看,点击,都会影响个性化的智能推荐,在下一秒就能看到为自己量身定做的宝贝推荐。而这背后的实时计算,都由 Blink 来支撑。
2017年双11,Blink又成功支持全集团(阿里巴巴、阿里云、菜鸟)所有交易数据的实时计算任务,也验证了Flink可以通过改造支持企业大规模数据计算的场景。
Blink最初上线只有数百台服务器,现在规模已达上万台,这样的规模在全球范围内也是屈指可数。基于Blink,内部积累起来的状态数据已达PB级;每天在Blink的计算平台上,处理的数据已经超过万亿条;在峰值期间可以承担每秒超过4.72亿次的访问,最典型的应用场景是阿里巴巴双11大屏。
经过最近4年的持续快速发展,Apache Flink社区已经培养出42名Committer和19名PMC Member,不断加入的新鲜血液为Apache Flink社区持续贡献代码,并推动社区健康快速的发展。
其中,阿里为Flink社区贡献近20万行代码改动,参与建立了首个Flink中文社区。
过去几年,Flink的采用量增长了125%。
国内,BAT三家中阿里巴巴和腾讯都已经完全拥抱了Flink。美团、滴滴和字节跳动三家新兴互联网企业也都以Flink作为主流技术方向开始建设:美团的实时计算集群也已经突破4000台规模,字节跳动的Flink生产集群规模更是已经令人惊讶的已经超过了10000台规模 。
国际上,Uber、Netflix等大企业也都已经用上了Flink,还有法国第三大移动通信运营商布衣格电信、全球第二大B2C在线零售商Otto、欧洲领先的在线时尚平台zalando等。
看到Blink开源的消息后,开源圈热议,相信计算正在进入一个更快、更好的时代!
版权归原作者所有,转载仅供学习使用,不用于任何商业用途,如有侵权请留言联系删除,感谢合作。
我们联合「机械工业出版社、图灵新知、人民邮电出版社、华东师范大学出版社、科学出版社」给大家精心挑选了 100 本优秀数学读物,免费 送给大家。包含:
假如你想参与,在后台回复「锦鲤」即可,数据与算法之美“史上最惨锦鲤”正在等你。
活动时间:1月30号至2月11号
结果公布时间:2月11号
精品课程推荐:
选购数学科普正版读物
严选“数学思维好物”
送给孩子的益智礼物 | 办公室神器
算法工程师成长阅读 | 居家高科技
理工科男女实用型礼物精选
----点击头像关注----
超级数学建模
数据与算法之美
少年数学家
数锐学堂
惊喜酱(个人号)
玩酷屋COOL