从搜索引擎到核心交易数据库,详解阿里云神龙如何支撑双11

简介: 订单峰值58.3万笔/秒,销售额4982亿,阿里云神龙再次成功扛住了全球流量洪峰

2020年的双11,天猫又创造了新的纪录:订单峰值达到创纪录的58.3万笔/秒,销售额达到历史新高4982亿,阿里云神龙再次成功扛住了全球流量洪峰。2020年是双11全面云原生化的第一年,也是神龙架构顺利支撑双11的第三年。

 

image.png

今年双11,基于第三代神龙架构,搜索、广告以及核心交易数据库等存储和网络高负载业务完成全面云化,神龙输出千万核CPU计算能力,完成了阿里巴巴经济体所有业务负载100%在神龙公有云部署。

两年前,阿里云神龙首次支撑双11大促;去年,双11核心系统全面on神龙;今年,双11所有业务部署在神龙公有云。神龙架构已连续三年顺利支撑双11,每年不变的是一如既往的表现平稳,为用户提供了如丝般顺滑的购物体验,而变化的是神龙架构的不断升级和迭代。

本文将为大家揭秘双11最具挑战的搜索广告、金融级业务核心交易数据库如何迁移至第三代神龙架构,再详解神龙架构如何支撑阿里巴巴最大规模云原生实践落地,最后是神龙架构如何通过宕机演练大考、备战双11的背后故事。

最具挑战、没有之一,搜索广告业务升级至第三代神龙架构

对于电商平台来说,搜索功能是最核心的功能,百微秒的结果展示延迟都将直接影响到平台用户最终交易的转化,用户体验至关重要。所以,搜索广告业务对计算和网络的性能要求是极尽苛刻的,而这也是目前神龙架构面临的最具挑战的业务,没有之一。

今年双11,搜索广告业务支撑了数以千计的会场场景,日均商品曝光千亿次;日均模型发布上万次,单模型容量1TB+,模型参数达千亿级,实时每分钟更新1亿模型参数;日均样本数据处理达100PB,单次请求超过200亿次浮点运算。这些数据的背后,搜索业务团队对底层基础设施提出了两大挑战。

1、极致的性能需求,要求双向百G全线速处理网络流量

根据历史数据预测,双11凌晨零点线上搜索广告业务的网络带宽将达到双向100G极限全线速,所以要求基础设施资源能配合提供双向100G全线速(line speed)流量带宽处理的能力,以确保顺利支撑零点流量峰值。实际在双11当天零点,线上大部分网络流量均来自搜索广告业务的弹性裸金属实例,网络带宽均如预期达到了极限全线速。

第三代神龙架构,通过网络硬件加速实现了网络带宽全线速处理,可以提供100Gbps网络带宽、2400万PPS网络转发和100万云盘IOPS,极好地满足了搜索广告业务双向100G全线速流量带宽的处理需求,不仅帮助搜索广告业务顺利扛过了双11零点流量洪峰,同时还提升了资源的利用率。

2、进一步提升离线搜索和在线搜索混部服务质量

搜索广告业务分为在线搜索和离线搜索,这两个系统对资源的需求是天然互斥的:离线搜索业务要求极高吞吐能力,需要确保数以亿计的数据可以在15分钟内完成处理完成;在线搜索则是对时延有极高的要求,需要确保1000万数据亚秒级处理的实时性和极高的可用性。

第三代神龙架构引入了高级QoS特性,可多级调度网络和存储QoS,实现多维度精准调度,极好地支撑搜索广告的离线业务和在线业务混部,最终帮助搜索广告业务实现了同时达到在线业务低时延和离线业务高吞吐的混部业务目标。

事实上,在阿里巴巴集团实际的业务场景中发现,在同样的资源配置的情况下,神龙裸金属比普通物理机的QPS可以提升30%,延时可以降低96.3%,资源利用率也有大幅提升。

扛住58.3万笔/秒新峰值,核心交易数据库on神龙

11月11日零点刚过26秒,天猫双11订单达到58.3万笔/秒的峰值,是2009年首次双11的1457倍,每一笔剁手交易操作都会经历一系列核心交易数据库的处理,如何保证全球最大规模交易高峰的海量订单的有序、准确和顺滑成为了核心交易数据库的挑战。

众所周知,数据库本身就是一个重存储的业务,核心交易数据库更是对资源的IOPS、时延等性能指标极其敏感。双11核心交易数据库之所以选择神龙架构,是因其能够满足“高并发、低时延、高稳定”三大需求。

高并发:在双11这样全球罕见的超大规模并发量场景下,计算能力是一个关键因素。升级迭代后的第三代神龙架构,存储和网络性能均达到500%提升,VPC云网络全线速转发,存储IOPS可达100万,存储每秒吞吐量可达到5GB,完全可以满足核心交易系统的交易高峰的订单处理需求。
低时延:得益于神龙芯片的加速能力,基于神龙架构的第六代增强型实例读延迟最低200 μs,写延迟能力100μs,每一个数据包最低延迟为20μs。在实际场景中,非常好地满足了核心交易数据库的时延需求。
高稳定:与其他无状态业务不同的是,核心交易数据库要求金融级的稳定性和容灾。稳定性恰恰也是神龙架构最重视的,神龙架构自研了非常轻量级的Dragonfly Hypervisor,在计算的抖动性方面可以做到百万分之一级别。得益于此,神龙架构顺利帮助核心交易数据库顺滑地支撑了双11购物季。

神龙架构,为全球最大规模的云原生实践提供支撑

2020年双11最重要的是完成了全球最大规模的云原生实践,创造了诸多的“云原生的第一次”:80%核心业务部署在阿里云容器ACK上,可在1小时内扩展超百万容器;首次大规模应用Serverless,弹性伸缩性能提升10倍以上;云原生中间件峰值调用量超百亿QPS。

与此同时,计算的纪录也被不断刷新:实时计算Flink处理峰值达40亿条/秒,相当于一秒看完500万本新华字典的所有信息;MaxCompute单日计算数据量达1.7EB,相当于为全球70多亿人每人处理230张高清照片。

神龙架构是真正为云原生场景打造的计算平台,为这场最大规模的云原生实践提供了坚实的底座。神龙架构通过I/O offload芯片加速,对容器等产品适配程度极高,能高效调度和自动化弹性伸缩的容器化产品,具备在3分钟启动50万核vCPU的极速弹性能力。

事实上,从设计到实现,神龙架构都是“为云而生”,不仅使得阿里云服务器比传统物理服务器性能更强劲,还能极大地帮助客户节省计算成本。最终,神龙架构为这场云原生化运动带来了澎湃动力和极致效能:每万笔峰值交易的IT成本较四年前下降了80%,规模化应用交付效率提升了一倍之多。

单实例可用性99.975%的底气,平稳应对“宕机”突袭大考

全链路压测演练是备战双11必不可少的环节,我们为突袭演练专门设计了App,简化成一个“按钮”,串联了阿里巴巴经济体的各种技术架构和业务手段。今年的演练多了一些意料之外的实弹突袭,包括断网攻击、集群宕机攻击和数据中心断电攻击等。突袭攻击如此凶猛,让技术工程师们没有一丝丝的防备。

10月某个凌晨的2点,“按钮”被按下,神龙云服务器被注入故障代码,一个拥有近千台服务器的集群瞬间宕机。

不到2分钟,运维监控大屏显示网络数值迅速下跌,技术保障团队迅速锁定故障源头、启动应急预案,紧急展开修复,随后确认主备切换。

10分钟,主备云服务器完成切换,一切恢复如常。

这似乎很疯狂,但能让公司提前为包括宕机在内的各种故障做好准备,将其影响降至最低,同时倒逼阿里技术持续进化,包括神龙架构。

神龙架构在这次宕机突袭中表现突出,架构健壮性经受住了大考,这要归功于ECS提供的主机迁移的功能,其实现依赖于配置可迁移、资源可迁移,网络可迁移,存储可迁移等关键技术,可以最小化降低客户业务中断。

同时,神龙架构还汇集了阿里云十年累积的上百万服务器历史故障数据、异常预测算法以及软硬结合的故障隔离、硬件加速的热迁移等能力于一身,能够保障70%以上的常规软硬件故障在发生之前无感消除。这些也是使得阿里云敢将单实例可用性目标提升至99.975%、多可用区多实例可用性目标定为 99.995%的底气所在,这也是双11所有业务敢上云的原因之一。

作为阿里云基础产品部门最大的跨部门协同项目,第三代神龙架构迭代升级涉及到神龙计算、ECS、VPC、存储、AIS服务器和AIS物理网络等众多团队,更是经过长达两年的预研评估、产品立项、技术研发和灰度测试,最终才完成了阿里巴巴经济体所有业务负载100%在神龙公有云部署。双11是阿里云产品、技术和服务最大的“试炼场”,全量并顺利承载双11大促所有业务就是神龙架构能力最好的证明。

当前,阿里云自研的神龙云服务器支撑了各种流量高峰:如12306的春运抢票、微博热点的暴涨流量、钉钉2小时扩容10万台云服务器等。未来,历经多年双11实践考验的神龙架构将致力于更好地帮助客户实现业务的快速创新和飞跃。

 

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/514627.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

云网一体,“湘遇湘融 | 移动云TeaTalk·长沙站 启动倒计时

在企业数字化转型、云服务和国家政策等多重因素驱动下,越来越多的企业、行业和政府机关将业务迁移到云上,单一化的网络连接模式已经不能满足企业“多系统、多场景、多业务”的上云需求,而是要求云和多样化网能力高度协同。中国移动作为运营商…

matlab save txt 乱码,matlab代码或中文复制到word就变成乱码怎么办?

在matlab的edit中编辑的脚本程序复制到word时,注释里面的汉字变为乱码怎么办。下面教你两种解决办法。软件名称:Matlab 7.0.1 R14 SP1 (3CD带序列号)免费版软件大小:1.17GB更新时间:2012-11-03立即下载1、这是我在matlab的edit下面…

EMAS 移动 DevOps 解决方案 —— Mobile DevOps

简介: DevOps这一优秀的软件交付理念在服务端已经有很多相关的实践,那么是否也可以应用到移动端进行交付呢?基于移动端和服务端场景的差异,移动DevOps跟服务端DevOps又有哪些不同和挑战?本文分享阿里云云原生应用研发平…

MongoDB 5.0 来了,原生时序、版本化 API 新特性悉数登场

作者 | 伍杏玲出品 | CSDN云计算(ID:CSDNcloud)据 DB-Engines 数据库最新 7 月流行度排行榜显示,前五名十分稳定:Oracle、MySQL、Microsoft SQL Server、PostgreSQL、MongoDB,其中 MongoDB 是唯一的文档型数…

阿里云Lindorm与Intel、OSIsoft共建IT OT超融合工业数据云

近日,阿里云Lindorm与Intel、OSIsoft推出了面向工业物联网信息经济(Infonomics)的IT & OT超融合工业数据云解决方案。方案通过云端打通阿里云、Intel的IT技术积累和OSIsoft的OT经验能力,实现对传统技术供需关系的超越&#xf…

wamp php5.6 mysql5.6,WampServer 3.0.6 多语言版 集成apache2.4.23 mysql5.7.14 php5.6.25-7.0.10 穿墙书店...

WampServer是一款由法国人开发的Apache Web服务器、PHP解释器以及MySQL数据库的整合软件包,就是Windows Apache Mysql PHP集成安装环境,即在window下的apache、php和mysql的服务器软件。免去了开发人员将时间花费在繁琐的配置环境过程,从而腾出更多精力去…

阿里云数据中台助力零售耐消品新客获取与转化

天猫消电家装联合安永战略咨询基于阿里巴巴品牌数据银行AIPL的资产积累与流转情况,设计了数字化新客运营指标体系NEW。 这一体系以消费者资产作为品牌方经营的运营基石,基于消费者人群的评估、监测、驱动来带动品牌当下及未来商业的增长。关于NEW这一指…

字节大数据手册火了 ! 离线数据/实时数据/数据仓库ETL/实时交易系统/啥都有 !...

最近有幸在一位字节跳动大数据高级工程师手里扒到了这份学习笔记,将部分知识章节发布到了在B站上竟然获得了5000点赞!本来想将文件上传到github上,但由于文件太大有的都无法显示所以直接整理成多个文件夹,供大家学习,也…

专访阿里云 Serverless 负责人:无服务器不会让后端失业

2012 年,云基础设施服务提供商 Iron.io 的副总裁 Ken 谈到软件开发行业的未来,首次提出了 Serverless 的概念,为云中运行的应用程序描述了一种全新的系统体系架构。此后,以 AWS 为代表的云服务厂商将 Serverless 概念逐步落地&…

php模糊搜索慢怎么办,MySQL中文模糊检索问题的解决方法_php

mysql中文模糊检索问题的解决方法来源:林兴陆在 MySQL 下,在进行中文模糊检索时,经常会返回一些与之不相关的记录,如查找 "-0x1.ebea4bfbffaacp-4%" 时,返回的可能有中文字符,却没有 a 字符存在。…

消息队列RocketMQ性能测试案例

1. 消息队列RocketMQ性能测试案例 1.1 RocketMQ测试分析 客户场景,信息共享交换平台: 1.交换平台需支持每秒万级别数据传输 2.实现跨路段、跨部门、跨行业、跨区域信息即时共享,做到高可靠、低延迟 客户现场展示场景设计思路: 1…

揭秘百度微服务监控:百度游戏服务监控的演进

导读:臣闻防患于未然者易,除患于已然者难 —— 明马文升《添风宪以抚流民疏》作为一个程序员,是否有留意到每逢节假日在各大景区时有程序员打开电脑紧急处理线上问题?如果线上出现大量的报警,这时我们该如何判断是自身…

「更高更快更稳」,看阿里巴巴如何修炼容器服务「内外功」

作者 | 守辰、志敏来源|阿里巴巴云原生公众号 11 月 11 日零点刚过 26 秒,阿里云再一次抗住了全球最大的流量洪峰。今年 双11 是阿里经济体核心系统全面云原生化的一年,相比去年核心系统的上云,云原生化不仅让阿里享受到了云计算技术成本优化…

云原生应用架构转型不好做?阿里云这个平台让你一步到位!

云原生实践带来的挑战 阿里云云原生为企业提供了完善的容器服务、函数计算、微服务体系、中间件体系。每个服务都有伸缩性、弹性和组合性,通过产品选择或组合搭建,能轻松完成应用与运行环境解耦,和传统应用研发模式具有较大差异。从传统研发…

对话MathWorks:解读MATLAB技术生态圈与未来趋势

37年前的1984年,MathWorks公司在美国加州成立。在成立的第14个年头,销售额就达到了一个亿美金。如今MathWorks公司在全球有超过5000名员工分布在34个办公室,2020年的销售额已达12亿美金。众所周知,MathWorks手握MATLAB和Simulink两…

如何基于DataWorks构建数据中台?

一 新零售的商业模式 一家新零售企业如果要做数据中台的话,首先很重要的一点就是一定要懂业务。之前有位同学问过我,说数据中台很难建。在我看来,数据跟业务是息息相关的,在构建整个数据中台的时候,首先要对业务有一个…

浪潮云海OS再度登顶 SPEC Cloud性能得分「全球第一」

近日,国际标准性能评测组织SPEC(Standard Performance Evaluation Corporation)公布最新云计算性能 Cloud IaaS 2018 Benchmark 测试成绩,在同规模测试场景下,浪潮云海OS再次刷新世界纪录,性能得分全球第一…

降本增效利器!趣头条Spark Remote Shuffle Service最佳实践

王振华,趣头条大数据总监,趣头条大数据负责人曹佳清,趣头条大数据离线团队高级研发工程师,曾就职于饿了么大数据INF团队负责存储层和计算层组件研发,目前负责趣头条大数据计算层组件Spark的建设范振,花名辰…

道旅:使用ARMS做业务监控数据清洗

作者:折松,阿里云解决方案架构师 深圳市道旅旅游科技股份有限公司(简称:道旅)是一家总部位于中国的全球酒店资源批发商。自2012年成立以来,道旅凭借其全球优质的直签产品和丰富的第三方产品,以…

日分发量破8.6亿,OPPO如何帮助开发者突破流量增长瓶颈

编辑 | 宋慧 出品 | CSDN云计算 头图 | OPPO软件商店开发者沙龙现场图 7月20日,OPPO软件商店开发者沙龙在北京成功举行,沙龙以「破解流量密码 解锁增长关键」为主题,基于应用分发行业洞察,围绕流量增长、服务赋能、开发者出海、本…