摘要: 2017天猫双11再次刷新纪录,这背后是大数据的支撑和阿里云计算的能力的体现。手淘、天猫APP主站的所有图片和视频都存储在阿里云对象存储OSS之上,全球数以亿计的消费者,对这些商品的访问的流量和并发次数,比成交笔数高得高。
阿里云存储支撑双11新记录
2017天猫双11全球狂欢节,全天成交额再次刷新纪录达到1682亿元,全天支付总笔数达到14.8亿,全天物流订单达8.12亿,全球225个国家和地区的消费者参加。新零售能量全面爆发,全球超100万商家线上、线下打通,近10万智慧门店、超50万零售小店参与“全球共振”。
这背后是大数据的支撑和阿里云计算的能力的体现。手淘、天猫APP主站的所有图片和视频都存储在阿里云对象存储OSS之上,全球数以亿计的消费者,对这些商品的访问的流量和并发次数,比成交笔数高得高。正是阿里云存储多年技术积累的整个链路低延迟和高稳定性,支撑天猫双11的流畅体验。
阿里云存储有着最丰富的存储产品,从前期技术平台构建、当天全球狂欢节支撑、后期数据沉淀分析,全面支撑双11,为客户带来更个性、更流畅、更丰富的体验。
支撑海量互联网应用的对象存储OSS
2017年天猫双11全球狂欢节,超过14万个明显品牌,1500万种商品参加。同时,全球超100万商家线上、线下打通,近10万智慧门店、超50万零售小店,参与新零售新形态购物狂欢。在购物交互上,双11采用VR/AR、视频直播点播等丰富的新形式。
2017年天猫双11,所有商品的详情页、商品展示和评论图片和视频、VR/AR活动页图片视频素材,100%地存储在OSS上。而这些海量的网页、图片、视频,吸引了全球消费的访问。
OSS的全称是Object Storage Service, 提供简单的网络访问接口(RESTful API),可以随时从网络上的任何位置,任何时间,来读写任意数量的数据。同时OSS是一个全托管的服务,提供安全、容量和性能的扩展性,容灾等服务能力,使得用户可以聚焦在自己的应用逻辑上面。
OSS支撑双11的技术能力
面向互联网的设计
OSS支撑了2017天猫双11,来自全世界各地超过225个国家和地区的消费者,通过各种终端、各种操作系统、各种运营商网络,查看其心仪的商品图片和视频、参与双11的互动。
OSS面向互联网设计,与访问终端、平台无关,天生适合互联网应用。互联网上的设备,云上的服务器,Web浏览器以及分散在世界各地的CDN节点都可以通过OSS对外的HTTP/HTTPS的访问接口来写入,读取和操作自己的数据。
OSS凭借面向互联网的访问便利性、稳定可靠的存储服务,已经应用在国内外主流互联网应用,如互动直播、在线视频、电商APP、游戏应用、基因计算等。而新浪微博,映客,亿方云,华大基因,安诺优达,努比亚手机等知名企业也纷纷采用阿里云OSS作为数据的存储。
海量存储能力
OSS支持EB级别容量和万亿级别文件数的线性扩展能力,支持日益增大的数据存储空间和数量的需求。EB级的容量,形象一点就是一部高清电影大概是5GB,那么1EB就相当于是两亿部电影。万亿级别文件数的线性扩展能力,这就超越了传统情况下大家对于文件系统的认识,并且文件访问的性能不会因为文件数量的增加而产生任何影响。
天猫双11数千万商品的网页、图片、视频等数据存储,要求存储空间、文件数量要求非常大。而除了这些产品,淘宝、天猫其他所有商品以及主站所有图片、视频的容量、文件数更加庞大,而这些也都是存储在OSS上。
高性能的全球化服务
今年天猫双11交易峰值32.5万笔/秒,支付峰值25.6万笔/秒。而存储在OSS的商品页面、商品展示、经历的流量和访问次数就比这个数字要高百倍以上了。而这些网页、商品展示和评论的图片、视频都存在OSS。
阿里云对象存储OSS依托高性能的阿里云数据中心网络,软件栈方面的大量优化,提供全球可达的高带宽低延迟的访问。
凭借全球化的产品服务布局,以及3+N的多线BGP接入能力和稳定出色的系统访问延迟,OSS受到了像新浪微博,映客,陌陌等大型移动互联网APP的青睐,将作为OSS源站向全世界提供服务。
高安全性
电商的交易信息、商家的商品实拍图片等数据,和很多业务系统一样,都需要考虑安全性,进行权限分级管控,并防止盗链、DNS劫持等,而OSS很好地提供了这些问题的解决方案。
OSS提供丰富和强大的数据安全能力:
访问控制:安全灵活的授权访问控制机制,支持Bucket/Object级别的细颗粒度的授权策略。
访问来源:提供防盗链、IP白名单、VPC网络等安全稳定的互联网或者专有网络的访问能力。
系统级安全:阿里云全面的安全合规保障以及丰富的安全产品,给整个业务系统安全保障
访问日志:提供访问日志,可方便地审核、分析访问信息。
加密存储:提供多种数据加密持久化解决方案
传输加密:对内网、外网、VPC专有网络都全面支持https协议,保障传输安全
高可靠性
双11的电商、交易、支付、物流系统的数据,对于可靠性都有非常严苛的要求。而OSS基于阿里云存储的技术积累提供至少10个9(11个9如果是多可用区)的可靠性和完整性保障。
数据高可靠性:
每一份数据成功地写入三副本(来自不同的可用区,或不同的机架)后才返回。而且自动巡检系统不停地检测不可用的副本,一旦出现,自动地及时复制,使得每一份数据任何时刻至少有2个及以上的副本,提供至少10个9(11个9如果是多可用区)的可靠性。
数据完整性:
OSS也提供端到端的基于MD5、CRC64的数据校验的功能。
异地容灾:
OSS提供了跨区域复制功能,用户通过简单的设置,即可自动地实现数据异地容灾备份。
OSS底层基于世界领先的阿里云统一存储平台——盘古
盘古文件系统在生产系统中采用跨多可用区部署的方式,经典的模式是支持横跨三个可用区,每个可用区距离30公里到50公里。无论是三副本还是EC(纠删码)副本,都是均匀分布在三个可用区内。
任何一次写入都在三个可用区数据落盘后才会返回客户成功。由于各可用区的数据中心有独立的供电,网络和冷却系统等,跨多可用区的存储提供了数据中心级别的容灾能力,在任一可用区完全不服务的情况下,整体服务无缝切换,数据无任何丢失。
跨多可用区对阿里云内部核心骨干网络的要求非常极高,端到端的延迟要求在稳定1毫秒以内,并且有Tb级别带宽能力。阿里云投入了大量的资源来建设高容错能力和高性能的多可用区互访的内部核心骨干网络。
OSS不仅是“存储”
阿里云对象存储OSS不仅是“存储”,依托高性能的阿里云数据中心网络,以及丰富的与开源计算系统和阿里云自研的计算系统的集成,提供了方便,简单,和经济划算的数据分析和加工能力。
OSS丰富的计算生态
OSS是中国第一家也是唯一一家被官方Hadoop社区接纳为缺省的对象存储文件系统;意味着全球所有的Hadoop生态的离线、交互、数据仓库、深度学习等程序在不需要改代码的情况下,自由读写OSS的对象存储。
开源的分布式内存文件系统Alluxio原生支持OSS,让存储在Alluxio内存文件系统中的数据可以使用OSS来作为持久化存储介质和数据交换平台。
阿里云的E-MapReduce产品中的Hadoop组件也直接使用OSS作为存储后端进行数据存取。
阿里云的MaxCompute计算平台通过阿里云内部Tb量级的网络通道,对OSS的数据进行分析和加工。
阿里云的机器学习平台PAI,并行处理数据仓库服务HybridDB等产品也都和OSS存储联通。
阿里云不仅投入了大量的资源来建立高带宽低延迟的数据中心物理网络,软件栈方面,我们也进行了大量的优化:QoS的管理和支持,前后端流量的管理,最小化通信库的软件开销,数据中心网络传输拥塞技术优化等。
通过丰富的计算和分析能力,一流的数据中心网络,以及高性能的数据访问,OSS系统成为共享的数据湖,一份数据被多种计算系统共享,达到存储与计算解耦的效果,使得资源的利用率最大化。
OSS的计算应用助力双11点亮“人机协同”
OSS与Hadoop、Alluxio等开源生态、阿里云的计算产品结合,让数据产生价值。而天猫双11机器智能的大规模应用也是一大技术亮点,今年的双11成为人类历史上最大规模的人机协同。
大量智能机器人组成的“新物种”军团,已经渗透到此次天猫双11全球狂欢节的各个角落,从挑选货品、导购推荐、客服、设计海报、巡逻机房到管理仓库……它们开始和人类一起,协同完成双11的各项任务。
比如,基于阿里云存储OSS与阿里云机器学习平台PAI,搭建的机器学习训练预测平台,可以实现用户购物习惯分析,进行精确地个性化商品推荐,做到“千人千面”,让用户在抢购时更节省时间、体验更好。
不仅如此,在繁荣的多媒体行业的催生下,OSS在对象存储的基础上,发展了自己的特色API能力,通过提供一站式的图片处理功能,RTMP协议支持,APPEND追加写入等功能,形成了图片社交解决方案,直播推流解决方案,短视频解决方案,云相册解决方案,让移动互联网APP的开发周期大大缩短。
比如利用OSS的图片存储与处理方案,存储在OSS上双11的商品的图片、视频,可方便地进行图片的缩放、加水印,以及将鉴黄等处理。
OSS全面覆盖从热到冷的存储场景
当业务系统运行多年,会有很多不同“温度”的数据。比如天猫双11这几年,每天都会产生海量的数据,这些数据根据生命周期、业务形态的不同,温度也不同。有些是经常需要访问分析、有些访问频度较低、有些几乎不访问主要是备份归档。
阿里云对象存储OSS提供标准(Standard),低频(IA:Infrequent Access)和归档(Archive)三种存储类型,全面覆盖从热到冷的各种数据存储场景。作为OSS的特色:
提供了生命周期(Lifecycle)的自动管理,根据用户设置的策略在不同类型之间进行自动转化,节省用户的存储成本和管理成本。
统一的RESTful接口来访问不同类型的OSS存储,即使一个文件的存储类型通过Lifecycle自动进行了改变,应用程序不需要修改。其他存储厂商通常要求使用不同的接口来访问不同的存储类型。
归档存储的解冻时间小于60秒,不同于其他存储厂商需要若干小时。
高可用的海量结构化/半结构化数据存储-表格存储TableStore
海量结构化和半结构化数据则可以使用表格存储。表格存储在2011年开始在阿里巴巴内部使用,为阿里云邮箱、大数据分析MaxCompute、云OS等提供了海量元信息的存储与实时访问,每天承接着数百亿次的API调用访问。
2017年天猫双11,全天支付总笔数达到14.8亿,全天物流订单达8.12亿、包括商家客服与买家沟通的即时消息平台,生成大量的数据、并发请求,充分体现了表格存储TableStore的高性能和稳定性。
表格存储分布式共享存储技术,单表可扩展到PB级、千万级QPS
表格存储底层使用了分布式共享存储技术,通过自动分区Partitioning机制和特有的自动负载均衡Load Balance机制,在数据规模与访问并发上具有极好的扩展性。单表可以在无人工介入的情况下轻松扩展至PB级数据量与千万级QPS的访问能力,其高并发低延时的特点也使表格存储在2014年正式对外商业化之后迅速在社交、金融风控、电商交易、日志监控、物联网等行业获得了大量用户的青睐。
高性能与容量型应对不同的应用需求
针对不同的应用需求特点,表格存储提供了高性能与容量型两种实例规格。对读写性能敏感的社交、游戏、金融风控等场景可以使用高性能实例,高性能实例采用全SSD介质,在保证3份数据强一致性的情况下,提供个位数毫秒级的访问延时。而容量型实例则采用特有的混合存储介质,在不降低写性能的情况下提供更具性价比的数据存储及访问成本,适用于日志监控、物联网时序数据存储等对读性能不敏感但对成本较为敏感的业务。
行业应用场景的优化
不仅如此,表格存储针对特定的行业应用也推出了一些特有的功能,例如针对社交IM场景推出了主键自增列功能,去掉了IM系统中对第三方自增ID生成器的依赖,简化IM系统的架构设计,大大提高了系统的响应并发。
自有的增量Stream功能,配合阿里云的函数计算和阿里云流式计算,能够很好地同时满足海量结构化数据的存储与实时计算的需求。与MaxCompute、ADS以及Hive、Spark的数据打通,也真正兼顾了海量结构化数据的存储与分析的应用场景。
向传统与新兴科技同时发起冲击的新一代文件存储NAS
天猫“双11”应用了容器技术,应对业务的实际流量超过预想快速扩容的需求。而在Docker、HPC等全新应用的场景下,如何为计算节点提供高可靠,高弹性,高性能,多共享的文件系统已经成为NAS领域一个新的挑战和趋势。
而阿里云共享文件存储NAS,很好地解决了这些挑战。相对于OSS在互联网存储上的流行,共享文件存储NAS在传统应用转型上云过程中发挥着巨大的作用。阿里云选择通过公共云NAS的方式来推动非互联网应用业务升级,数据上云。
阿里云NAS的新优势
与传统的NAS不同,阿里云NAS:
既具备了数据高可靠、完整性、完全托管服务,面向容错的设计和按量计费等云存储的特性;
线性扩展scaleout能力和丰富的安全控制和管理能力。
全球唯一一款云上同时支持CIFS/SMB和NFS协议的云上NAS系统,更好地满足Windows和Linux的云服务器对高效共享文件存储的需求。
高性能与容量型应对不同的应用需求
阿里云NAS分为性能型和容量型两种:
性能型NAS采用全SSD的介质,满足I/O密集型应用的需求。
容量型NAS采用混合存储的方式,写路径通过SSD,读路径从HDD,在不降低写性能的前提下,提供经济实效的 PB级共享文件存储。
NASPlus面向行业应用的优化
同时,在2017年5月的成都云栖大会上,阿里云发布了行业性NAS Plus。
NAS Plus针对广电行业并发路数多,顺序写性能要求高的特点,满足制作系统高带宽,低延迟,以及随机读性能要求高的要求,NAS Plus做了性能上的全链路优化,并且与合作厂商华栖云进行了深度合作,在防火墙技术、Hardlink跨卷共享、智能拼接以及帧级共享,快速检索等方面做了深度优化。在与企业中高端NAS的PK中,阿里云的NAS系统全面超出。
NAS Plus不仅仅是针对广电的定制化版本,而是开创了一种模式,与行业的深度整合能够给客户带来数量级上的体验改进。NAS Plus不仅仅可以用于广电,也可以用于基因、渲染、机器学习等领域,并且能够与行业的使用方法做深度的整合。
传统IDC数据上云的加速器-混合云存储
1小时内10万台服务器的快速扩容能力——双11混合云实践
在2017天猫双11创纪录超大规模交易需求轻松应对的背后,阿里巴巴混合部署了在线计算、离线计算以及公共云,构建了全球最大规模的混合云,能实现1小时内10万台服务器的快速扩容并满足金融级安全保障,支撑双11买、卖、付、送各环节在云上的顺利进行,成为天猫双11为世界贡献的中国技术方案,更助力推动着中国商业和经济的转型升级。而背后支撑的技术方案中,就有阿里云混合云存储方案。
混合云存储完善连接与传输能力
混合云存储的关键在于连接和传输,阿里云针对连接,易用性和传输在2017年连续推出了一系列混合云的产品组合,包括云存储网关,混合云存储阵列,备份服务,容灾恢复服务,和闪电立方数据搬迁服务。
云存储网关是一款可以在线下和云上部署的软网关,以阿里云上的OSS作为后端存储,可在企业的内部IT环境和基于云的存储基础设施之间提供无缝、安全的集成。云存储网关支持标准的NFS和CIFS协议,支持VMWare/KVM/HyperV环境部署,提供本地缓存模式,让本地存储与云的链接具有更好的互操作性和性能。
混合云阵列则是阿里云混合云存储战略的重中之重。混合云阵列让您可以像本地存储一样使用和管理本地和云端的各种存储资源(块、文件和对象),本地存储通过云缓存、云同步、云分层、云备份等方式无缝连通云存储。混合云阵列不仅可以作为传统存储与云的连接器,而且因为混合云阵列的高稳定性和性能,支持双控机头的模式,在一些场景下也可以直接替代传统存储成为混合云中的一级存储。
备份和容灾恢复服务是大量企业需求的混合云存储服务。云存储网关和混合云阵列能够帮助数据上云,同时也能够让云上和云下形成灾备机制。
当用户在本地机房有PB量级的数据,需要在短时间内进行迁移时,离线数据搬迁能力显得尤为重要,阿里云推出的闪电立方产品,单台一次支持480TB的迁移能力,且可横向拓展,利用多台设备可以同时迁移PB级别的数据,使得海量数据快速上云成为可能。除了加速数据迁移的速度,整体费用与专线方式对比,也降低60%以上。