Flink + 强化学习搭建实时推荐系统

大家好,我叫许日花名欢伯,在2016年盒马早期的时候,我就转到了盒马的事业部作为在线数据平台的研发负责人,现在阿里云的计算平台负责DataWorks的建模引擎团队。今天的分享内容也来源于另一位嘉宾李启平(首义),他一直是盒马从初创到现在的数据研发负责人,有非常资深的数仓及数据中台建设的经验,之前也是阿里巴巴国际业务的数仓负责人。今天我给大家分享一下,盒马新零售基于DataWorks搭建数据中台的实践。

一、盒马的商业模式

大家做数据的话,首先很重要的一点就是一定要懂业务。之前有位同学问我,说数据中台很难建。在我们看来,数据是跟业务息息相关的,我们去构建整个数据中台的时候,首先要对业务有一个非常深刻的理解。盒马是近两三年阿里出现的一个新的业务,有一些同学应该体验过,包括北京、上海等中国一线二线的城市都覆盖了盒马鲜生的门店。

幻灯片3.JPG

上图就是盒马商业模式的架构图,业务围绕主要是两点,一个是线上,一个是线下。盒马的业务虽然叫做O2O,但是比较有意思的一个点是,盒马的O2O跟早期的O2O是不一样的。以前O2O叫 Online to Offline,盒马的O2O是什么?是Offline to Online,目标要把线下的流量引入到线上,用线下的体验去让用户愿意到线上去购买,并且保证线下的品质跟线上的品质是一样的,不会出现线上是一个电商特供版,看似很便宜,但是你拿到的东西和线下是不一样的。

基于我们O2O的业务架构,同时盒马的客户群体是很有意思的。他们大部分是以家庭为单位的,就像我买盒马的时候,我的女儿、我的父母也都喜欢盒马,我是一个线上客户,可以在线上下单。那像老一辈他不会去用APP购物的时候,他就会到线下去购买,他买的东西是跟我一样的,包括我女儿,她可能不会购物,但是盒马有餐饮,她很喜欢去盒马吃海鲜,通过这种业务的闭环与传承性,来保证业务的发展与口碑。

幻灯片4.JPG

盒马定了这种商业模式之后,需要开始构建它的业务架构,那么这个架构应该是什么样子?第一它要做线上线下的一体化,保证020的目标。同时确认了这是一个生鲜电商的业务,生鲜电商基本上跟传统的标品电商做了一个差异化的区分。第三个是多功能门店,能够融合销售展示、仓储、分拣、线上等业务形态。第四是限时配送:三公里30分钟,其实打破了之前电商平台引以为豪的当日达跟次日达这种物流,直到目前盒马这种限时配送在业界还是属于比较领先的。第五就是盒马的外卖,今天你非常想吃一个东西,但是你又不会做饭,盒马会帮你把这个东西做好,或者你会做菜,但是你不会杀鱼,或者是杀鸡之类的,盒马会帮你把这个做好,然后再帮你送过去。最后还有很重要一点,因为我们提到了门店的价值,盒马的门店不是传统的购物,它有一个仓的设置,刚才说的可以做线上和线下,你线下去看的是门店,对于线上来说他就是个仓。

二、盒马技术架构与原型

幻灯片5.JPG

确定业务模式后,我们要做技术架构的设计。其实早期盒马有过一定的纠结,因为发现做零售,做门店,做商超,很多传统的软件厂商有一个现成的软件体系,比如说ERP、WMS。那我们是不是买一套就可以了?但是当时盒马是坚定了所有的产品技术的业务系统,包括数字化系统都要自建。因为盒马需要对很多传统业务做了一个全面的数字化,包括交易、门店、仓储、运配、采购、供应链、劳动力等等。

现在传统的ERP软件或者是物流软件,它也做了数字化,但是很重要区别是,我们做数字化不是只是为了简单的数字化,把数据结构化,更重要的是为上层策略层进行一个非常重要的支撑,我们对流量、物流履约、流程优化、财务策略进行了一个非常好的智能化的支持。在这里我可以稍微分享一下,我们之前也调研过一些线下有门店的大型零售商超企业,他们也做线上的APP,但他们的库存线上线下是隔离的,如果你总共有100条鱼,他会预先分配好,线上只卖10条,卖完之后线上就没有了,而盒马这100条是线上和线下先到先得,不会去分两拨。通过这种策略模式,基本上就把整个线下线上的数据和商品全部打通。

再一个很重要的一点,刚才讲的一些业务,你会发现在阿里的很多业务团队是分开的,比如菜鸟只负责物流,淘宝只负责营销和交易,目前整个经济体的业务都在走向融合。但是盒马为了去完成自己的业务闭环,所有的系统从交易门店、仓储运费、采购供应链、劳动力全部是自建,并且能让他们通过一个协同层把所有的业务打通,我们有生意计划、供应链管理、协同管理、全渠道多业态,并且提供了一个闭环的解决方案。

闭环中非常重要的一点是最右侧的一个数据层,如果没有我们统一的数据中台建设,是很难去支撑整个企业工程的,这也是我今天会重点跟大家介绍的这部分。

幻灯片6.JPG

我们说到数据中台,其实在阿里巴巴,数据中台不仅是一个解决方案,它也是一个团队的职能,在盒马是有一个独立的数据中台团队去支持这块业务的。我们是把数据作为一种资产,跟盒马的商品、会员,包括设备是同样重要的。盒马数据中台的同学,他们是资产的建设者、管理者和运营者,并且要通过这些资产去驱动整个零售供应链全链路、智能化的升级。其中最主要的是我们会去采集、管理、建设这份数据,并且能让这份数据在业务上能更好的使用起来。

幻灯片7.JPG

上图是盒马的数据平台的一个整体架构,这部分会有一定的特殊性,也有一些通用性。

首先说一下通用性,我们整个基础设施是跟阿里巴巴集团所有的部门是一样的,采用的是阿里云的基础设施,并且在整个数据分层这边,我们有源数据,源数据基本上都是来自于业务系统。接入层这边相对来说盒马会比较复杂一点,刚才说的盒马是全渠道,我们有APP,有线下,还有我们配送员的电动车,还有盒马内部的一些悬挂链、iot、APP、人力资源等,所以这里面就会出现很多结构化和非结构化的数据,我们通过数据加工层去把我们非结构化的数据进行一定的加工,最终会形成非常重要的数据资产层。

数据资产层构建之后就会有一定的业务含义,这部分数据是可以直接被业务去使用的。但是我们在这个数据资产层上又会去定一层数据服务,让数据使用起来会更方便,就是开箱即用。还有一块,到了服务这一层,他可能还是个无形的,之前有同学也问我,说今天我们希望业务用户能直接去用数据,而不是说去到很多表里面去查数据,这方面盒马用的是数据应用层,我们会建立很多数据产品,通过产品化的方式给业务去提供真正的数据使用。最后我们盒马这边产品形式会特别多,我们在不同的端通过PC、钉钉、掌中宝,还有很多iot的小设备,深圳可能就是一个小的黑白的屏幕,都会有数据的透传。并且在最右侧我们有一套管理体系,通过这种管理体系,让我们整个运营和运维可以有效地执行起来。那么这种架构图,就是盒马理解的一个偏业务型的数据中台分层架构图。

幻灯片8.JPG

那么基于这种业务型的数据中台分层架构,我们又设计了一套数据中台技术架构。其实大家做过大数据的话,在数据采集的时候经常会碰到,我同时有离线和在线的计算,那么离线计算我们基于MaxCompute,阿里巴巴几乎所有的离线数据都放在MaxCompute上,2020年双11 MaxCompute每日数据处理量超过1000PB,达到EB级。实时计算我们是基于Flink,计算的性能也非常强大。还有一块是我们要去做数据的存储,存储里面其实盒马这边会比较重地依赖在线存储,譬如说Lindorm就是kv,还有MMaxCompute交互式分析(Hologres)以及在线搜索Elasticsearch,并且我们会把这些存储变成一个个数据服务。数据服务的话就会有指标明细,还有特征、标签等等,这些数据我们会推广到运营最常使用的一些设备、运营平台、钉钉移动办公、智能化管理等,这些更多是runtime层面的。我们在整个集市运营层面,有元数据、数据质量、容灾管控、数据治理等等。这个技术架构图,我们更多的是当成一个技术需求架构图,是我们技术团队在做数据中台的时候需要去做的一些事情。

三、盒马基于DataWorks的数据中台方案

当我们盒马的商业模式,业务产品技术架构,以及数据中台的技术需求整理之后,我们要开始做一个数据中台的技术选型,或者是做一个技术调研,什么样的产品什么样的系统可以去支撑我们整套技术架构。之前说到我们的业务系统是自研的,但我们整个数据中台的技术盒马最终选择是不自研,因为阿里云上已经有非常成熟的产品体系让我们去构建盒马自己的数据中台。大数据计算引擎我们使用的是集团一直在使用的MaxCompute,那么构建数据中台的数据开发与治理工具我们做了调研,最终选择了DataWorks,下面就是DataWorks的整体架构图:

幻灯片9.JPG

DataWorks对外提供了数据集成,它有很多这种批量、增量、实时、整库的数据集成,能够支持盒马这么多且复杂的数据源,目前DataWorks数据集成离线支持50+种数据源,实时支持10+种数据源,无论数据源在公网、IDC、VPC内等环境,都可以做到安全、稳定。灵活、快速的数据集成。DataWorks还有一套元数据统一管理服务,支持统一的任务调度、同时提供了非常丰富的一站式的数据开发工具,覆盖了数据开发的整个生命周期表,极大地提高了我们的数据开发效率。上层还包括了数据治理、数据服务等,并且它提供了很重要的开放平台。因为之前说到盒马是一个非常独立、丰富的业务,很多业务系统都是自研的,有自己的研发团队,我们需要通过DataWorks OpenAPI对很多功能做一个二次的加工以及和各种自研系统、项目系统的集成,目前DataWorks提供的100多个OpenAPI可以让我们非常简单地去实现这个需求。

幻灯片10.JPG

那么我们再看一下这个数据中台技术需求图,我们去跟DataWorks做一个比对,数据采集部分对应了DataWorks提供的数据集成,基本上我们左边的这些数据同步的需求DataWorks都可以满足。

还有我们做数据开发,在数据开发层,DataWorks通过它的DataStudio、HoloStudio和StreamStudio可以同时完成我们的流、批、实时的开发,并且它还提供了数据服务跟开放接口的功能,可以通过OpenAPI的方式跟我们现有的系统和产品做一个集成,还有很关键的一点,DataWorks提供了数据地图和数据治理的能力,这两个功能看似是边缘功能,但是在我们盒马甚至在阿里巴巴起到了一个非常关键的作用,这块我们后面会继续展开。

幻灯片11.JPG

前面我们更多地可以看成是数据中台的准备过程,我们了解了业务,做了设计,并且做了一个技术选型,那么接下来在阿里做事情很重要一点就是做之前要确定一个明确的目标,目标不代表KPI,他也有可能是一个使命或者初衷。盒马数据中台的目标是什么?盒马的数据中台是要建立一个数据丰富,全链路多维度,质量可靠(就是口径要标准,结果要准确),并且要运行稳定,产出及时无故障的一个中间层,很多人会说这是个数据集市,没关系,它就是个中间层。还有很重要一点是我们要为上层业务提供可靠的数据服务,数据产品及业务应用,其实这就限定了它不是一个简单的数仓,也不是一个简单的数据集市,而是一个数据中台,是可被业务去不断使用的数据中台。如果我们只是把数据同步加工,放到MaxCompute或者开源的Hadoop或者一个数据库里面,那他还只是个仓。数据中台我们定义是可被业务直接去使用的,甚至是要给业务带来业务价值的,才叫数据中台。

定义这样一个目标之后,我们要开始做一个分步拆解,我们主要做什么?首先要做一个指标体系的设计,因为业务去使用不是一个表的字段,需要有一个数据模型设计的支撑,让我们去把数据变得更标准,并且我们还要去做数据处理任务的开发。今天我们有一些智能化构建数仓的方式,但这可能更多的是一个未来,现在我们不得不面临一个问题,我们还是靠人工靠人肉去做数据开发。并且我们要把这些数据通过数据服务的方式开放出去,让业务去使用,数据服务的形式不限于 Table、API和Report,甚至是一个产品或者其他的任何一个东西。

幻灯片12.JPG

上图可能是大家在网上看到最多的关于数据模型或者数据集市构建的分层图,那就是老生常谈,ODS、DWD、DWS和ADS。其实虽然有很多概念和理念,但是每个人对这层的理解是不一样的,盒马有一套自己非常严格清晰的定义,每一层要有每层自己的一个特点和职责。简单概述的话,ADS一定要是面向业务的,不是面向开发的,你这部分数据让业务能最短的时间去理解,甚至直接使用,还有DWS必须是指标,也是我刚才前面讲的指标体系的一个承载体,都由DWS去做,DWS汇总基本上就是ADS的支撑。还有一层是DWD,就是我们经常说的明细层,明细层怎么建呢?我们采用的是维度建模的方式,我们有维表,有事实表,那维表也有很多层级维度,比如枚举维度,事实表我们有周期快照。当然在这里有一个很重要的点,DWD的字段必须是可被直接理解的,不要有二义性,一旦有二义性的时候,DWS使用的时候会有问题,会导致整个上游应用都有问题。ODS基本上大家理解应该都保持一致,就是业务数据直接同步过来。但是现在有一些架构的演变,大家喜欢在ODS做一个初步的ETL处理,这样会导致ODS的数据跟我们业务的数据不一致。其实在盒马是不允许这样做的,原因很简单,我们要保证我们的ODS跟业务库是保持一致的,这样当我们出现问题的时候,我们能很快定位到问题的原因。一旦做了ETL,有可能ETL的过程是有bug的,会导致两边数据不一致。所以盒马是严格要求从业务库的数据到ODS是不允许做任何的逻辑的处理。如果出现问题,只能是中间件或者是其他的任何存储出了问题导致的,不应该是业务逻辑导致的。

四、盒马基于DataWorks构建数据中台

幻灯片13.JPG

前面更多的是讲盒马这边的一些数据中台建设的思想、设计、架构和一些目标及要求,接下来我会去讲盒马如何使用DataWorks构建数据中台以及在使用DataWorks平台的一些心得。DataWorks这个平台不仅仅是给盒马用的,还有阿里巴巴集团几乎所有的业务部门,每天集团内部有数万名运营小二/产品经理/数据工程师/算法工程师/研发等在使用DataWorks,同时DataWorks还服务大量阿里云上的用户。所以它的设计很多是偏向于开放的、通用的、灵活的。这个时候我们在使用的时会导致一些过于灵活或者是没有标准出现等一系列的问题,后面的内容就会针盒马的一些经验和大家分享当时的一些心得。

幻灯片14.JPG

首先数据同步是建数据中台的第一步,如果数据进不了仓,那么数据中台就没办法构建。盒马在做数据同步的时候,会有几个要求,比如盒马的所有业务数据都是统一同步到一个项目,并且只同步一份,不允许重复同步,这样的话方便我们管理,减少成本,同时保证了数据不要有二义性。数据源出问题了,那后边数据就都有错,所以我们一定要保证数据源100%正确。然后从数据回溯与审计考虑,数据生命周期设置的是一个永久保存,哪怕业务系统因为一些线上库的流量问题,会有一些归档、删除,但当他们想再使用历史数据的时候,可以通过ODS这层原封不动地再还原回去。

幻灯片15.JPG

第二块就是数据开发,数据开发这部分基本上是很考验个人能力的,基本上大家都是使用SQL。我们对于数据开发这部分是有一定的心得,简单来说就是数据处理过程是业务逻辑的实现,既要保证业务逻辑的正确性,也要保证数据产出的稳定性、时效性和合理性。DataWorks进行数据开发的编辑器,除了提供了比较好的coding能力以外,也提供了一些处理流程的可视化的方式,帮助我们去做一些code review,甚至一些校验,这个功能在我们日常使用中是非常有帮助的。

幻灯片16.JPG

整个数据开发的过程,因为我本身也是做 Java的同学,我们知道每一种编程都有一定的编程范式,我们在整个数据开发的过程中也去抽象了几个步骤,首先是一个代码转换,这个代码转换主要是干什么用的?刚才讲过业务系统很多是为了完成一个业务流程,它有很多这种个性化的处理,尤其是大家做互联网,为了解决一些性能问题或者是filter的问题,会做一些Json字段,媒体字段、分隔符等等,这样的内容会出现二义性。我们在开发中会有个代码转换,比如说把一些枚举的东西转成一个实际会看得懂的东西,譬如说0到底是什么?2是什么?或者a是什么?我们会做代码转换。还有个格式转换,我们有一些业务系统,它很难标准,譬如说时间,有的是用的是timestamp,有的是存字符串,有的是存yymm这些,虽然它们都代表时间,但是格式不一样,在数据集市的构建过程中,它一定要求里面的数据格式必须是一致的,我们会去把非标准的数据格式通过格式转换的方式变成一个标准的格式。

还有一个是业务判断,业务判断这里边基本上就是通过条件的方式得出一个业务结果。举个例子,年轻人在业务系统里面肯定不会算一个叫“年轻人”这样的字段或业务逻辑,如果有年龄数据,那么我们在梳理的时候会说小于30岁的我们叫年轻人等等,这个就是我们说的业务判断。数据连接这块,基本上很简单,就是一个表关联去补数据。另外一个数据聚合,我们在做DWS的时候会大量用到数据聚合的这部分。还有数据过滤,我们经常会碰到一些无效的数据,我们通过数据库这个方式把这些无效的数据给处理掉。再一个是条件选择,这个条件选择基本上也就是一些when的东西,跟数据过滤稍微有点相似。最后是业务解析,其实业务解析是我们最经常用到的,因为现在NoSQL或者是MySQL也支持了,甚至有一些业务团队用了Mongo,那一个大字段里边有很多业务表示,我们这几年在数据集市做DWD的时候,一定要把这种Json字段或者map字段的格式全部解析成固定的列字段。因为刚才我们说过它的内容必须要一致的,让用户直接可以看到。在这里面分享个心得,就是业务逻辑会尽量收口在数据明细层,目的是保证数据的一致性,简化下游使用。源头上的变化,也可以通过代码或格式等转换,保证明细层结构的稳定性,避免给下游带来更多的变化。好的模型也需要上游业务系统协同开发,一要业务系统有合理的设计,二要变更能及时的感知,就是说数据中台的建设不是数据团队一个团队的事情,也要跟业务团队去做一个联动和共创。

幻灯片17.JPG

刚才讲的这些部分更多的是开发阶段,如果DataWorks只完成这些的话,我们认为它就是一个IDE,但是DataWorks是一个一站式大数据开发治理平台,开发平台很重要一点是它要去保证它的运行,如何去保证我们做数据开发的代码能运行起来?就是通过DataWorks的任务调度。盒马的业务是非常复杂的,有30分钟送达,还有次日达、三日达,还有一些预售预购等等。这些如果是简单的调度系统可能就支持不了,DataWorks这边比较好的一点是,它提供了非常灵活的任务调度的周期选择,比如说月、周、日。盒马的业务是一个闭环,他每个业务是有相关性的,那么反过来盒马的数据任务也是有相关性的,这个时候整个盒马的任务调度链路是非常复杂的。

在整个过程里面,盒马也有很多尝试、创新,也踩过了很多坑,这边就给大家分享一下,就是DataWorks任务节点未起调或者在错误的时间起调都可能出现数据缺失或者是错误。这里就要保证我们数据开发对于每个线上任务的任何问题都要及时处理,因为每个问题都会造成一个数据的问题。合理的调度策略既可以保障数据产出的正确性,也可以保障数据产出的及时性。我们希望他一天产出,那就不要把它变成一小时,我们就按一天就可以了,如果三天就是三天。

幻灯片18.JPG

通过这几步,正常情况下,就是我们一个项目或者一个需求,按照这种方式去完成,我们认为一个数据开发工程师的任务就结束了。但是一般情况下不是这个样子的,因为数据中台是一个偏商业化的事情,所以说它一旦出问题,在阿里的话,影响是特别大的。业务线它有核心系统、非核心系统,部门核心系统、集团核心系统,通过这种方式有不同的保障,还有业务团队有p1、p2、p3、p4的方式去定义故障总级。数据业务跟正常业务系统不太一样,我们这边是依托了DataWorks来去做整个线上大数据业务任务的稳定性保障。其中DataWorks这边提供了很重要的一个模块,就是数据质量监控。数据质量监控其实我们更多的是能及时去发现一些问题,保证当业务有影响的时候,我们第一时间就知道。因为有的时候业务使用还是有一定的延迟性的。这里面提供了很多能力,比如说数据质量的一些监控,数据质量监控的目的是保障数据产出的正确性,并且监控范围一定要比较全,不仅限于表大小的变化,函数的变化,字段枚举值和一些主键的冲突,甚至一些非法格式,并且很重要一点就是异常值会触发报警或中断数据处理过程,然后值班人员要第一时间介入。

幻灯片19.JPG

上面讲的是监控的问题,但是一旦监控很多就会导致监控泛滥,会有很多预警报警出来,那么DataWorks也提供了另一种能力,就是任务基线的管理。我刚才讲过业务有分级,我们线上业务也有一些重要性和非重要性的任务,我们通过这种基线的方式去把这些任务进行一个隔离。基线这边盒马的经验就是:基线是保障数据资产的及时产出,优先级决定了系统硬件资源的保障力度,也决定了运营人员值班的保障力度,最重要的业务一定要放8级基线,这样会保证你的最重要的任务第一时间产出。并且DataWorks有一个很好的功能,DataWorks提供了一些回刷工具,当我的基线出问题或者破线的时候,可以通过回刷工具快速地把数据回刷出来,并且DataWorks智能监控功能会通过一些基线下的任务状态和历史的运行时长等,去帮你提前预估出是否存在破线的风险,这种智能化地监控与风险的预估还是非常有用的。

幻灯片20.JPG

那么做好数据质量的监控跟基线,基本上就保证了我们的大数据任务和业务的稳定、正常地运行,但是还有很重要的一点就是数据资产的治理。阿里巴巴是提倡数据的公司,它做转变的一个非常大的里程碑就是阿里巴巴在数据方面的存储和计算的硬件成本超过了业务系统的硬件成本。这也导致了阿里巴巴的CTO会去把数据资产治理作为它的一个非常核心的任务。DataWorks是整个阿里巴巴集团数据使用的体量最大的平台,甚至是一个唯一的平台,而且也提供了数据资产的模块叫UDAP,这里面基本上是可以通过多方面多维度,从项目到表甚至到个人,全局查看今天整个资源使用情况是什么样的,并且很重要的一点是给你提供了一个健康分的概念。这个健康分可以综合地看到每个业务部门内每个个人的排名情况。做治理最简单的方式就是先把头部打掉,阿里是这么做的,先治理头部健康分最低的,然后把健康分拉上来,整个水平就下来了。并且它提供了很多数据可视化的工具,可以让你很快的看到治理的效果。盒马在这方面做的一些心得:主要目标是优化存储与计算,降低成本,提升资源使用率;技术团队会建很多项目空间,我们需要与技术团队共建,一起去完成数据治理。盒马一些比较好用的手段就是无用的应用要下线、表生命周期管理、重复计算治理、还有很重要的是计算资源暴力扫描,我们是严格禁止暴力扫描的。UDAP里面的一些功能我们现在在DataWorks的资源优化模块也能够实现,比如一些重复表、重复数据开发与数据集成任务等。

幻灯片21.JPG

做完以上这些,我们认为数据中台该做的事情就差不多了,最后还有很重要的一点就是数据安全管理。随着互联网的发展,中国应该是持续基本上每一年都会出一个相关的网络法,比如说电子商务法,然后还有网络安全法等等,然后最近应该是草拟数据安全法。作为一家企业,对法律的遵守是特别重要的。DataWorks作为阿里大数据最统一的一个数据入口和出口,做了很多这种数据安全管理的手段,它可以从引擎层面进行一个管控,并且通过项目层面进行管控,同时可以到表层面,甚至到字段层面,在字段层面,每个字段它有等级,比如说有一些字段的等级是必须要到部门负责人或者是总裁层面才可以审批通过的,再比如说有一些我们认为即使审批通过了,它也有一定的风险的时候,比如说身份证号码,手机号码等,我们会提供一种技术叫数据脱敏,这个数据被拿走是被脱敏过的,不影响你的统计或者分析,但是你不可见。

盒马在数据安全治理这边基本上跟集团是比较类似的,阿里巴巴集团有一套统一的数据管理方法,它是跟组织架构打通的,我们员工离职或者转岗,他的权限会自动收回。在任何企业包括阿里,他的人员变动是非常频繁的,通过这样的功能与体系,我们在保证数据安全的前提下去更好地应用数据。

五、盒马基于DataWorks构建数据中台的价值

幻灯片22.JPG

之前讲的都是基于DataWorks来构建盒马的数据中台,最早提到数据中台一定要是服务业务的,我现在也介绍一下盒马的数据中台是如何为业务服务。很有幸我跟首义是见证了盒马从0到1再到N家店快速发展的一个过程,一家企业它用数据的过程也是这样由浅而深的过程。首先大家都一样,最开始我只是看数据,我有什么数据,然后通过数据去看一些问题,做一些人工的辅助和决策,但是盒马它的扩张是特别快的,最多的时候一年开了100家店,当它的业务形态发生变化,通过简单的数据报表和数据可视化,是无法再支撑这个业务了。所以说我们也做了很多精细化的管控,比如说品类诊断、库存健康,告诉这个业务你现在有哪些问题,而不是让他们用报表去做再去发现问题。

那么还有一块是盒马跟电商非常不一样的点,它是属于新零售,零售受自然因素的影响特别大,譬如说天气或者是节假日,甚至一个交通的事故都会影响到盒马的业务。我们针对这种情况,有很多这种预测类的应用,比如销量预测。盒马的销量预测是要求到小时,每个小时都要做迭代,还有一些仿真系统,当我出现什么问题的时候,我通过仿真系统预测到或者感知到有什么样的风险。最后还有很重要的一点就是说预测完,盒马的业务刚才讲过,它有限时预约30分钟送达,以及因为大家买过盒马的日日鲜商品,就是商品当天就要卖出,这些情况靠人是绝对没有办法去感知的。盒马的CTO提过,他要求我们把几百张报表全部干掉,把这些所有通过人看数据发现问题的场景,全部集中到业务系统里面。譬如说日日鲜,当我们发现商品已经卖不出去了,只有三个小时了,需要一个打折,不需要人参与,通过我们的数据的预测,跟这个算法自动去触发打折,把这个商品卖出去。我在阿里接近10年,盒马这些应用其实应该是为数不多真正地把BI跟AI结合在一起的数据中台的应用。

以上就是本次分享的全部内容,谢谢大家。

 

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/514733.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL 避坑指南之隐式数据类型转换

作者 | 不剪发的Tony老师责编 | 欧阳姝黎出品 | CSDN博客????知之为知之,不知为不知,是知也。——《论语》今天我们来聊聊 MySQL 中存在的隐式数据类型转换以及可能带来的问题。当两个不同类型的数据进行运算时,为了使得它们能够兼容&…

二级java题型及分值_计算机二级java考试内容

计算机二级java考试内容Java支持快速原型和容易试验,它将导致快速程序开发。这是一个与传统的、耗时的“编译、链接和测试”形成鲜明对比的精巧的开发过程。下面是小编整理的关于计算机二级java考试内容,希望大家认真阅读!基本要求1.掌握Java语言的特点、…

淘宝直播在冲刺最复杂的人工智能技术!

01 上周,主播林珊珊测试了一下淘宝直播团队依据他个人形象打造的虚拟主播,也就是林珊珊下播以后,让虚拟主播上场,粉丝在直播间可以跟虚拟主播互动,虚拟主播则实时介绍商品,回答消费者提问。 第二天&#x…

2020双十一,阿里云GRTN拉开直播和RTC技术下半场的序幕

直播,已经成为了“剁手党”们最喜闻乐见的一种购物形式。对直播体验的极致追求,也是淘宝技术人们长期的努力方向。为了提升用户购物体验,让直播更加丝滑,让剁手更快一些,在2020双十一期间,淘宝首次启用了阿…

开拓新格局 共赢新 Power 2021浪潮商用机器新布局

6月25日,以“新格局新核心新Power”为主题的2021浪潮商用机器客户大会在沪隆重举行,本次大会吸引了来自证券、保险、医疗、制造、交通等重点行业的上百位客户代表以及ISV等渠道合作伙伴。会上,浪潮商用机器正式发布了面向关键计算的浪潮全新K…

大促场景系统稳定性保障实践经验分享

每到双11,如何保障系统高峰扛得住、长期平稳是每个大促人必须面对的问题。在今年双11之前,阿里云在上海举办了一场线下交流,阿里大促和稳定性保障负责人、中间件专家、解决方案专家等将历年总结的大促经验分享给参会嘉宾,我们选取…

考拉海购全面云原生迁移之路

今年 8 月底,入驻“阿里动物园”一周年的考拉海购首次宣布战略升级,在现有的跨境业务基础上,将重点从以“货”为中心变成以“人”为中心,全面发力会员电商。 外界不知道的是,对考拉海购来说,不只是完成了业…

新零售:从上云到云原生 Serverless

作者 | 七凌来源 | 阿里巴巴中间件头图 | 付费下载于 IC Photo某零售商超行业的龙头企业,其主要业务涵盖购物中心、大卖场、综合超市、标准超市、精品超市、便利店及无人值守智慧商店等零售业态,涉及全渠道零售、仓储物流、餐饮、消费服务、数据服务、金…

企业双11业绩增长156% 、成交额突破151亿元...... 这背后是阿里云数据中台的场景赋能

红星美凯龙天猫数字化卖场累计成交金额突破151.52亿元;杜蕾斯全网销售额突破1.7亿元,天猫官方旗舰店销售额同比增长105%;滴露全网销售额突破1.8亿元,天猫官方旗舰店销售额同比增长156%;波司登首铺准确率提升79%…… 在…

Gartner:2020年全球IaaS公有云服务市场增长40.7%

编辑 | 宋 慧 供稿 | Gartner 头图 | 付费下载于视觉中国 根据全球信息技术研究和顾问公司Gartner的统计结果,2020年全球基础设施即服务(IaaS)市场达到643亿美元,相比2019年的457亿美元增长40.7%。2020年亚马逊仍在IaaS市场排名第…

jmeter+mysql+set_jmeter学习指南之操作 mysql 数据库

JMeter 通过 JDBC Connection Configuration 和 JDBC Request 可以连接数据库,并进行增删改查操作,支持各种常见的数据库,本文以最常用的 MySQL 数据库为例讲解,其它数据库的使用方法类似。一、下载驱动包在使用之前,需…

如何快速实现精准的个性化搜索服务

简介: 用户行为数据如何实时的应用在搜索服务中那? 怎样在1天内就可实现【精准的个性化搜索系统】搭建那? 今天小编将通过【阿里云开放搜索】中的三大“个性化搜索算法模型”给大家详细介绍,希望给予您更多解决思路~ 一、个性化排…

写代码时发现......还得是 SpringBoot !一篇拿下

关注了很多技术类公众号的读者肯定有这样一个感受,SpringBoot相关的文章铺天盖地,并且SpringBoot相关的文章阅读量、收藏量都很高,这也从侧面反映了SpringBoot技术的火爆。一切都在证明,SpringBoot已经成为了Java程序员必备的技能…

当 TiDB 与 Flink 相结合:高效、易用的实时数仓

简介: 利用实时数仓,企业可以实现实时 OLAP 分析、实时数据看板、实时业务监控、实时数据接口服务等用途。但想到实时数仓,很多人的第一印象就是架构复杂,难以操作与维护。而得益于新版 Flink 对 SQL 的支持,以及 TiDB…

云原生时代微服务的高可用架构设计

简介: 在8月20日“阿里巴巴技术质量精品课”上,来自蚂蚁的经国分享了对云原生时代微服务的高可用架构设计的全面解析,为大家介绍了应用架构演进路径、云原生时代的技术福利、高可用架构的设计原则以及经典案例的设计。 演讲嘉宾简介&#xf…

“精耕细作”桌面云市场的锐捷,重磅发布三擎云桌面

编辑 | 宋 慧 出品 | CSDN云计算 头图 | 付费下载于IC photo 在教育行业VDI与桌面云具有优势的锐捷,仍在不断扩充自身技术与产品方案的实力。 6月30日,锐捷正式对外发布新一代云桌面解决方案——锐捷三擎云桌面解决方案。会上针对三擎云桌面的终端云化…

Flink 1.11 与 Hive 批流一体数仓实践

导读:Flink 从 1.9.0 开始提供与 Hive 集成的功能,随着几个版本的迭代,在最新的 Flink 1.11 中,与 Hive 集成的功能进一步深化,并且开始尝试将流计算场景与Hive 进行整合。 本文主要分享在 Flink 1.11 中对接 Hive 的新…

双11还能创造什么新技术?

简介: 当下购物峰值不再是最大挑战,下一代技术创新将会出现在哪里? 诞生12年后,双11仍然续写答卷,也留下了问卷:当购物峰值不再是最大挑战,下一代技术创新,将会出现在哪里&#xff1…

于变局中开新局!《2021中国SaaS市场研究报告》报告发布

我国SaaS市场即将步入成熟需求,一起跟上! 中国市场数字化发展已经历了部门级信息化(2005年以前)、企业级信息化(2006-2015年)、产业级数字化(2016-2020年)三个阶段,在20…

4982亿背后的前端技术—2020天猫双11前端体系大揭秘

简介: 整体介绍一下淘系前端在今年双11的思考和沉淀。 今年双11的整体节奏从之前的“光棍节”变为“双节棍”,具体业务上也有很多变化和调整,应了阿里的土话“唯一不变的是变化”。面对这些变化,是挑战也是机会,我们要…