微博机器学习平台云上最佳实践

简介: 本文讲述了微博机器学习平台和深度学习平台的业务功能和云上实践,剖析了阿里云大数据在微博这两大学习平台的架构建设上所起到的作用。

作者:新浪微博数据计算平台系统架构师 曹富强


本文讲述了微博机器学习平台和深度学习平台的业务功能和云上实践,剖析了阿里云大数据在微博这两大学习平台的架构建设上所起到的作用。

微博介绍

微博是2008年上线的,中国头部、流行的社交媒体平台,提供人们在线创作、分享和发现优质内容的服务,微博的大规模机器学习平台可支持千亿级参数、百万QPS调用。目前微博的日活是2.22亿,月活是5.16亿。

微博机器学习平台(WML)优势

微博机器学习平台的特点是样本规模大,百亿级样本,实时性比较高,是分钟级,然后模型规模是百亿级,模型实时性根据不同场景有小时级、分钟级和秒级。作业的稳定性的话要求是三个9,平台业务多,场景丰富迭代快。

微博机器学习平台(WML)CTR模型

幻灯片4.PNG

微博机器学习平台的CTR模型经过数字版本的迭代,从1.0的离线机器学习到3.0的离线和深度,到5.0的在线机器学习、离线机器学习和深度机器学习结合。再到目前我们是往在线深度学习方向发展。总体来说经过历史迭代,目前支撑的参数规模达千亿级,服务峰值达百万QPS,模型更新是10分钟量级。

微博机器学习平台(WML)架构

幻灯片5.PNG

我们看一下微博机器学习平台的架构,微博机器学习平台为CTR、多媒体等各类机器学习和深度学习算法,提供从样本处理、模型训练、服务部署到模型预估的一站式服务。总体的话是基于在线计算集群,离线计算集群和高性能计算集群。我们通过资源的WeiBox调度框架和WeiFlow工作流引擎,计算平台的话是WeiLearn框架集成的Hadoop/Spark、Flink/Storm、TensorFlow/Pytorch,提供了诸多丰富的算法。基于这些算法,训练的模型,我们入到我们WeiPS模型库,然后通过WeiServing对外提供在线推理服务。

微博机器学习在阿里云上实践

幻灯片6.PNG

我们的阿里云上实践使用了Flink、MaxCompute、Alink、PAI。基于这些服务提供了热门微博、Feed流、绿洲推荐,使用MaxCompute实现在相同规模下万亿样本百亿特征全量训练,比Hadoop集群提升10倍。支持从天级到分钟级的实时热门微博、Feed流业务推荐及搜索样本实施训练、上线,业务推荐效果提升10%。基于Flink搭建了实时计算平台,集成了作业提交端UI/WeiClient、作业管理、资源管理、日志系统、监控报警系统等各链路,作业规模上千。整体来说阿里云建设机器学习有几大优势:支持大规模处理、算法丰富、平台成熟运维方便、投入时间直接聚焦到业务。

微博深度学习平台(WDL)典型业务场景

幻灯片7.PNG

接下来介绍微博深度学习相关的业务,目前的话在微博的关系流、绿洲、新浪视频推荐、正文推荐流里面都有深度学习的应用。

微博深度学习平台(WDL)架构

幻灯片8.PNG

基于在线gpu的机器,我们通过K8s和Yarn管理,然后通过WeiArena和el-submit提交任务。我们的WeiLearn集成了TensorFlow、Pytorch引擎,然后集成了样本库读取和输出的模型库。然后WeiServing加载了模型库,对外提供两路服务,一个是通过AI服务直接对外提供AI输出能力,另外就是我们的计算服务WeiStorm,集成了数据流,调用WeiServing RPC服务框架,实时生成多媒体特征,对外提供在线服务推理。

微博深度学习平台(WDL)多媒体特征生成

幻灯片9.PNG

微博机器学习深度平台多媒体特征的生成,只有两条链路,第一路是离线的训练,离线训练模型通过数据源的处理输出到样本库,然后通过我们WeiServing分布式训练模型调用,输出到模型库,这一路的话是一键CICD、分布式训练、支持多种类的模型。另一路是在线推理,在线推理的话消费多媒体实时数据流,调用我们的WeiServingRPC框架,输出多媒体特征,然后应用到业务,这条链路的话,我们通过对账系统、case追踪、全链路监控去做服务保障,成功率是99.99%,延时是秒级延时。开发模式是通过UI化、配置化、一键部署。

微博深度学习平台(WDL)基本功能

幻灯片10.PNG

微博深度学习平台产品功能的话,一个是样本库,然后分布式训练,模型库,在线推理服务和计算服务。样本库的话主要是包含样本数据管理和样本分布式存储,对在各节点上零散的样本进行统一管理;分布式训练的话,内置常用深度学习算法并持续新增成熟的算法,规范样本读取,训练gpu集群的灵活调度和训练模型的统一存储;模型库的话提供分布式系统和本地两种存储方式,为在线推理服务提供模型;在线推理服务,支持Python和C++模型的一键部署,实现模型推理的服务化以及监控、告警等。可封装为HTTP服务,对外直接提供AI的能力,实现AI能力的直接输出;计算服务,基于内部的多媒体分发系统,接入多媒体数据流,调用在线推理服务,实时生成多媒体特征。

微博深度学习平台(WDL)业务实践

幻灯片11.PNG

微博深度学习平台业务实践,早期的话基于单机训练处理大规模数据时训练周期长,迭代慢,影响业务效果。 于是我们提供了多媒体深度学习服务方案,微博深度学习平台就应运而生,实现了样本存储、离线训练、在线推理及模型存储一体化功能。最终产生的效果和业务价值是:分布式训练极大缩短了训练时间,为快速业务迭代提供良好基础;一体化服务让我们只需要专注于模型算法优化,提高业务效率,整体上为业务赋能和业务承建产生了巨大的推动力。

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/513637.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

搞懂异地多活,看这篇就够了

来源:水滴与银弹作者:Kaito阅读本文大约需要 20 分钟。你好,我是 Kaito。在软件开发领域,「异地多活」是分布式系统架构设计的一座高峰,很多人经常听过它,但很少人理解其中的原理。异地多活到底是什么&…

搭建一个微服务商城到底可以有多快?

简介: 极速部署一个微服务电商商城,体验 Serverless 带给您的应用全托管体验。 作者:云原生技术运营 - 望宸 技术实践的门槛不仅在于应用上线后各类问题的排查难度,也在于搭建一个 Demo 应用时的复杂度。 今天我们尝试 3 种方法来…

分享2种规划思维和4个规划方法

简介: 为结果买单,为过程鼓掌。 作者:不拔 每年各个部门都要进行规划,规划能让目标更聚焦,让我们清晰地知道今后我们要做什么、如何去做。并非每个人都会参与规划中去,但需要掌握规划的方法,否…

apache 统计404日志_Apache监控与调优(四)Apachetop监控

除了使用status监控外,还可以使用第三方软件来监控。现在使用的最多的第三方监控软件是apachetop。虽然我们使用status也可以监控到很多信息,但是对于一些统计信息来说,例如统计哪些URL的访问量最大,不同状态码下分别有多少个HTTP…

揭秘 | 2021年移动云API大赛决赛大奖花落谁家?

10月21日,2021年移动云API应用创新开发大赛决赛暨移动云开发者论坛,在苏州圆满举办。现场,移动云开发者社区重磅发布首批MVP名单,同时公布2021年API创新开发大赛决赛获奖名单。中国移动、英特尔、CSDN、PingCAP、各参赛团队等技术…

冷热分离之OTS表格存储实战

简介: 为什么要冷热分离由于2020疫情的原因,在线教育行业提前被大家所重视,钉钉教育已经服务超过21万所学校、700万教师和1.4亿学生用户,每天大量的教育数据产生。整体数据量:随着时间的积累,数据量越来直大…

世界地图可以无限放大_不敢相信!世界地图,你竟然骗了我这么多年...

本文转载自微信公众号:中国国家地理(ID:dili360)原文首发于2018年10月13日,标题为《世界地图,我竟然被你骗了这么多年!》不代表FM93交通之声观点。都说眼见为实,其实眼见到的也不一定为实相信你们很多人都以为世界就像…

WebAssembly + Dapr = 下一代云原生运行时?

简介: 云计算已经成为了支撑数字经济发展的关键基础设施。云计算基础设施也在持续进化,从 IaaS,到容器即服务(CaaS),再到 Serverless 容器和函数 PaaS (fPaaS 或者 FaaS),新的计算形态相继出现。…

Service Mesh 开源实现之 Istio 架构概览

来源:无敌码农作者:无敌码农今天的文章将从更宏观的概念和架构入手,来全面介绍Istio这一最著名的服务网格开源解决方案,以求从整体上将Istio实现服务网格的核心原理阐述清楚!Istio中的关键概念要学习Istio需要先明确以…

mysql外键约束分数_MySQL提高(外键约束)

外键约束1.条件语句的写法在sql中可以通过where 条件语句 来对操作对象进行筛选 -筛选a.比较运算符&#xff1a;&#xff0c;<>,,<,>注意&#xff1a;判断一个字段的值是否为空不用使用和<>&#xff0c;而是使用is null和is not nullselect number from t_co…

Java Map中那些巧妙的设计

简介&#xff1a; 他山之石可以攻玉&#xff0c;这些巧妙的设计思想非常有借鉴价值&#xff0c;可谓是最佳实践。然而&#xff0c;大多数有关Java Map原理的科普类文章都是专注于“点”&#xff0c;并没有连成“线”&#xff0c;甚至形成“网状结构”。因此&#xff0c;本文基于…

java json转xml_关于JSON与XML的区别比较

现在互联网上&#xff0c;最流行的两大传输数据的标准就是json和XML了&#xff0c;关于谁是最好的&#xff0c;一直以来都是人们争论的话题&#xff0c;其实各有各的缺点和优点&#xff1b;1.定义介绍(1).XML定义扩展标记语言 (Extensible Markup Language, XML) &#xff0c;用…

揭秘!阿里实时数仓分布式事务Scale Out设计

简介&#xff1a; Hybrid Transaction Analytical Processing(HTAP) 是著名信息技术咨询与分析公司Gartner在2014年提出的一个新的数据库系统定义&#xff0c;特指一类兼具OLTP能力&#xff08;事务能力&#xff09;和OLAP能力&#xff08;分析能力&#xff09;的数据库系统。 …

mysql对本地文件的读取_Mysql 任意读取客户端文件

load data infile "/etc/passwd" into table test FIELDS TERMINATED BY \n;实现&#xff1a;Mysql Server会读取服务端的/etc/passwd&#xff0c;然后将其数据按照\n分割插入表中&#xff0c;但现在这个语句同样要求你有FILE权限&#xff0c;以及非local加载的语句也…

使用了12个月的苹果 M1 芯片,我发现了它的「致命」弱点

作者 | Attila Vg译者 | 弯月出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;首先&#xff0c;我仍然相信苹果 M1 的芯片在技术上取得了巨大的飞跃&#xff0c;再次站在了创新的最前沿&#xff0c;然而一旦新鲜感消失之后&#xff0c;裂痕就会慢慢显现&#xff0c;…

spi 动态加载、卸载_理解 ServiceLoader类与SPI机制

对于Java中的Service类和SPI机制的透彻理解&#xff0c;也算是对Java类加载模型的掌握的不错的一个反映。了解一个不太熟悉的类&#xff0c;那么从使用案例出发&#xff0c;读懂源代码以及代码内部执行逻辑是一个不错的学习方式。一、使用案例通常情况下&#xff0c;使用Servic…

探秘RocketMQ源码——Series1:Producer视角看事务消息

简介&#xff1a; 探秘RocketMQ源码——Series1&#xff1a;Producer视角看事务消息1. 前言 Apache RocketMQ作为广为人知的开源消息中间件&#xff0c;诞生于阿里巴巴&#xff0c;于2016年捐赠给了Apache。从RocketMQ 4.0到如今最新的v4.7.1&#xff0c;不论是在阿里巴巴内部还…

三大院士、十大数据库掌门人,岳麓对话开启数字经济新时代!

10月23日&#xff0c;第二届“长沙 中国1024程序员节”在湖南长沙盛大开幕。大会以“开源开放、算据赋能——开启数字经济新时代”为主题&#xff0c;囊括岳麓尖峰对话、2021技术英雄大会、18场专业主题论坛/峰会&#xff1b;50企业创新展&#xff0c;联动100海内外高校&#…

java 队列_百战程序员:Java并发阻塞队列

阻塞队列 (BlockingQueue)是Java util.concurrent包下重要的数据结构&#xff0c;BlockingQueue提供了线程安全的队列访问方式&#xff1a;当阻塞队列进行插入数据时&#xff0c;如果队列已满&#xff0c;线程将会阻塞等待直到队列非满&#xff1b;从阻塞队列取数据时&#xff…

select事件有哪些_Android 深入底层:Linux事件管理机制 epoll

在linux 没有实现epoll事件驱动机制之前&#xff0c;我们一般选择用select或者poll等IO多路复用的方法来实现并发服务程序。在linux新的内核中&#xff0c;有了一种替换它的机制&#xff0c;就是epoll。select()和poll() IO多路复用模型select的缺点&#xff1a;单个进程能够监…