基于实时计算Flink的机器学习算法平台及场景介绍

作者:高旸(吾与),阿里巴巴高级技术专家

1. 前言

随着互联网“人口红利”的“消耗殆尽”,基于“T+1”或者离线计算的机器学习平台及推荐系统转化率与效果日趋“平淡”。后疫情时代的新社会模式及经济形态必将催生出新的商业模式,在线业务及相关应用场景的流量呈现井喷式发展,常规的离线系统及离线机器学习平台已无法满足业务发展要求。人口红利吃尽之后,基于大数据及AI平台的业务系统在时间维度上的思考将变得至关重要,通过业务系统实时化向时间要价值已经成为主流趋势。基于流式计算引擎的在线机器学习平台将越来越被重视, 通过增量模型的准实时或实时推荐系统更能“因时而异” 充分捕捉目标用户瞬息万变的需求,从而进行精准推荐和变现。实时推荐系统也从最早的电商场景, 扩展到社交场景, 在线教育场景, 游戏场景及更广阔的在线场景。

本文介绍重点介绍基于阿里云大数据及AI产品家族的实时计算Flink及PAI Alink机器学习算法平台,以及该产品组合在实时推荐场景(适用于电商、游戏及在线教育解决方案)、实时评分卡场景(适用于金融、安全及营销风控解决方案)以及异常检测场景(适用于工业领域及其他产业互联网领域)的场景应用。

2. 实时计算引擎及机器学习算法平台介绍

2.1 阿里云实时计算Flink

阿里云实时计算Flink作为Apache Flink创始团队的商业化产品,从极致(较传统微批模式)的实时数据处理维度,为企业大数据处理及业务实时化提供了可能。商业化的统一开发及管控平台,成熟、准标准化的SQL及元数据管理能力,让业务人员及数据分析师大幅度提升开发效率, SQL配合UDF基本可以解决80%+的业务场景。企业级的State Backend – Gemini大幅度提升IO效率,整体执行引擎较开源3倍以上的性能提升。

VVP.png

基于阿里云Kubernetes的全新Serverless全托管云上实时计算Flink服务,使用全新的硬多租技术方案,基于VPC提供网络层隔离,阿里云安全容器提供计算层隔离,基于弹性云盘提供存储级隔离,通过用户级Master及超级Master实现极致资源弹性下的多租户隔离。基于负载的细粒度弹性伸缩, 充分提高资源使用率, 降低整体TCO。新一代的Serverless实时计算Flink产品为在线机器学习算法平台提供了坚实(“时“)的基础。

2.png

2.2 阿里云PAI Alink机器学习算法平台

3.png

与SparkML算法相比,Alink算法更全面,性能更优异,场景更丰富(同时支持流批),本地化更出色(支持中文分词)是快速搭建在线机器学习系统的不二之选。

 

3. 基于实时计算Flink-机器学习场景介绍:

3.1实时推荐场景:

从根据用户点击和浏览的内容实时推送的电商场景,到社交媒体根据用户阅读的内容实时“喂送“的实时推荐系统,再到游戏推送平台根据用户行为实时推送的游戏系统,实时推荐系统俨然已经成为了在线业务系统的核心。

5.png

阿里云PAI Alink算法平台提供: 召回(例如:ALS、FM、Deep Walk等),特征编码(OneHot、MultiHot及GBDT等) ,排序(LR及FFM等)以及Online算法(OnlineFM及Ftrl)流式和批式的算法能力全流程构建能力。配合阿里云实时计算Flink海量样本实时拼接能力,能够快速端到端实现离在线一体化的推荐系统。

6.png

通过特征工程批式训练初始化模型,通过实时样本拼接配合流式算法(OnlineFM及Ftrl) 生成增量的模型,最终提供统一模型的整体结果预测,更实时更动态的提升推荐效果。

 

3.2 评分卡场景介绍:

阿里云实时计算Flink及PAI Alink产品组合可以帮助客户快速搭建实时金融风控解决方案。评分卡在金融场景有广泛的应用,能否构建准确的评分卡模型关系到能否安全的开展支付、贷款、保险、理财、信用等业务,评分卡常被用于信用评估领域,比如信用卡风险评估,贷款发放;评分卡也会用来作为分数评估,比如客户质量打分,信用分。涉及金融的场景都需要:可追溯、可审计及可解释,如下的评分卡模型就具备很好的可解释性。例如:用户年龄27岁,性别男,婚姻状况已婚,学历本科,月收入10000。根据如下评分卡,该用户的评分为:评分 = 223(基准分) + 8(年龄) + 4(性别评分)+ 8(婚姻状况)+ 8(学历评分)+ 13(月收入评分)= 264分。

 

阿里云实时计算Flink及PAI Alink产品组合提供最先进的评分卡解决方案, 分箱将每个特征按照需求进行分箱训练;评分卡训练生成评分模型;样本稳定性通过PSI等指标衡量样本稳定性;模型评估,评估二分类模型效果。该解决方案支持多特征维度模型训练,支持大规模样本建模。

9.png

3.3 异常检测场景

异常检测及时序分析是一个较为常见并且应用广泛的场景,在工业界的应用尤甚。利用阿里云实时计算Flink及PAI Alink产品组合可以帮助客户快速搭建异常检测解决方案。实时计算Flink强大的性能与Alink丰富的算法库机相结合,可以帮助数据分析和应用开发人员实现数据处理、特征工程、模型训练、预测等多个环节端到端的处理。在异常检测场景下,Alink支持时间序列异常检测、异常集检测两个核心场景。

在时间序列异常检测中,Alink具备种类齐全、批流一体、性能优异、并行计算、使用方便等优势。针对不同的使用场景,分为基于时序预测和时序分解两种类型:

  • 时序预测算法适合流式数据,即时响应
  • 时序分解算法适合全量数据,能够从全量数据中挖掘有效信息。

Alink也提供了时序预测和时序分解算法,用户可以单独使用。

10.png

异常集检测是风控场景的核心诉求之一。Alink 异常集检测中具备如下优势:

  • 巨型图支持 - 支持上亿边的图数据
  • 在线更新 - 随时加上异常种子均可局部异常检测
  • 快速运算 - 只对局部图进行运算,节约计算资源

在盗用、欺诈、作弊、商户、借贷套现等各风险域都有异常集检测的需求存在。基于GraphRAD,Alink实现了半监督的异常集检测,RiskCommunityDetector。算法输入连接关系以及已知的黑点,即可对全图进行分析,捕获其它黑用户,降低业务运行过程中的风险,为业务安全保驾护航,避免可能发生的重大损失。

11.png

4. 后记

通过上文的介绍,想必大家已经对阿里云实时计算Flink及PAI产品组合跃跃欲试了,可以快速开通全托管实时计算Flink 体验最新的Serverless产品服务。实时计算Flink触达直通车:https://www.aliyun.com/product/bigdata/sc

12.png

通过开通阿里云E-MapReduce Dataflow集群,快速搭建基于阿里云实时计算Flink的PAI Alink算法平台。PAI Alink触达直通车:https://www.aliyun.com/product/emapreduce

 

 

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/515162.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringCloud 应用在 Kubernetes 上的最佳实践 — 线上发布(可监控)

简介: 本篇是“SpringCloud 应用在 Kubernetes 上的最佳实践”系列文章的第六篇,主要介绍了如何保障生产环境服务稳定,做到随时发布,从而加快业务的迭代和上线速度。 文:骐羽 前言 在应用发布上线的时候我们最担心的…

mPaaS:全新移动开发平台,只为打造性能更优越的App

简介: 基于移动开发现状与技术演进预判,提供移动开发强力解决方案,洞察 mPaaS 如何帮助企业有效降低技术门槛,减少研发成本,搭建更稳定、更流畅的移动 App。 mPaaS 是源自于支付宝的移动开发平台,为移动开发…

德勤2021技术趋势:繁琐、点状的匠人AI时代将终结,MLOps时代来临

作者 | 宋慧 出品 | CSDN 头图 | 付费下载于视觉中国 德勤在近日发布《2021 年技术趋势》报告,这已经是德勤连续第十二年发布全球技术趋势报告。纵观今年的九大技术趋势,德勤给出的主题关键词是“韧性”,建议企业运用技术实现敏捷发展、构建…

Security RBAC 表结构+权限查询sql

文章目录1. 表结构2. 权限查询sql1. 表结构 /*Navicat Premium Data TransferSource Server : 127.0.0.1Source Server Type : MySQLSource Server Version : 80026Source Host : localhost:3306Source Schema : sys-adminTarget Server Type …

蚂蚁架构师郭援非:分布式数据库是金融机构数字化转型的最佳路径

简介: OceanBase立志于成为世界领先的企业级数据技术解决方案提供商。 2020年8月26-28日,在中科软科技举办的中国财险科技应用高峰论坛上,蚂蚁集团高级解决方案架构师郭援非发表了《OceanBase分布式关系数据库助力保险业务创新》的主题演讲&…

实锤!Python 真没你想的那么简单…

首先我不可否认,Python确实很“火”!很多开发者都把它当做主语言或是第二语言。当做主语言原因很好理解,因为最近几年它在人工智能、数据分析、Web开发等众多领域都有着非常成熟的应用。当做第二语言,是因为用它来完成多线程、数据…

jdbcUrl is required with driverClassName错误解决

springboot 升级到2.0之后发现配置多数据源的时候报错: “jdbcUrl is required with driverClassName.”或者Cause: java.lang.IllegalArgumentException: dataSource or dataSourceClassName or jdbcUrl is required.] with root cause 主要原因是在1.0 配置数据…

用根因定位法,让运维效率再高一点!

‍‍作者 | 中国农业银行研发中心 王哲头图 | 下载于视觉中国出品 | CSDN云计算(ID:CSDNcloud)随着业务不断发展,微服务架构越来越受到各大企业的青睐,随之也给传统运维带来更大的挑战,多维KPI指标数量繁多…

零基础开发 nginx 模块

简介: 推荐学习资料: * nginx 开发指南: http://nginx.org/en/docs/dev/development_guide.html * nginx 动态模块编译博客文章: https://www.nginx.com/blog/compiling-dynamic-modules-nginx-plus/ * nginx 源码: https://github.com/nginx 推荐学习资料: nginx…

勒索病毒如何防治?看阿里云双拳出击不留隐患

简介: 阿里云与合作伙伴Commvault联合发布勒索病毒防治解决方案,从公共云、混合云等场景入手,提供完善的解决方案 在众多的数据安全工作中,勒索病毒的防治是近几年备受关注的领域。从互联网诞生伊始,勒索病毒就相生相…

中国五大移动应用商店携手启动64位安卓生态迁移

为协助中国安卓开发者无缝对接全球64位开发环境,并进一步向终端用户提供最佳体验,中国五大移动应用商店(排名不计先后)—小米应用商店、OPPO软件商店、vivo应用商店、腾讯应用宝、百度手机助手,于今日共同宣布&#xf…

滴滴基于 Flink 的实时数仓建设实践

随着滴滴业务的高速发展,业务对于数据时效性的需求越来越高,而伴随着实时技术的不断发展和成熟,滴滴也对实时建设做了大量的尝试和实践。本文主要以顺风车这个业务为引子,从引擎侧、平台侧和业务侧各个不同方面,来阐述…

闲鱼直播三周内实现点击率翻倍,我们是这么做到的...

作者:闲鱼技术-莫癫 1. 业务背景 闲鱼直播业务上线后面临的最大问题是增长问题。闲鱼BI同学分析发现,对比短时观看和长时观看人群,发现两部分人群有较明显的兴趣阶段性差异。 业务希望在理解直播、主播和用户的基础根据兴趣对头部优质直播精…

Azure 中国四年扩容 12 倍还不够,微软放话:全球每年新建 50-100 数据中心!

数据已渗透到我们生活和工作的方方面面,如今全球正处于经济发展转型与变革的关键时期,数据作为数字经济的核心生产要素,无疑建设先进的数据中心是科技企业的硬核 IT 实力的有力保证,科技巨头纷纷强势布局数据中心: 据…

打造数字化服务能力,中国联通如何借助云原生技术实现增长突围?

简介: 中国联通与阿里云结合阿里云原生 PaaS、阿里飞天操作系统、阿里云原生数据库以及中国联通天宫平台,共同研发运营商级专有云平台“天宫云”,支撑中国联通核心业务应用。 8 月 13 日,中国联通发布《2020 年半年度报告》&#…

报名倒计时 | 「TeaTalk」技术沙龙成都站再来袭!

在5G浪潮驱动下,数据增长速度远远超过了网络带宽的增速。同时,增强现实、无人驾驶等众多新应用的出现对延迟提出了更高要求。边缘计算将网络边缘上的计算、网络与存储资源组成统一的平台为用户提供服务,使数据在源头附近就能得到及时有效的处…

爱奇艺在 Dubbo 生态下的微服务架构实践

简介: 本文整理自作者于 2020 年云原生微服务大会上的分享《爱奇艺在 Dubbo 生态下的微服务架构实践》,重点介绍了爱奇艺在 Dubbo、Sentinel 等开发框架方面的使用经验以及微服务生态体系的建设经验。 作者 | 周晓军 爱奇艺中间件团队负责人 导读&#…

记 Arthas 实现一次 CPU 排查与代码热更新

简介: 线上代码经常会出现 CPU 占用过高的情况,按以往经验我会使用 top 指令,进一步借助于 jstack 去查看具体信息从而进行问题排查,但基本上都逃不过需要重新发包的局面,及时是一个增量包,应用也需要短暂停…

灵活、高效、智慧,宁畅发布新品及“智定+”战略

4月21日,2021宁畅新品暨战略发布会在京举办,宁畅发布了新品服务器“G40”系列,并推出 “智定”战略。该战略旨在智能时代为用户提供灵活、高效、智慧的定制化基础设施和服务。 图:2021宁畅新品暨战略发布会现场 宁畅总裁秦晓宁介…

应用系统瓶颈排查和分析的思考-Arthas 实战

简介: 业务应用系统接入流程引擎来处理业务应用的流程执行,流程引擎提供多线程高性能异步化来执行流程元素的执行,但是如何设置流程引擎的线程池线程数执行,以及执行线程数和任务数,应用机器资源使用情况之间的关系如何…