如何基于大数据及AI平台实现业务系统实时化?

简介: 后疫情时代的新社会模式及经济形态必将催生出新的商业模式,在线业务及相关应用场景的流量呈现井喷式发展,常规的离线系统及离线机器学习平台已无法满足业务发展要求。

作者:高旸(吾与),阿里巴巴高级技术专家

1. 前言

随着互联网“人口红利”的“消耗殆尽”,基于“T+1”或者离线计算的机器学习平台及推荐系统转化率与效果日趋“平淡”。后疫情时代的新社会模式及经济形态必将催生出新的商业模式,在线业务及相关应用场景的流量呈现井喷式发展,常规的离线系统及离线机器学习平台已无法满足业务发展要求。人口红利吃尽之后,基于大数据及AI平台的业务系统在时间维度上的思考将变得至关重要,通过业务系统实时化向时间要价值已经成为主流趋势。基于流式计算引擎的在线机器学习平台将越来越被重视, 通过增量模型的准实时或实时推荐系统更能“因时而异” 充分捕捉目标用户瞬息万变的需求,从而进行精准推荐和变现。实时推荐系统也从最早的电商场景, 扩展到社交场景, 在线教育场景, 游戏场景及更广阔的在线场景。

本文介绍重点介绍基于阿里云大数据及AI产品家族的实时计算Flink及PAI Alink机器学习算法平台,以及该产品组合在实时推荐场景(适用于电商、游戏及在线教育解决方案)、实时评分卡场景(适用于金融、安全及营销风控解决方案)以及异常检测场景(适用于工业领域及其他产业互联网领域)的场景应用。

2. 实时计算引擎及机器学习算法平台介绍

2.1 阿里云实时计算Flink

阿里云实时计算Flink作为Apache Flink创始团队的商业化产品,从极致(较传统微批模式)的实时数据处理维度,为企业大数据处理及业务实时化提供了可能。商业化的统一开发及管控平台,成熟、准标准化的SQL及元数据管理能力,让业务人员及数据分析师大幅度提升开发效率, SQL配合UDF基本可以解决80%+的业务场景。企业级的State Backend – Gemini大幅度提升IO效率,整体执行引擎较开源3倍以上的性能提升。

VVP.png

基于阿里云Kubernetes的全新Serverless全托管云上实时计算Flink服务,使用全新的硬多租技术方案,基于VPC提供网络层隔离,阿里云安全容器提供计算层隔离,基于弹性云盘提供存储级隔离,通过用户级Master及超级Master实现极致资源弹性下的多租户隔离。基于负载的细粒度弹性伸缩, 充分提高资源使用率, 降低整体TCO。新一代的Serverless实时计算Flink产品为在线机器学习算法平台提供了坚实(“时“)的基础。

2.png

2.2 阿里云PAI Alink机器学习算法平台

3.png

与SparkML算法相比,Alink算法更全面,性能更优异,场景更丰富(同时支持流批),本地化更出色(支持中文分词)是快速搭建在线机器学习系统的不二之选。

4.png

3. 基于实时计算Flink-机器学习场景介绍:

3.1实时推荐场景:

从根据用户点击和浏览的内容实时推送的电商场景,到社交媒体根据用户阅读的内容实时“喂送“的实时推荐系统,再到游戏推送平台根据用户行为实时推送的游戏系统,实时推荐系统俨然已经成为了在线业务系统的核心。

5.png

阿里云PAI Alink算法平台提供: 召回(例如:ALS、FM、Deep Walk等),特征编码(OneHot、MultiHot及GBDT等) ,排序(LR及FFM等)以及Online算法(OnlineFM及Ftrl)流式和批式的算法能力全流程构建能力。配合阿里云实时计算Flink海量样本实时拼接能力,能够快速端到端实现离在线一体化的推荐系统。

6.png

通过特征工程批式训练初始化模型,通过实时样本拼接配合流式算法(OnlineFM及Ftrl) 生成增量的模型,最终提供统一模型的整体结果预测,更实时更动态的提升推荐效果。

7.png

3.2 评分卡场景介绍:

阿里云实时计算Flink及PAI Alink产品组合可以帮助客户快速搭建实时金融风控解决方案。评分卡在金融场景有广泛的应用,能否构建准确的评分卡模型关系到能否安全的开展支付、贷款、保险、理财、信用等业务,评分卡常被用于信用评估领域,比如信用卡风险评估,贷款发放;评分卡也会用来作为分数评估,比如客户质量打分,信用分。涉及金融的场景都需要:可追溯、可审计及可解释,如下的评分卡模型就具备很好的可解释性。例如:用户年龄27岁,性别男,婚姻状况已婚,学历本科,月收入10000。根据如下评分卡,该用户的评分为:评分 = 223(基准分) + 8(年龄) + 4(性别评分)+ 8(婚姻状况)+ 8(学历评分)+ 13(月收入评分)= 264分。

8.png

阿里云实时计算Flink及PAI Alink产品组合提供最先进的评分卡解决方案, 分箱将每个特征按照需求进行分箱训练;评分卡训练生成评分模型;样本稳定性通过PSI等指标衡量样本稳定性;模型评估,评估二分类模型效果。该解决方案支持多特征维度模型训练,支持大规模样本建模。

9.png

3.3 异常检测场景

异常检测及时序分析是一个较为常见并且应用广泛的场景,在工业界的应用尤甚。利用阿里云实时计算Flink及PAI Alink产品组合可以帮助客户快速搭建异常检测解决方案。实时计算Flink强大的性能与Alink丰富的算法库机相结合,可以帮助数据分析和应用开发人员实现数据处理、特征工程、模型训练、预测等多个环节端到端的处理。在异常检测场景下,Alink支持时间序列异常检测、异常集检测两个核心场景。

在时间序列异常检测中,Alink具备种类齐全、批流一体、性能优异、并行计算、使用方便等优势。针对不同的使用场景,分为基于时序预测和时序分解两种类型:

  • 时序预测算法适合流式数据,即时响应
  • 时序分解算法适合全量数据,能够从全量数据中挖掘有效信息。

Alink也提供了时序预测和时序分解算法,用户可以单独使用。

10.png

异常集检测是风控场景的核心诉求之一。Alink 异常集检测中具备如下优势:

  • 巨型图支持 - 支持上亿边的图数据
  • 在线更新 - 随时加上异常种子均可局部异常检测
  • 快速运算 - 只对局部图进行运算,节约计算资源

在盗用、欺诈、作弊、商户、借贷套现等各风险域都有异常集检测的需求存在。基于GraphRAD,Alink实现了半监督的异常集检测,RiskCommunityDetector。算法输入连接关系以及已知的黑点,即可对全图进行分析,捕获其它黑用户,降低业务运行过程中的风险,为业务安全保驾护航,避免可能发生的重大损失。

11.png

4. 后记

通过上文的介绍,想必大家已经对阿里云实时计算Flink及PAI产品组合跃跃欲试了,可以快速开通全托管实时计算Flink 体验最新的Serverless产品服务。实时计算Flink触达直通车:https://www.aliyun.com/product/bigdata/sc

12.png

通过开通阿里云E-MapReduce Dataflow集群,快速搭建基于阿里云实时计算Flink的PAI Alink算法平台。PAI Alink触达直通车:https://www.aliyun.com/product/emapreduce

13.png

 


原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/515129.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于 Flink 的典型 ETL 场景实现

简介: 本文将从数仓诞生的背景、数仓架构、离线与实时数仓的对比着手,综述数仓发展演进,然后分享基于 Flink 实现典型 ETL 场景的几个方案。 作者:买蓉 美团点评高级技术专家整理:赵阳(Flink 社区志愿者&…

商用密码技术与应用创新的方向是什么?安全牛发布《商密报告》全面揭晓

编辑 | 宋慧 出品 | CSDN云计算 头图 | 付费下载于东方IC 2021年4月22日,由安全牛举办的2021商用密码技术创新研讨会暨《2021商用密码创新应用指南》(以下简称《商密报告》)发布会在北京举行。 北京谷安天下科技有限公司副总裁贺晓辉在研讨…

Flink 源码 | 自定义 Format 消费 Maxwell CDC 数据

Flink 1.11 最重要的 Feature —— Hive Streaming 之前已经和大家分享过了,今天就和大家来聊一聊另一个特别重要的功能 —— CDC。 CDC概述 何为CDC?Change Data Capture,将数据库中的’增’、’改’、’删’操作记录下来。在很早之前是通…

阿里巴巴大数据实践:大数据建设方法论OneData

来源:数智化转型俱乐部 面对爆炸式增长的数据,如何建设高效的数据模型和体系,对这些数据进行有序和有结构地分类组织和存储,避免重复建设和数据不一致性,保证数据的规范性,一直是大数据系统建设不断追求的…

干货!一文搞懂无状态服务

来源 | 机智的程序员小熊责编 | 寇雪芹头图 | 下载于视觉中国事故的发生是量的积累的结果,任何事情都没有表面看起来那么简单,在软件运行的过程中,随着用户量的增加,不考虑高可用,迟早有一天会发生故障,不得…

后疫情时代,这家在线教育机构如何乘“云”而上

简介: 阿里云依托于云计算的基础设施特性,能够帮助教育机构避免业务侧重复投入、提高资源利用率、降低开发和运维成本,使洋葱学院激发出更大的活力,在后疫情时代得到更多用户的青睐 新冠疫情让现代人类和国际社会经历了大规模的隔…

2021全球权威AI性能竞赛MLPerf最新榜单: 浪潮获18项冠军几近半壁江山

4月22日,全球权威AI基准评测MLPerf公布2021年最新榜单,在全部有效41个项目中,浪潮获得18项性能第一,斩获几近半数冠军。 MLPerf™由图灵奖得主大卫•帕特森 (David Patterson)联合谷歌、斯坦福、哈佛大学…

NFS文件锁一致性设计原理解析

简介: 在存储系统中, NFS(Network File System,即网络文件系统)是一个重要的概念,已成为兼容POSIX语义的分布式文件系统的基础。它允许在多个主机之间共享公共文件系统,并提供数据共享的优势&am…

作为工程师,你真的了解无服务器?

译者 | 王欢来源 | 分布式实验室头图 | 下载于ICphoto最近,我在YouTube上看了一个非常出色的开发人员的视频。它的标题是“无服务器毫无意义”。虽然我非常喜欢该视频,但也不敢确定作者关于无服务器的观点是否完全正确,因此我想在本文中进行讨…

recaf反编译 java jar包

文章目录1. 获取方式2. 软件运行3. 导入jar4. 模式切换5. 字符串混淆解析1. 获取方式 添加QQ群获取197453088 2. 软件运行 java -jar recaf-2.21.13.jar3. 导入jar 4. 模式切换 5. 字符串混淆解析 如何解密Allatori 混淆的字符串 Java ALLATORIxDEMO

分布式锁在存储系统中的技术实践

简介: 阿里云存储提供了完整的分布式锁解决方案,经过了阿里云众多云产品宝贵的业务场景中长期锤炼,稳定高可靠,且提供了多种语言的SDK选择,甚至是RESTful集成方案。 1 背景 针对共享资源的互斥访问历来是很多业务系统…

Spring Cloud 应用在 Kubernetes 上的最佳实践 — 高可用(混沌工程)

简介: 从上篇开始,我们进入到了高可用的章节,上篇提到的熔断能力,是历年保障大促当天晚上整个系统不被洪峰流量打垮的法宝,本篇介绍的措施与熔断有不一样的地方? 前言 从上篇开始,我们进入到了…

闲鱼对Flutter-Native混合工程解耦的探索

简介: 分手快乐,祝你快乐~ 作者:祈晴 1. 闲鱼Flutter现状 闲鱼是第一个使用Flutter混合开发的大型应用,但闲鱼客户端开发最深入体会的痛点就是编译时长影响开发体验。在FlutterNative这种开发模式下,Nat…

学 Python 最大的 1 个误区,看看你中招了吗?

提起 Python,大家总觉得很简单。但是,能把 Python 用好的人,好像并没多少。随着 Python 火了之后,像“ 3 天带你学会 Python ”、“快速入门到全栈”这样的教程层出不穷。很多讲了一点基础语法后,还没讲 http 协议和异…

Unable to make public jdk.internal.loader.Resource jdk.internal.loader.URLClassPath.getResource(jav

文章目录1. 现象2. 异常截图2. 解决方案3. 执行命令4. 启动日志5. 浏览器效果图1. 现象 执行命令 xjar.exe java -jar unified-access-center-passwd.jar运行 sprinbgboot 打包的jar包报错 具体信息如下: C:\Users\gblfy\Desktop\xJarDir>xjar.exe java -jar…

win10安装go开发环境

文章目录1. 下载软件2. 安装3. 验证1. 下载软件 golang官网:https://golang.google.cn/dl/ 2. 安装 双击go1.19.1.windows-amd64.msi一路下一步 3. 验证 go version

3 张图带你走近蚂蚁mPaaS音视频通话组件

简介: 远程问诊、线上开户、车载语音通话……蚂蚁 mPaaS 正在“拥抱新技术,探索新未来”。 音视频技术的进步,让线上办公不再是一时权宜之计,也使得线上业务的“无接触”开展成为可能。近日,蚂蚁集团推出的移动开发平台…

立即生效!帕特·基辛格卸任 VMware 所有职务

整理 | 苏宓出品 | CSDN(ID:CSDNnews)心无二用,在帕特基辛格(Pat Gelsinger)成为英特尔新任 CEO 两个月后,他宣布辞去此前的 VMware 首席执行官的职务,全身心地帮助英特尔重建往日的…

云原生应用实现规范 - 初识 Operator

简介: 本文我们将首先了解到 Operator 是什么,之后逐步了解到 Operator 的生态建设,Operator 的关键组件及其基本的工作原理,下面让我们来一探究竟吧。 作者 | 匡大虎、阚俊宝 基于 Kubernetes 平台,我们可以轻松的…

如何基于 K8s 构建下一代 DevOps 平台?

简介: 当前云原生 DevOps 体系现状如何?面临哪些挑战?如何通过 OAM 解决云原生 DevOps 场景下的诸多问题?云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答,并分享如何基于 OAM 和…