MaxCompute2.0 助力众安保险快速成长

摘要:2017云栖大会阿里云大数据计算服务(MaxCompute)专场,众安保险数据总监王超群带来MaxCompute助力众安保险方面的演讲。本文主要从MaxCompute优势开始谈起,进而谈及大数据能够为公司运营带来的好处,最后重点分析了众安保险的数据平台建设,包括任务调度、元数据和数据质量监控等。

 

以下是精彩内容整理:

众安保险作为国内第一家互联网公司,我们从创立之初计算平台就使用MaxCompute。

 6d26c2c1ef9bb11d35cc5d8693606df14ced8370

为什么会选择MaxCompute?

成立之初我们也在自建平台和MaxCompute上作出了选择,我们主要从五方面考虑:健壮性、与应用系统交互、扩展性、强数据安全和低成本。

健壮性:7*24的服务能力、异常恢复时长;

与应用系统交互:数据源的获取与数据输出效率和成本;

扩展性:当数据成倍增长时,计算能力弹性;

数据安全:数据异常攻击防护,提供多层沙箱防护及权限体系;

成本:自建成本和MaxCompute成本对比。

4ed20d1f89ab19c282083d0cbedf3e1749987a63

首先,2013年能够提供完整能力的计算平台并不是很多,MaxCompute孵化于阿里金融的生产系统验证后对外输出,支持5000台以上的计算能力,满足我们对弹性和扩展性的要求;其次,我们对阿里云专业能力的信任,可以看到阿里云在国内的计算份额遥遥领先;最后,MaxCompute不仅仅是一个计算平台,它还提供了分析和挖掘工具的能力支持,提供可用的IDE(DataWorks、Studio)开发工具,这会降低我们最初加工开发过程中的开发成本。

 

大数据能给公司运营带来哪些颠覆?

da283bf47efc9449064ba7cdcc699e03b6f889bc

云计算和大数据整体生态链的发展如图,国内云计算年增长率超60%,AWS新增功能数可观,云计算正日益接近生活,从hadoop诞生以来,十年间产品丰富性大大增加,生态圈越来越大。

 

大数据不仅仅在于它的工具、平台和生态圈,更在于它能够赋能于人、场景,通过赋能支持生态发展,阿里每天都有上万人在使用MaxCompute在工作,大数据是对人赋能创造的新职业,反过来从业者也会反馈大数据,丰富大数据的场景,在十年的发展中,人和资源的投入也在反馈结果,同时还有资本的良性回报继续投入大数据行业,形成闭环。

 

9d25e8748aaeeee7732053f22e9077c9dcbe0528

 

众安是一家以保险为核心的公司,我们提供跨生态的连接,与各个子行业进行跨生态合作,包括电商、3C、汽车等,这些产品打通了各个生态伙伴同时也会增加我们对用户的接触,通过与300多个生态伙伴的合作,我们积累了大量用户数据及信息。最终,我们希望众安既能服务这些生态,又能通过数据积累、客户积累、品牌积累来做大做强众安自己的开放平台。

截至到2016年底,我们服务的用户为4.92亿,保单数72亿,为中国互联网的新生代提供了第一张保单。其中,30岁以下人群大约占比50%,说明众安保险代表这新的生活理念方式,而且这群人群有着充足的资产生产能力,他们对保险的认可度和意识是更高的,他们是将来的消费主力。

 

众安保险的数据平台建设

每串数字后面都是公司全体员工努力的结果,那么,基于MaxCompute数据平台做了哪些事情呢?怎样支撑业务快速发展?

 

567a347c0bb3a2aaf1480f9caf66c6c63cdc3820

 

数据平台分为平台工具、数据监控和数据服务。数据本身是有多源异构数据,数据价值体现在于它的流动性和开放性,只有把数据经过加工、质检提供到用户手中,才能产生价值。平台工具包括MaxCompute、数据同步、任务调度和计算存储管理;数据监控有预警系统、元数据、血缘关系和数据质量;数据服务包括数据门户、自助取数和服务API。

 

任务调度系统

 

125500b259a6a7a5d7e158542ebacaa5f3d7feba

 

任务调度本质上是要完成数据加工工作流的状态,数据加工是一个多链路的过程,如何保证数据顺序的正确性,我们支持日、周、月等不同周期调度,支持分组优先级,支持小时任务,支持自定义时间调度,日任务量超1W。

任务调度是一个有向图,每一个节点都可以看到来源数据是非常多的,红色数据代表出错状态,蓝色代表成功,绿色代表正在运行,黄色是存在的状态。不同任务加工来源于很多的数据源,就会给我们带来困惑,如果信息出现错误,那么到底是自身任务出错还是上游数据源结果引来的问题呢?那么,怎么让开发更快的定位问题,减轻开发成本,提供统一口径?我们通过元数据来解决。

 

元数据

 

57dfdc03cc2df65f961985b97a10e3c4862f4c3b

 

数据包括打通数据和数据间关系,利于模型优化和异常定位,打通数据与人之间的关系,利于成本优化。数据关系包括数据字典信息、血缘信息、存储和产出信息、表责任人信息和业务元数据信息,推动存储计算优化来降低MaxCompute使用成本。

左图为数据间的基本信息,还有数据产出信息、血缘关系;右图展示表的来源,输出会影响下一轮哪些表,获取信息以后,我们会把数据和数据之间打通,人和数据之间打通。

 

0d5b12ce19253524b376a682ae7bfd58fa567215

 

存储优化后成本下降了30%,通过存储计算优化降低无效存储,计算效率会提升。

 

数据质量监控

cacd21798b3db3ef5091d2f702e3880f2c7d6f51

 

数据质量监控通过切片方式嵌入到任务自身执行状态中,执行任务的自处理,自己判定自己的状态,基于规则与模板验证数据的准确性,只有Ok才会被下游使用,这样避免了数据污染,自身暴露错误不依赖于下游。它的特点是利用MaxCompute的统计项收集功能,规则是统计项规则,包含表和字段级别,模板为规则+周期+统计函数的整合,把事后监控变为事中监控,支持用户自定义,覆盖重点任务,覆盖率30%。

 

数据服务与安全

在消费时,我们会去考虑哪些东西呢?数据是要开放和流通的,在开放和流通中我们还要小心什么?数据泄露和安全都会导致公司的灾难。

 

在技术上,我们基于ACL与角色管理,赋予不同等级,我们做了表和字段级别的权限等级控制,建立敏感信息掩码、涉密信息的加密审批流程,开放与安全,基于技术控制和流程控制,各种角色需要数据。开放基础是安全控制,开放关键在流程管理,我们在开放与安全间做平衡。

 

在数据平台的建设中,要保持可用、易用、适用三个阶段,需要经历多次迭代升级系统。数据即服务,要满足用户不同的数据需求,数据是基础设施,每家公司都面临数据平台的搭建和使用。

 

MaxCompute生态的丰富,资源与工具的共享,对挖掘算法的深入及支持都可强大到满足我们的使用需求,我们可以有更多时间去接触用户,为用户创造价值。MaxCompute成本也在逐步下降。未来,希望MaxCompute提供更多种模式支持,包括UDF\资源库如IP库,包括挖掘的python算法包、人工智能平台支持。

 

6c4b69af9fd1b465628b63fcee73224de0b62357

 

MaxCompute招聘信息:DT时代,与坚持梦想者同行!

 

阿里巴巴大数据-玩家社区 https://yq.aliyun.com/teams/6/

---阿里大数据博文,问答,社群,实践,有朋自远方来,不亦说乎……

bba01b493e1c5d904e882b1c380673c6ebe49a98

本文为阿里云原创内容,未经允许不得转载。

云栖号 - 上云就看云栖号

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/516804.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Elasticsearch7.15.2 mysql8.0.26 logstash-input-jdbc 数据全量索引构建

文章目录一、基础软件安装1. 安装mysql2. Elasticsearch7.15.2 安装部署3. kibana 安装部署4. logstash-input-jdbc 安装部署二、数据库准备2.1. 创建数据库2.2. 表结构初始化2.3. 数据初始化三、logstash 配置mysql3.1. 创建目录3.2. 上传mysql驱动3.3. 创建jdbc.conf3.4. 创建…

优酷背后的大数据秘密:资源弹性,可支撑EB级存储

在本文中优酷数据中台的数据技术专家门德亮分享了优酷从Hadoop迁移到阿里云MaxCompute后对业务及平台的价值。 本文内容根据演讲视频以及PPT整理而成。 大家好,我是门德亮,现在在优酷数据中台做数据相关的事情。很荣幸,我正好见证了优酷从没…

Python 本身真的有用吗?CSDN要对Python下手了!

Python 作为一种解释型技术脚本语言,越来越被认可为程序员新时代的风口语言。 无论是刚入门的程序员,还是年薪百万的 BATJ 的技术大牛都无可否认:Python的应用能力是成为一名码农大神的必要项。 而作为Python初学者来讲,最大的问题…

揭秘高德地图如何利用MaxCompute管理海量数据

摘要:随着自媒体的发展,传统媒体面临着巨大的压力和挑战,新华智云运用大数据和人工智能技术,致力于为媒体行业赋能。通过媒体大数据开放平台,将媒体行业全网数据汇总起来,借助平台数据处理能力和算法能力&a…

Elasticsearch7.15.2 mysql8.0.26 logstash-input-jdbc 数据增量索引构建

文章目录一、基础软件安装1. 安装mysql2. Elasticsearch7.15.2 安装部署3. kibana 安装部署4. logstash-input-jdbc 安装部署二、数据库准备2.1. 创建数据库2.2. 表结构初始化2.3. 数据初始化三、logstash 配置mysql3.1. 创建目录3.2. 上传mysql驱动3.3. 创建jdbc.conf3.4. 创建…

为什么说下一个十年的主战场在Serverless?

作者 | 不瞋,阿里云 Serverless 负责人"唯有超越,才能让我们走下去。"这是不瞋在阿里的第十年。从2010 年加入阿里云,不瞋参与了阿里云飞天分布式系统的研发,历任批量计算的架构师、表格存储(NoSQL&#xff…

解密淘宝推荐实战,打造 “比你还懂你” 的个性化APP

如今,推荐系统已经成为各大电商平台的重要流量入口,谁才能够做到比用户更懂用户,谁占据了新零售时代的主动权。手机淘宝的推荐更是淘宝最大的流量入口和最大的成交渠道之一,其背后是最为复杂的业务形态和最复杂的场景技术&#xf…

Elasticsearch7.15.2 基础概念和基础语法

文章目录一、基础概念1. ES是什么?2. 名词定义3. 对应关系4. 索引5. 分词二、基础概念2.1. 索引创建2.2. 索引/文档删除2.3. 索引修改三、ES 查询3.1. 简单查询3.2. 分页查询3.3. 复杂查询四、利用analyze api搜索4.1. 索引创建4.2. 索引查询4.3. 分词结果4.4. 索引…

技术重塑未来工作方式

作者: Nutanix亚太及日本地区高级副总裁兼销售负责人 Matt Young 新冠肺炎被宣布为“大流行病”之后,几乎在一夜之间,业务连续性的概念发生了根本性变化。在此之前,业务连续性通常指的是企业在某一办公地点遭遇像洪灾等恶劣天气或…

Elasticsearch7.15.2 ik中文分词器 定制化分词器之扩展词库(本地)

背景: IK分词提供的两个分词器,并不支持一些新的词汇,有时候也不能满足实际业务需要,这时候,我们可以定义自定义词库来完成目标。 目标: 定制化中文分词器,使得我们的中文分词器支持扩展的词汇 …

多点在线构建Noxmobi全球化精准营销系统

摘要:大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本&am…

Elasticsearch7.15.2 ik中文分词器 定制化分词器之扩展词库(远程)

IK分词提供的两个分词器,并不支持一些新的词汇,有时候也不能满足实际业务需要,这时候,我们可以定义自定义词库来完成目标。 文章目录一、静态web搭建1. 安装nginx2. 创建es目录3. 创建分词文件4. 存放静态5. 验证二、配置远程分词…

万博智云上云 单机软件升级多并发SaaS平台

云栖号案例库:【点击查看更多上云案例】 不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策! 业务痛点 自2016年开发迁移工具主要面向私有云环境,但是随着公有云用户越来…

学会这10大高性能开发技术,轻松躲过裁员名单!

来源 | 编程技术宇宙责编 | Carol封图 | CSDN 下载自视觉中国程序员经常要面临的一个问题就是:如何提高程序性能?这篇文章,我们循序渐进,从内存、磁盘I/O、网络I/O、CPU、缓存、架构、算法等多层次递进,串联起高性能开…

开放搜索助力提升趣店商城20%转化率

云栖号案例库:【点击查看更多上云案例】 不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策! 公司介绍 趣店集团,成立于2014年3月,是中国领先的金融科技企业&…

Elasticsearch7.15.2 修改IK分词器源码实现基于MySql8的词库热更新

文章目录一、源码分析1. 默认热更新2. 热更新分析3. 方法分析二、词库热更新2.1. 导入依赖2.2. 数据库2.3. JDBC 配置2.4. 打包配置2.5. 权限策略2.6. 修改 Dictionary2.7. 热更新类2.8. 编译打包2.9. 上传2.10. 修改记录三、服务器操作3.1. 分词插件目录3.2. 解压es3.3. 移动文…

母婴企业上云 实现线上线下互动营销、一体化管理服务

云栖号案例库:【点击查看更多上云案例】 不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策! 公司介绍 主要从事母婴产品的销售,拥有三家门店,未上云之前采用…

确认! Python再次夺冠,老码农:崩溃!

2020年转眼已过大半,在近一年的编程语言榜单中,Python已经走上卫冕的道路,并且与Java的差距拉得更远了一些。以往与Java常呈现你追我赶之势,而这一次则是直接相差由10%增加到15%!毋庸置疑Python的火,有目共…

SAP与阿里云的深度合作 为企业提供领先的SaaS 服务

云栖号案例库:【点击查看更多上云案例】 不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策! 什么是企业IT治理? 企业IT治理是对企业中IT资源的合理规划和分配&#xff0…

Docker JFrog Artifactory 7.27.10 maven私服(搭建篇)

文章目录一、docker 准备1. 安装docker2. 启动docker3. 监控docker状态二、docker 镜像2.1. 搜索JFrog Artifactory镜像2.2. 拉取镜像2.3. 开放对应端口2.4. 浏览器验证2.5. 登录一、docker 准备 1. 安装docker yum install docker2. 启动docker systemctl start docker3. 监…