【个推CTO谈数据智能】之本质及技术体系要求


戳蓝字“CSDN云计算”关注我们哦!

640?wx_fmt=jpeg作者|安森来源|个推技术学院640?wx_fmt=jpeg

安森,个推CTO

毕业于浙江大学,现全面负责个推技术选型、研发创新、运维管理等工作,已带领团队开发出针对移动互联网、金融风控等行业的多项前沿数据智能解决方案。


曾任MSN中国首席架构师,拥有十余年资深技术开发与项目管理经验,在大数据处理系统、大规模并发平台、分布搜索系统、手机应用开发、无线通信领域和智慧金融系统等领域拥有丰富实践经验。

引言

中国移动互联网的发展见证了中国大数据行业的蓬勃发展。数据智能作为移动互联网时代的自然产物,也是未来很长一段发展阶段的核心所在。个推(每日互动)和业界的共识不谋而合,从2010年成立到现在,经过多年的发展,从一家移动互联网时代服务于开发者的基础推送平台服务商,已经成长为创业板的上市公司,也是国内首家在A股上市的数据智能公司。作为专业的数据智能服务商,个推立足开发者服务,将不断致力于用数据推动产业智变。


围绕“数据智能”主题,我将通过一系列文章进行阐述。本文主要从技术角度来探讨数据智能中涉及的各个方面,希望通过这一系列内容,能让大家对数据智能以及所涉及的技术体系有一个比较清晰的了解。


本系列将从以下五方面展开:

01

数据智能时代的来临:本质和技术体系要求

核心内容:我们根据个推在数据智能领域多年的实践来讲讲我们对于数据智能的理解,并且从总体上提出对应的技术体系要求。


02

数据智能下的数据资产治理思路


核心内容:主要探讨作为资产后的数据如何进行治理,需要具备的基础,具体如何实施,最终保证数据资产的安全、合理使用、以及价值创造。


03

数据智能下的安全计算体系


核心内容:在保证数据资产的所有权和使用权分开的前提下,目前可以采用的技术和方法论。


04

数据智能下的数据质量保证体系

核心内容:大数据之所以为大,是因为其规模以及多样性,不同于传统的小数据,可以很快去验证其正确性,那么可以采取什么方法去保证数据的质量及可检验性呢?

05

数据智能下的不同行业的业务探索实践

核心内容:隔行如隔山,数据智能也具有鲜明的行业区分性,这个主题会讲述几个我们涉及比较深的行业的探索实践,并总结一些经验和教训。




正文

大数据的发展历程

本文是系列文章的开篇,首先聊一聊我们理解中的数据智能的本质;同时作为公司技术负责人,和大家探讨一下基于技术体系的要求,也就是数据智能时代,要从数据中体现智能,从技术方面需要做哪些事情。


什么是数据智能,这个概念怎么来的呢?


记得从2010年开始,随着移动互联网的兴起,大数据也随之出现在各个媒体网站和行业论坛,大家见面都会问一句:“你们搞大数据了吗?” 其实大家对大数据该如何加以应用都不太清楚。


大数据的发展过程是什么样的呢?下图比较清楚地对此进行了诠释。


640?wx_fmt=png

我把它称之为大数据成熟度模型。这个过程实质上我们理解也是数据从工具变成为资产的过程,从一个辅助的东西变成生产资料的过程。现在在提的数字经济,很多人试图对此进行理论定义,以便把数字经济和实体经济从概念上区分开来,我的建议是就从数字是否作为主要生产资料,是否作为核心资产这个角度去界定,会比较简单明了。


从这几年的实际发展来看,大数据基本上按照上图的这个模型在演进发展。


2013年左右,企业已经开始认知到数据价值,各个具有大数据生产环境的行业如电信运营商、政府、公安、金融等开始建设大数据平台,收集并存储企业业务产生的数据。同时,金融等行业也开始大量购买外部数据,希望通过外部数据快速挖掘数据的价值,弥补自身数据短缺的问题,不少从事数据聚合和相关服务公司获得了发展机遇。


2015年,大数据进入到了监测阶段,通过数据大屏等形式,实现对业务的监测,这是大数据最早、最先成熟的应用方向。对于政府、央企及大型国企而言,数据大屏、领导看板等数据展现应用是大数据最直接能够反映价值的方式。


2017年,大数据平台建设基本完善,单纯数据展现开始难以满足企业的多样化需求,大数据开始与业务场景结合,基于大数据实现对业务问题的洞察,呈现出百花齐放的局面,分别应用在金融领域的精准营销和风控反欺诈,公安领域的刑侦破案,工业领域的故障预测预警等。


企业对业务场景的洞察,单纯靠简单的数理统计已经不足以满足要求,因此,数据挖掘、数据建模技术应运而生。AI建模平台、数据科学平台开始进入人们的视野,出现了一些主打建模平台的创业公司,但更多公司将AI建模平台内化成自身的能力,基于AI建模平台,形成解决方案,帮助企业客户落地大数据应用。


在2019年左右,大数据开始进入到业务决策阶段,也就是说,由机器形成数据报表或者数据报告,业务人员进行决策变成机器直接给出决策建议,让机器具备推理能力。例如,在外卖、出行场景,美团和滴滴的系统直接形成最佳调度方式,系统自动完成决策环节,将任务下发给骑手和司机。这种消费互联网相对常见的场景,将在产业互联网、企业业务场景中逐渐出现。也就是说,大数据开始从业务数字化阶段向数据智能化阶段迈进。

640?wx_fmt=png

数据智能的特征和定义

从上节中的大数据发展历程中,我们看到数据智能目前对应的是决策、优化以及商业重塑阶段,也就是说让机器具备推理能力;而这些能力意味着自然语言处理(NLP)、知识图谱(Knowledge Graph) 等认知技术的逐渐成熟,这也是为何2018年NLP、知识图谱成为市场的热点的原因。因此,数据驱动决策,数据驱动业务发展的企业新需求,也必然会带动一批数据智能公司的兴起。


未来,随着技术更加成熟,大数据会从决策进入到最后一个环节,也就是业务重塑。很多执行环节可以由机器来实现,但仍然有很多环节需要人参与其中。因此,人机协同会迎来迅猛发展,从人工智能 AI (Artificial Intelligence ) 向人类智力增强 IA (Intelligence Augmented) 进发。


至此, 我们试着给数据智能做一个定义:数据智能就是以数据作为生产资料,通过结合大规模数据处理、数据挖掘、机器学习、人机交互、可视化等多种技术,从大量的数据中提炼、发掘、获取知识,为人们在制定决策时提供有效的数据智能支持,减少或者消除不确定性。


大数据的发展历程

数据智能首先需要有数据提供,而且数据在其中充当着核心资产和生产资料的角色,那么对于数据的治理就显得尤为重要。什么是数据治理(Data Governance) 呢? 我们经常听到公司治理这个词,公司治理在经济学上主要解决几个问题:

所有权和经营权如何分离?

公司所有者如何向职业经理人进行科学的授权及监督?

那么对应地,数据治理也要解决类似的几个问题:

数据(资产)有哪些?

如何让数据所有权和使用权分离?

数据资产所有者如何向数据使用者进行科学的授权及监督?


数据智能的所有手段其实都是在解决上述的几个问题。关于数据治理方面的内容我将在本系列的第二部分进行详细描述。


同时,我们知道穷人和富人之间的差别在于对待财富的态度,富人更多的是从资产增值的角度去对待财富,想的是如何创造更多资产,并且让资产不断增值;穷人更偏向于从消费的角度去看待财富,赚来的钱更多的是用于消费。那么在数据智能时代,如果我们想成为一个“富人”,就需要考虑如何让数据发挥更大的价值,如何找到其他合作者去联合创造价值,但是数据不同于别的资产,其具有可复制性、难确权的性质,这就需要我们去解决数据安全问题,也就是目前行业内比较关注的安全计算技术,在本系列的第三部分我将对此进行详细阐述。


还有一个需要我们关注的点是:大数据由于其具备的 4V 特性,特别是量大、种类多,有时候会让我们对于其聚合或者产生的结果存疑,虽然有一些可以通过常识或者直觉去判断,但是总是有说不出的味道。这就需要有一个质量保证体系来让我们对于数据从产生到最终的各个环节有一个完整的检验过程,本系列的第四部分会对质量保证体系进行详细描述。


在这里小结一下,数据智能的技术体系至少需要包含三个方面:

数据治理系统

数据质量保证系统

数据安全计算体系


结语

数据智能作为大数据时代一个重要且激动人心的阶段,机会与挑战并存。作为本系列开篇文章,本文对该主题内容进行了一个整体概述,后续会对具体内容逐步展开,希望对大家有所帮助。


640?wx_fmt=png


福利

扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!


640?wx_fmt=jpeg


推荐阅读:

  • 微博宕机复盘:什么样的技术架构,可支持80个明星并发出轨?

  • 漫画 | Kubernetes带你一帆风顺去远航

  • Android 告急!

  • 超酷炫!Facebook用深度学习和弱监督学习绘制全球精准道路图

  • 多地GitHub账号使用受限;Python之父考虑重构解释器;62岁程序员埋逻辑炸弹 | 开发者周刊

  • 3个核心差异, 告诉你为什么Libra永远成不了比特币!


真香,朕在看了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/522711.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

企业打开Redis的正确方式,来自阿里云云数据库团队的解读

摘要: Redis是开源的基于内存且可以持久化的分布式 Key – Value数据库。自2009年发布最初版本以来,Redis的热度只增不减,除了经常位居DB-Engines的最受欢迎Key-Value数据库榜首之外,看阿里云技术总监为您深度解读云数据库Redis。…

2019 年度程序员吸金榜:你排第几?

作为全球知名招聘求职网站Indeed,最近发布了2019年度最佳工作榜单,公布了2019年的行业领域及工作岗位薪酬,在全行业的榜单中,跟程序员相关的岗位有9个!对此,大家纷纷留言表示程序员或成最大赢家&#xff01…

YAFFS2移植到AliOS Things指南

摘要: YAFFS2介绍 YAFFS(Yet Another Flash File System)是第一个专门为NAND Flash存储器设计的嵌入式文件系统,适用于大容量的存储设备。YAFFS 是基于日志的文件系统,提供磨损平衡和掉电恢复的健壮性。 点此查看原文&…

阿里云十年,从去“IOE”到引领云原生浪潮

戳蓝字“CSDN云计算”关注我们哦!作者 | 孙浩峰出品 | CSDN云计算(ID:CSDNcloud)2008年,王坚从微软亚洲技术研究院空降阿里,担任首席架构师。这个在阿里内部尊称为“博士”的首席架构师所学却是一个心理学博…

linux下mtr命令,如何使用Linux mtr命令

对于经常和Linux打交道的技术人员来说,mtr命令是一个非常实用的Linux命令。它可以进行实时网络诊断。本篇文章分享了linux mtr命令的详细使用示例。以下描述来自mtr命令的软件包信息。Mtr是一种网络诊断工具,将ping和traceroute组合到一个程序中。Mtr提供…

IntelliJ IDEA 单行注释调整

部分人并不习惯这种风格,所以一般会设置为单行注释的两个斜杠跟随在代码的头部,在File -> Setting -> Editor -> Code Style -> Java -> Code Generation 下如图设置即可

高速通道-冗余物理专线接入-健康检查配置

摘要: 组建混合云,用户的IDC需要通过物理专线与阿里云VPC互通,多线冗余是基本配置需求。阿里云提供的冗余冗余切换方案是在VPC中,用户掌握切换原理,即可自主在控制台完成冗余负载配置。 一 VPC健康检查IP机制1 健康检查…

OpenStack精华问答 | OpenStack的目标是什么?

关于OpenStack的争议,从未停止,每每关于它的消息,都会一石激起千层浪。今天就让我们看看关于OpenStack的问答吧。1Q : 什么是OpenStack?A : OpenStack,是目前最为流行的开源云操作系统框架。深入理解OpenStack需要围绕…

linux创建定时任务命令,linux设置定时任务的方法步骤

一,首先登录二,找到文件夹三,查看定时任务crontab -l四,vi root 编辑定时任务 编辑完成后,点ESC,然后:wq时间格式分钟 小时 日期 月份 周 命令数字范围 0-59 0-23 1-31 1-12 0-7 echo "hello" &g…

idea terminal终端修改为git bash设置

idea terminal终端修改为git bash设置: 修改前: 修改后:

iOS KVO crash 自修复技术实现与原理解析

摘要: 【前言】KVO API设计非常不合理,于是有很多的KVO三方库,比如 KVOController 用更优的API来规避这些crash,但是侵入性比较大,必须编码规范来约束所有人都要使用该方式。有没有什么更优雅,无感知的接入…

数据中心网络架构的问题与演进 — 传统路由交换技术与三层网络架构

戳蓝字“CSDN云计算”关注我们哦!文章目录目录传统路由交换技术路由和交换交换技术传统的 2 层交换技术具有路由功能的 3 层交换技术具有网络服务功能的 7 层交换技术路由技术三层网络架构核心层(Core Layer)汇聚层(Aggregation L…

10分钟上线 - 利用函数计算构建微信小程序的Server端

摘要: 阿里云函数计算是一个事件驱动的全托管计算服务。通过函数计算,您无需管理服务器等基础设施,只需编写代码并上传。微信小程序是一种不需要下载安装即可使用的应用,它可以在微信内被便捷地获取和传播。 当微信小程序遇见serv…

'cross-env' 不是内部或外部命令,也不是可运行的程序

解决方案: 运行: cnpm i cross-env --save-dev

监控linux内存,linux 监控系统资源-内存

监控内存使用量:思路:使用free -m 提取相关数据,算出使用内存量输入到文件,并且每一次计算都与当前文件中的数据对比,大于文件中的数据则替换。保留当天最大内存使用量,每天发送邮件(可以单独写个发邮件的脚本)。脚本可…

AI+DevOps正当时

戳蓝字“CSDN云计算”关注我们哦!随着业务复杂化和人员的增加,开发人员和运维人员逐渐演化成两个独立的部门,他们工作地点分离,工具链不同,业务目标也有差异,这使得他们之间出现一条鸿沟。而发布软件就是将…

SpringBoot集成Flowable_Jsite待办任务菜单报500

JSite 快速开发框架,内置Flowable工作流引擎 五大基础模块 前后端基础代码自动生成 权限精确控制。 说明:此版本我已经调通,最新版本正在更新,页面未处理好,因此采用历史版本。 文章目录一、克隆/打开项目1.1. 搜索…

阿里云SDK再升级,宣布支持C++语言

摘要: 日前,阿里云官方SDK发布支持新语言——C 语言SDK,意味着90%以上产品可以随时生成并发布C SDK,给C 语言的开发者使用。 此次阿里云发布支持C SDK的新功能,可以让C 语言开发者更加便捷地使用SDK调用产品API来操作产…

网络存储 linux 访问,Linux基础教程学习笔记28——使用Samba访问网络存储

Linux基础教程学习笔记28——使用Samba访问网络存储SMB用于Windows和类Linux系统直接的文件共享安装samba client包:[rootlinuxidc~]# yum install samba-client\* -y使用smbclinet命令查看和访问windows共享的文件夹资源:12345678910111213 [rootlinuxi…

IDC Q1中国云服务报告:公有云IaaS市场增速持续高于全球

2019年8月2日,市场研究机构IDC发布了《2019Q1中国公有云服务市场跟踪报告》。报告显示,中国公有云市场发展强劲,2019年Q1公有云IaaS市场同比增长74%,头部效应明显,市场集中度较去年持续提升。头部厂商中,阿…