大数据,且行且思

“大数据”概念于20世纪90年代被提出,最初只是对一些在一定时间内无法用传统方法进行抓取、管理和处理的数据的统称。随着时间的推移和科技的发展以及物联网、移动互联网、SNS的兴起,每年产生的数据量都以几何级数增长,《IDC Digital Universe in 2020》报告称全球产生的数据将在2020年达到40ZB(1ZB=10亿TB=100万PB)。在这急剧增长的数据面前,各种相关概念、技术层出不穷,一直不停地吸引大家的眼球。同时,大数据的内涵也发生了重大变化。让我们一起来思考一下:什么是大数据?能用它来解决什么问题?该如何应用大数据技术?目前有哪些难点?大数据的未来是什么?

什么是大数据?

业界通常用Volume、Variety、Value和Velocity(简称为“4V”,即数据体量巨大、数据类型繁多、价值密度低和处理速度快)四个特征来显著区分大数据与传统数据。目前业界可能更关注的是Volume(容量)和Velocity(速度),而忽略了数据价值以及数据体系建设,这种情况充其量只能称之为海量数据,引用淘宝网商业智能部资深总监车品觉的话来说就是“坐在数据金矿上啃馒头”。在传统的4V基础上,大数据还应该包含数据交换、互联、质量、安全等数据体系建设以及可以建立上层数据应用的整个生态圈。

大数据能解决什么问题?

大数据现象在物理学、生物学、环境生态学、自动控制等科学领域和军事、通信、金融等行业的存在已有些时日。从本质上来说,大数据主要解决的是海量数据存储、计算、挖掘、展现的问题,基于此之上可以诞生一系列应用或商业模式。

在目前阶段,解决的问题主要分为3类。

  • 拓展传统的商业智能(BI)领域。以前针对大数据量的统计、关联分析、趋势预测由抽样变成全量分析,将数据回流到各种报表。
  • 业务流程改进。对各种数据进行聚合分析,用来作为业务流程改进和考核的依据。
  • 数据产品和商业应用。通过对已有数据或数据处理能力进行服务化或产品化包装,形成数据产品或数据服务。

该如何应用大数据技术?

大数据技术是一个整体,没有统一的解决方案,相关技术涉及到数据的传输、存储、计算、挖掘、展现、开发者平台6个部分。

  • 作为数据处理的入口,数据传输和同步一般会采用基于时间线的实时同步和批量同步两种方案。基于时间线的实时同步,典型的系统有LinkedIn的Databus+Kafaka组合、淘宝开源的TimeTunnel;批量同步,典型的系统有Facebook开源的Scribe、Cloudera开源的Flume、Hadoop社区开源的Chukwa。
  • 在数据量超过单机承载能力时,数据存储在扩展性和可用性上会面临较大挑战,一般会采用分布式存储。如基于内核层的Ceph、GlusterFS,用户层的有HDFS、GFS,业务层的HBase(列存储数据库)、MongoDB(文档数据库)、Cassandra(K/V型数据库)、Neo4j(图形数据库)等。
  • 大数据技术的核心是基于存储的计算。计算一般分为离线计算、在线计算(流式计算、即时计算)。离线计算经过多年的积累和沉淀,已经成为数据处理的首选平台,承载了绝大多数的数据处理任务,典型的有Hadoop以及之上的Hive/Pig、阿里的ODPS;在线计算根据业务特征分为针对实时数据源进行固定规则计算的流式计算系统和针对非实时数据源进行灵活运算(无法预算)的即时计算系统。典型的流式计算系统有Storm,典型的即时计算系统有阿里的Garuda。
  • 为了建立数据关系及数据模型,需要进行数据挖掘。为了进行海量数据的数据挖掘,一般会建立一个运行在分布式计算集群上的公用算法平台来进行各种数据处理,典型系统为基于Hadoop的Mahout、RHadoop。
  • 为了展现海量数据结果的多样性、多角度、多层次,需要用到数据可视化相关技术,典型的系统是Facebook Insights。
  • 数据处理涉及到的环节错综复杂、盘根错节,如何让大家易使用、保障所有系统的稳定运行,需要有一个平台来帮助开发者简化或完成数据处理的各个环节,例如提供数据处理、调度工作流系统、查看元数据、提供数据开发IDE等,典型的系统是Precog。

目前有哪些难点?

除了应对海量增长的数据带来的存储、计算、挖掘算法的技术难点之外(技术难点细节相信大家基本上都能在网上找到相应资料),其实还包括数据本身带来的业务难点。

在业务规模不大时,可以利用开源技术搭建起一整套数据处理系统。而随着业务增长,就需要根据业务特色按需修改或开发一些满足特定领域需求的系统。

在一些公司,业务急速增长和扩张,业务难点和技术难点同样突出,例如数据源源不断地产生,数据的质量、安全、成本该如何保障呢?前端业务库的元数据变更会给后端的数据处理造成什么后果?这些问题处理得不好很容易功亏一篑,让数据成为一堆大垃圾和高成本的企业负担。

针对业务难点,在保证数据质量方面,需要从数据源头进行规范,建立起一整套逻辑结构元数据和业务元数据系统来进行数据的约束、变更通知和业务基线保障(基线指根据业务方需要的时间来倒推数据生产完成时间)。基于此来进行数据的血缘分析(关联关系)、元数据查询、数据生产时间等功能;同时需要对数据的波动、变化做多样化的监控和报警规则管理,确保数据是及时、准确、可用的。

企业所拥有的数据可能成为获得竞争优势的关键,企业的数据和基础设施的安全也比以往任何时候都重要。因此从业务库到数据仓库的整个过程都需要考虑安全,包括数据传输、计算过程都需要进行认证、鉴权。鉴权的角度需要站在数据本身的角度去考虑。

数据在源源不断地增长,数据直接拥有成本也在随之提高,一些公司用来处理数据的服务器台数都要以万来计。因此,需要从大数据处理的全局角度来考虑如何从存储、计算上尽可能地降低成本,让模式可以持续。例如对数据采用冷热分离(冷数据存储到磁带上等)、按业务特征进行分层压缩(按列存储、存储数据差异等)、计算资源细粒度错峰化(资源进行细粒度分配或预估、按照业务时间进行波峰与波谷整合)、数据生命周期管理(比如进行过期垃圾数据清除)等手段来节省成本。

如何衡量数据价值?

我们有理由相信,不同数据中蕴含的价值是有差异的。如何衡量数据的价值可以从数据末端来进行考虑,可以如前面提到的那样建立一套元数据中心来管理整个企业的数据流转和关联。基于此可以分析每份结果表的引用关系链,采用业务价值/投资回报率(ROI)模式来衡量源头数据的价值,优先保障这些高价值源头表的数据质量。

大数据的未来?

大数据正在改变一些行业的运营发展规则,也诞生了一批数据服务公司,未来的大数据将会真真切切地落地在我们周围,很多企业不再需要建立一套如此复杂的数据处理系统,数据和计算能力都会变成一种资源按需使用。基于此,我们可以将大数据的未来分为三类。

第一类专注于做数据处理平台,也就是DaaS(Data as a Service),典型的公司有Precog。Precog公司提供海量数据存储和分析服务,该服务负责处理数据的抽取、转换、集成分析和可视化等过程,以及服务运行所基于的基础架构,提供一整套IDE和Quirrel查询分析语言。

第二类为利用自有数据进行深度整合产生的新业务和新的商业模式,这类公司本身就具有海量数据,典型的如Google的广告/搜索/地图/Glass/无人驾驶汽车、Facebook的Graph search、阿里的金融业务。

第三类为提供数据、计算以及数据市场三种服务的公司。这类公司既有海量数据,同时又拥有多年的数据处理技术积累,它们会将拥有的海量数据进行深度清洗、整合与关联,并建立一整套包括数据传输、存储、计算、挖掘、展现的技术服务,在此基础上会提供一个统一的数据开发平台完成用户认证、数据鉴权、工作流、监控告警、数据管理(元数据管理、数据质量管理、数据生命周期管理)、数据开发等工作。基于此提供一整套数据交换服务和App Engine。在此平台上,可以完成数据处理、交换以及开发数据应用App等功能。

总结

大数据相关的概念和技术会继续更广泛地冲击技术人员的眼球,我们需要做的是抓住问题的本质,尽可能理性地分析自己对数据的核心需求是什么、用它来解决什么问题、解决这些问题是不是一定要用复杂的分布式数据处理系统、所学的技术处于大数据技术的哪一层。

作者占超群,花名离哲,阿里巴巴集团数据平台与产品部数据仓库架构师,负责实时计算系统研发,低调的华丽践行者。拥有多年电信行业数据分析类项目开发管理经验,专注于实时计算/实时交互/数据服务化,爱好与分布式数据处理相关的技术。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/449669.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IntelliJ IDEA中新建JAVA WEB项目、maven项目

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 在IntelliJ IDEA 中新建一个Web应用项目。 1、 在主界面顶部菜单栏依次“File”-"New"-"Project..." 2、在对话框中…

S/4HANA业务角色概览之订单到收款篇

2019独角兽企业重金招聘Python工程师标准>>> 大家好我叫Sean Zhang,中文名张正永。目前在S/4HANA产品研发部门任职产品经理,而这一阶段要从2017年算起,而在那之前接触更多还是技术类的,比如做过iOS、HANA、ABAP、UI5等…

掘金量化的一个代码,对本人写策略避免入坑有重要意义

# codingutf-8from __future__ import print_function, absolute_import, unicode_literalsfrom gm.api import *import numpy as npdef init(context):# 选择的两个合约context.symbol [DCE.j1901, DCE.jm1901]# 订阅历史数据subscribe(symbolscontext.symbol,frequency1d,co…

C++ STL学习笔记

C STL学习笔记一 为何要学习STL: 数据结构与算法是编程的核心,STL中包含各种数据结构和优秀的算法,确实值得深入学习,本文中虽然着重使用,但希望有心的朋友能多看看相关数据结构的实现,对于C语言确实会有较…

ItelliJ IDEA开发工具使用—创建一个web项目

转自:https://blog.csdn.net/wangyang1354/article/details/50452806概念需要明确一下IDEA中的项目(project)与eclipse中的项目(project)是不同的概念,IDEA的project 相当于之前eclipse的workspace,IDEA的M…

AKOJ-2037-出行方案

链接:https://oj.ahstu.cc/JudgeOnline/problem.php?id2037 题意: 安科的夏天真是不一般的热,避免炎热,伍学长因此想为自己规划一个校园出行方案,使得从宿舍出发到校园的各个地方距离花费时间最短。我们已知校园一共有…

akshare 布林通道策略

import datetime import pandas as pd import backtrader as bt import matplotlib.pyplot as plt from datetime import datetime import matplotlib import akshare as ak %matplotlib inline class Boll_strategy(bt.Strategy):#自定义参数,每次买入1800手param…

一些资源网站..

github上各种免费编程书籍~~~ : https://github.com/EbookFoundation/free-programming-books/blob/master/free-programming-books-zh.md正则表达式学习 :https://web.archive.org/web/20161119141236/http://deerchao.net:80/tutorials/regex/regex.htmtorch:http…

极客无极限 一行HTML5代码引发的创意大爆炸

摘要:一行HTML5代码能做什么?国外开发者Jose Jesus Perez Aguinaga写了一行HTML5代码的文本编辑器。这件事在分享到Code Wall、Hacker News之后,引起了众多开发者的注意,纷纷发表了自己的创意。 这是最初的HTML5代码,它…

c# 写文件注意问题及用例展示

以txt写string举例,正确代码如下: private void xie(){FileStream fs new FileStream("1.txt", FileMode.Create);StreamWriter sw new StreamWriter(fs, Encoding.Default);sw.Write("123");sw.Flush();sw.Close();//fs.Flush();…

akshare sma策略

import datetimeimport pandas as pdimport backtrader as bt from datetime import datetime import matplotlib import akshare as ak %matplotlib inlineclass SmaCross(bt.Strategy):# 全局设定交易策略的参数params ((pfast, 5), (pslow, 20),)def __init__(self):sma1 …

DOCKER windows 7 详细安装教程

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 DOCKER windows安装 DOCKER windows安装 1.下载程序包2. 设置环境变量3. 启动DOCKERT4. 分析start.sh5. 利用SSH工具管理6. 下载镜像 6.1…

c#UDP协议

UDP协议是不可靠的协议,传输速率快 服务器端: using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.Threading.Tasks;using System.Net.Sockets; using System.Net; using System.Threading;namespace…

芝麻信用免押金成趋势 报告称租赁经济有望突破10万亿元

中新网1月16日电 “很多物品都是租来的,但生活不是。”如今,越来越多的年轻人选择了“租”生活,从房子到车子,从服饰到电脑,甚至玩具、婴儿车,全都可以租用,租赁已成为当下年轻人追求品质生活的…

开发者成功学:扔掉你那些很sexy的想法

摘要:在开发者的世界里,开发iPhone应用并不像表面那么光鲜,收支不成正比是常有之事,劳心劳力开发的应用无人问津更是屡见不鲜。走出了开发的一小步却难以迈出销售推广上的一大步,究竟如何才能将应用卖出去并获取利润&a…

html-body相关标签

一 字体标签 字体标签包含&#xff1a;h1~h6、<font>、<u>、<b>、<strong><em>、<sup>、<sub> 标题 标题使用<h1>至<h6>标签进行定义。<h1>定义最大的标题&#xff0c;<h6>定义最小的标题。具有align属性&a…

rz、sz 命令 安装(Xshell 安装)

在linux下使用rz,就可以从本机上传到Linux服务器 在linux中rz 和 sz 命令允许开发者与主机通过串口进行传递文件了&#xff0c;下面我们就来简单的介绍一下rz 和 sz 命令的例子。 sz&#xff1a;将选定的文件发送&#xff08;send&#xff09;到本地机器 rz&#xff1a;运行该命…

Kotlin 学习笔记08

Lambda作为形参和返回值 声明高阶函数 任何以lambda或者函数引用作为参数的函数&#xff0c;或者返回值&#xff0c;或者两者都有&#xff0c;就是高阶函数。比如list.filter(4,"abc")-> {} 如下&#xff1a; { x, y -> x y} 这里省略了参数x&#xff0c;y类型…

一个开源工作者对开源与赚钱的一些想法

摘要&#xff1a;本文作者长期以来一直定期为开源世界贡献代码&#xff0c;最近重新思索了一下开源软件的意义&#xff0c;在开发者中引起了强烈共鸣。 15年来&#xff0c;我一直定期地贡献开源代码&#xff0c;但是现在我停下来思考这对我自己究竟意味着什么&#xff0c;也许仅…

Chapter 5 Blood Type——33

We were near the parking lot now. 我们现在离停车场不远。 I veered left, toward my truck. Something caught my jacket, yanking me back. 我转向左边&#xff0c;面对我的车。有人抓住了我的夹克让我回过神来。 "Where do you think youre going?" he asked,…