文献来源:Saggi M K, Jain S. A survey towards an integration of big data analytics to big insights for value-creation[J]. Information Processing & Management, 2018, 54(5): 758-790.
下载链接:链接:https://pan.baidu.com/s/14IGaCOc-plxAiaVhwOgUvA
提取码:4w8k
BDA是一个技术驱动的生态系统,在这个生态系统中,更好的决策将帮助许多组织以可解释和适当的形式从数据中提取知识。BDA是数据驱动的决策框架。本文旨在全面研究BDA,通过使用各种数据分析方法来解决挑战、获得洞察力并做出明智的决策。本文对BDA的各种工具和技术进行了广泛而系统的方法综述,并报告了有待进一步研究的研究差距。
Strawn将大数据描述为“科学的第四范式”,而Hagstrom将其定义为“知识资产的新范式”,或者“创新、竞争和生产力的下一个前沿”。Gantz和Reinsel(2011)将大数据定义为“新一代技术和架构,旨在通过实现高速捕获、发现和分析,从大量各种数据中经济地提取价值”。它描述了一种综合的方法来组织、处理和分析六个特征(即体积、种类、速度、准确性、价和价值)。
BDA按照高级数据采集、数据存储、数据管理、数据分析和可视化的需求进行分类。要将BDA转化为价值创造的大见解,在不同应用的数据、流程、分析建模和管理方面都面临着巨大的挑战。它不应该被认为是通过互联网收集的数据的同义词,因为数据可以来自诸如超市,银行等发生的商业交易等来源。大数据也可以来源于传感器(来自手机的卫星和GPS跟踪数据)和行政数据(教育记录、医疗记录和税务记录)(Eagle, Pentland, & Lazer, 2009)。
领域现状描绘
一些技术挑战与不同的“V”特征有关,特别是“Volume”(支持非常高的数据量)、“Velocity”(数据流的快速分析)、“Variety”(支持不同类型的数据)、“Veracity”(支持高数据质量)、“Value”(见解和利益的价值)、“Variability”(支持不断变化)和“Valence”(支持数据中的连通性)。
BDA的七个特征包括对数据分析的不同步骤和过程的一些探索。这七个方面代表了大数据分析的不同难点。我们的主要目标是提供每个特征的全面描述,并描述它们的挑战。BDA的这七个特征如表4所示,
名称 | 描述 | 示例 | 挑战 |
---|---|---|---|
“Volume”(支持非常高的数据量) | 大数据的量是用其规模和指数增长来解释的。大规模和绝对的数据量是一个巨大的挑战。 它被称为尺寸。 应用:-医疗数据,社交媒体 | 数据规模: tb pb exabyte -Yotabyte | -数据存储 -数据采集 -数据处理 -性能 -成本 |
“Velocity”(数据流的快速分析) | 它是指大型数据集的复杂性,这些数据集可以是半结构化的、非结构化的或结构化的。这就是所谓的复杂性。 应用领域:气象数据,DNA测序,生物学 | 不同形式的数据:-文本、文档-图像、语音、音频、视频-地理空间数据-网络数据-传感器数据 | -数据的异质性 -多样性 -不同的形式 |
“Variety”(支持不同类型的数据) | 它是非同质结构的高数据流入率。这就是所谓的速度。 应用领域:金融市场、广告代理 | 流数据分析:-批处理-实时处理-流处理 | -数据处理缓慢且昂贵 |
“Veracity”(支持高数据质量) | Veracity特性衡量数据的准确性及其用于分析的潜在用途。这就是质量。 | 数据的不确定性:-日益复杂的数据结构,-大型数据集的不一致性 | -数据的准确性 -数据源的可靠性 -分析中的上下文-不准确,延迟,主观性 |
“Value”(见解和利益的价值) | 它指的是以图的形式将大数据连接起来。 这就是所谓的连通性。 应用程序:医疗保健数据 | 连接性的度量:-数据连接性 | -更复杂的数据探索算法。 -价态变化的建模和预测。 -组事件检测。 -紧急行为分析 |
“Variability”(支持不断变化) | 大数据=数据+价值?这是数据挑战的核心。它从大量的结构化和非结构化数据中提取知识价值,而不会丢失,为最终用户。 应用领域:商业或工业 | 七个V: -尺寸-复杂性-质量-连通性-速度-变化-价值(重要) | -增加收入-降低运营成本-服务客户 |
“Valence”(支持数据中的连通性) | 它指的是含义不断快速变化的数据。 这仍然是一个持续的挑战。 应用:股票市场,金融数据 | 数据流速率的变化——复杂性 | -数据不一致 -峰值级计算需求 -周期性高峰和低谷 |
对于大数据的处理和分析,研究了最近使用的各种平台,用于大量物联网生成的数据:
(i)存储和处理大量数据的能力(Apache Hadoop, 2011),
(ii)高级数据分析的能力。提取、传输和加载(ETL) (1010data),
(iii)启用大数据物联网处理和分析能力(SAP-Hana, 2013),
(iv)启用支持Hadoop以进行大数据处理和分析的能力(Cloudera, 2008), (v)启用非结构化数据的并行处理、分析和安全能力(HP-HAVEn, 2013), (vi)启用基于Hadoop的大数据处理和分析能力(Hortonworks, 2011),
(vii)具备结合大规模并行处理(MPP) pb级数据量的分析数据库能力(Pivotal大数据套件,2016),(viii)具备数据分析和管理问题解决能力(Infobright, 2005),
(ix)具备快速处理、分析和预测能力(MapReduce, 2008)。
进一步,对顶级初级研究的结构进行了分类。分类结构基于(Jabbour, 2013)提出的方法。分类方案包括六个类别:研究、目标、重点、能力、效益及其结果,如表5所示。