大数据分析|从七个特征理解大数据分析

 文献来源:Saggi M K, Jain S. A survey towards an integration of big data analytics to big insights for value-creation[J]. Information Processing & Management, 2018, 54(5): 758-790.

下载链接:链接:https://pan.baidu.com/s/14IGaCOc-plxAiaVhwOgUvA 
提取码:4w8k

        BDA是一个技术驱动的生态系统,在这个生态系统中,更好的决策将帮助许多组织以可解释和适当的形式从数据中提取知识。BDA是数据驱动的决策框架。本文旨在全面研究BDA,通过使用各种数据分析方法来解决挑战、获得洞察力并做出明智的决策。本文对BDA的各种工具和技术进行了广泛而系统的方法综述,并报告了有待进一步研究的研究差距。

        Strawn将大数据描述为“科学的第四范式”,而Hagstrom将其定义为“知识资产的新范式”,或者“创新、竞争和生产力的下一个前沿”。Gantz和Reinsel(2011)将大数据定义为“新一代技术和架构,旨在通过实现高速捕获、发现和分析,从大量各种数据中经济地提取价值”。它描述了一种综合的方法来组织、处理和分析六个特征(即体积、种类、速度、准确性、价和价值)

        BDA按照高级数据采集、数据存储、数据管理、数据分析和可视化的需求进行分类。要将BDA转化为价值创造的大见解,在不同应用的数据、流程、分析建模和管理方面都面临着巨大的挑战。它不应该被认为是通过互联网收集的数据的同义词,因为数据可以来自诸如超市,银行等发生的商业交易等来源。大数据也可以来源于传感器(来自手机的卫星和GPS跟踪数据)和行政数据(教育记录、医疗记录和税务记录)(Eagle, Pentland, & Lazer, 2009)。

领域现状描绘

        一些技术挑战与不同的“V”特征有关,特别是“Volume”(支持非常高的数据量)、“Velocity”(数据流的快速分析)、“Variety”(支持不同类型的数据)、“Veracity”(支持高数据质量)、“Value”(见解和利益的价值)、“Variability”(支持不断变化)和“Valence”(支持数据中的连通性)。

        BDA的七个特征包括对数据分析的不同步骤和过程的一些探索。这七个方面代表了大数据分析的不同难点。我们的主要目标是提供每个特征的全面描述,并描述它们的挑战。BDA的这七个特征如表4所示,

名称描述示例挑战
“Volume”(支持非常高的数据量)

大数据的量是用其规模和指数增长来解释的。大规模和绝对的数据量是一个巨大的挑战。

它被称为尺寸。

应用:-医疗数据,社交媒体

数据规模:

tb

pb

exabyte

-Yotabyte

-数据存储

-数据采集

-数据处理

-性能

-成本

“Velocity”(数据流的快速分析)

它是指大型数据集的复杂性,这些数据集可以是半结构化的、非结构化的或结构化的。这就是所谓的复杂性。

应用领域:气象数据,DNA测序,生物学

不同形式的数据:-文本、文档-图像、语音、音频、视频-地理空间数据-网络数据-传感器数据

-数据的异质性

-多样性

-不同的形式

“Variety”(支持不同类型的数据)

它是非同质结构的高数据流入率。这就是所谓的速度。

应用领域:金融市场、广告代理

流数据分析:-批处理-实时处理-流处理-数据处理缓慢且昂贵
“Veracity”(支持高数据质量)Veracity特性衡量数据的准确性及其用于分析的潜在用途。这就是质量。数据的不确定性:-日益复杂的数据结构,-大型数据集的不一致性

-数据的准确性

-数据源的可靠性

-分析中的上下文-不准确,延迟,主观性

“Value”(见解和利益的价值)

它指的是以图的形式将大数据连接起来。

这就是所谓的连通性。

应用程序:医疗保健数据

连接性的度量:-数据连接性

-更复杂的数据探索算法。

-价态变化的建模和预测。

-组事件检测。

-紧急行为分析

“Variability”(支持不断变化)

大数据=数据+价值?这是数据挑战的核心。它从大量的结构化和非结构化数据中提取知识价值,而不会丢失,为最终用户。

应用领域:商业或工业

七个V: -尺寸-复杂性-质量-连通性-速度-变化-价值(重要)-增加收入-降低运营成本-服务客户
“Valence”(支持数据中的连通性)

它指的是含义不断快速变化的数据。

这仍然是一个持续的挑战。

应用:股票市场,金融数据

数据流速率的变化——复杂性

-数据不一致

-峰值级计算需求

-周期性高峰和低谷

对于大数据的处理和分析,研究了最近使用的各种平台,用于大量物联网生成的数据:

(i)存储和处理大量数据的能力(Apache Hadoop, 2011),

(ii)高级数据分析的能力。提取、传输和加载(ETL) (1010data),

(iii)启用大数据物联网处理和分析能力(SAP-Hana, 2013),

(iv)启用支持Hadoop以进行大数据处理和分析的能力(Cloudera, 2008), (v)启用非结构化数据的并行处理、分析和安全能力(HP-HAVEn, 2013), (vi)启用基于Hadoop的大数据处理和分析能力(Hortonworks, 2011),

(vii)具备结合大规模并行处理(MPP) pb级数据量的分析数据库能力(Pivotal大数据套件,2016),(viii)具备数据分析和管理问题解决能力(Infobright, 2005),

(ix)具备快速处理、分析和预测能力(MapReduce, 2008)。

进一步,对顶级初级研究的结构进行了分类。分类结构基于(Jabbour, 2013)提出的方法。分类方案包括六个类别:研究、目标、重点、能力、效益及其结果,如表5所示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/657947.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

qiankun子应用静态资源404问题有效解决(遇到了http请求静态文件404、css文件引用图片无法显示、svg图片转换成 base64无法显示等问题)

在👉🏻 qiankun微前端部署👈🏻这个部署方式的前提下,遇到的问题并解决问题的过程 >> 问题现象 通过http请求本地的静态json文件404 css中部分引入的图片无法显示 >> 最开始的解决方式 在👉…

微信小程序(二十五)条件判断语句与结构隐藏

注释很详细&#xff0c;直接上代码 上一篇 新增内容&#xff1a; 1.条件判断语句的演示 2.隐藏结构的演示 源码&#xff1a; index.wxml <view><!-- wx:if和wx:else为条件判断语句 --><text wx:if"{{isLogin}}">已登入的用户</text><tex…

【HarmonyOS应用开发】ArkUI 开发框架-基础篇-第一部分(七)

常用基础组件 一、组件介绍 组件&#xff08;Component&#xff09;是界面搭建与显示的最小单位&#xff0c;HarmonyOS ArkUI声明式开发范式为开发者提供了丰富多样的UI组件&#xff0c;我们可以使用这些组件轻松的编写出更加丰富、漂亮的界面。组件根据功能可以分为以下五大类…

Flink中StateBackend(工作状态)与Checkpoint(状态快照)的关系

State Backends 由 Flink 管理的 keyed state 是一种分片的键/值存储&#xff0c;每个 keyed state 的工作副本都保存在负责该键的 taskmanager 本地中。另外&#xff0c;Operator state 也保存在机器节点本地。Flink 定期获取所有状态的快照&#xff0c;并将这些快照复制到持…

Android Studio 安装配置教程 - Windows版

Android Studio下载 安装&#xff1a; 下载&#xff1a; Android Studio Hedgehog | 2023.1.1 | Android Developers (google.cn) 安装&#xff1a; 基本不需要思考跟着走 默认下一步 默认下一步 自定义修改路径&#xff0c;下一步 默认下一步&#xff0c;不勾选 默认下一…

RHCE 综合项目-博客

目录 业务需求 一、准备工作 1、配置静态IP 2、修改主机名及hosts映射 3、开启防火墙 4、时间同步 5、配置免密ssh登录 二、环境搭建 1、Server-web端安装LAMP环境软件 2、Server-NFS-DNS端上传博客软件 3、Server-NFS-DNS端设置NFS共享 三、Server-web设置 1、挂…

【代码随想录-链表】反转链表

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学习,不断总结,共同进步,活到老学到老导航 檀越剑指大厂系列:全面总结 jav…

OpenCV 2 - 矩阵的掩膜操作

1知识点 1-1 CV_Assert(myImage.depth() == CV_8U); 确保输入图像是无符号字符类型,若该函数括号内的表达式为false,则会抛出一个错误。 1-2 Mat.ptr(int i = 0); 获取像素矩阵的指针,索引 i 表示第几行,从0开始计行数。 1-3 const uchar* current = mylmage.ptr(row); 获得…

day26 节点操作——查找节点

目录 DOM节点查找节点父节点查找子节点查找兄弟关系查找 DOM节点 DOM节点&#xff1a; DOM树里每一个内容都称之为节点 节点类型&#xff1a; 元素节点&#xff1a;所有的标签&#xff0c;比如body、div html是根节点属性节点&#xff1a;所有的属性&#xff0c;比如href、cla…

1.26布雷斯悖论(设计做减法,使效率更高,netlogo模拟),自组织映射神经网络SOM

布雷斯悖论 红色的是普通道路&#xff0c;车越多通行时间越长 假定条件是 均衡状态就是两条路的通行时间相同 纳什均衡并不一定是全局最优 纳什均衡的关键就是单个个体做出改变时&#xff0c;只会使自己的利益受到损失&#xff0c;而不会使其他人发生改变 在达到纳什平衡时&…

让MySQL和Redis数据保持一致的4种策略

1 前言 先阐明一下 MySQL 和 Redis 的关系&#xff1a;MySQL 是数据库&#xff0c;用来持久化数据&#xff0c;一定程度上保证数据的可靠性&#xff1b;Redis 是用来当缓存&#xff0c;用来提升数据访问的性能。 关于如何保证 MySQL 和 Redis 中的数据一致&#xff08;即缓存…

DevSecOps 平台需求来源分析

目录 一、为什么要开展DevSecOps平台建设 1.1 产业发展的角度方面分析 1.2 企业内部角度分析 二、 DevSecOps平台建设需求来源 2.1 从外因看DevSecOps平台建设的需求来源 2.1.1 网络安全和数据合规在国内外快速发展 2.1.2 法规的落地促使安全管理的数字化和平台建设成为刚…

网安文件包含漏洞

文件包含概念&#xff1a; 开发人员通常会把可重复使用的函数写到单个文件中&#xff0c;在使用某些函数时&#xff0c;直接调用此文件&#xff0c;而无需再次编写&#xff0c;这种调用文件的过程一般被称为包含。为了使代码更加灵活&#xff0c;通常会将被包含的文件设置为变…

Flink CEP实现10秒内连续登录失败用户分析

1、什么是CEP&#xff1f; Flink CEP即 Flink Complex Event Processing&#xff0c;是基于DataStream流式数据提供的一套复杂事件处理编程模型。你可以把他理解为基于无界流的一套正则匹配模型&#xff0c;即对于无界流中的各种数据(称为事件)&#xff0c;提供一种组合匹配的…

Keepalived + DR 集群

目录 1、Keepalive VRRP 说明 故障切换 工作原理 核心组件 2、Keepalived DR 集群 拓扑规划 前期准备 配置 Httpd 服务 配置 Nginx 服务 配置 LVS 主 node_01 配置 LVS 从 node_02 测试 LVS 集群 测试主备切换 3、Keepalived 脑裂现象 4、Keepalived 心态检测 …

平安健康与中航健康时尚集团携手并进,共创会员制健康管理美好未来

近日&#xff0c;深圳市中航健康时尚集团股份有限公司(以下简称“中航健康时尚”)与平安健康正式达成战略合作。平安健康总裁吴军、中航健康时尚董事长王岚等领导出席签约仪式&#xff0c;就此次战略合作展开深入交流。 据了解&#xff0c;中航健康时尚集团创建于1995年&#x…

内存泄漏的原因及排查方法

&#x1f9d1;‍&#x1f393; 个人主页&#xff1a;《爱蹦跶的大A阿》 &#x1f525;当前正在更新专栏&#xff1a;《VUE》 、《JavaScript保姆级教程》、《krpano》、《krpano中文文档》 ​ ​ ✨ 前言 随着网页应用的逐渐复杂化,内存管理也变得越来越重要。内存泄漏不仅会…

YUDIAN(宇电)温控器参数笔记(二)

没想到啊&#xff0c;时隔3年&#xff0c;我又用到了这个温控器&#xff0c;又来更新一下&#xff0c;因为我刚好要做一个简易的控温系统&#xff0c;类似于恒温水槽。 这个系统大概就是&#xff1a; 温控器用pt100测温&#xff0c;作为输入&#xff0c;输入连接到一个ssr上&a…

Start gtkmm 4 Programming (range controls)_

文章目录 基础解析 Chapter 7. Range Widgets https://gtkmm.org/en/documentation.htmlhttps://gnome.pages.gitlab.gnome.org/gtkmm-documentation/index.html 基础 容器: 容器小部件与其他小部件一样&#xff0c;派生自Gtk::Widget.例如Gtk::Grid可以容纳许多子小部件&…