有许多技术可用于分析大数据。这项工作介绍了BDA适用的各种分析技术领域如下。
(1)社会分析
社交分析是实时数据分析中一个重要且不断发展的分析方法。它分为社交网络(例如,Facebook和LinkedIn),博客(例如,Blogger和Word Press),微博客(例如,Twitter和Tumblr),社会新闻(例如,Digg和Reddit),社交书签(例如,Delicious和Stumble Upon),媒体分享(例如,Instagram和YouTube),维基(例如,Wikipedia和Wikihow),问答网站(例如,Yahoo!Answers和Ask.com)和评论网站(例如,Yelp, Trip Advisor)一般网站(Li, Chen, Wang, & Zhang, 2013),如Facebook, Instagram, Foursquare, Twitter和Pinterest,它们产生大量非结构化形式的数据。
(2)移动分析
个人移动设备可以作为工具来收集和监控学习分析,以实现自我调节。它已经发现了现有的未知有意义的模式和知识数据,从几十tb到无数pb,这些数据由网络级或应用级的移动用户组成(Yazti & Krishnaswamy, D. Z. 2014)。有一些关于移动和泛在学习分析工具的研究(Alsheikh, Niyato, Lin, Tan, & Han, 2016;Fulantelli, Taibi, & Arrigo(2013)提出了一个可扩展的基于Apache spark的框架,用于移动大数据分析中的深度学习。
(3)生存分析
它与个人和社会群体的社会和行为形式的研究有关。分析社会科学领域正在全面利用存储和计算能力的进步来处理大数据(Lazer et al, 2009)。使用大数据进行实时分析的几个常见挑战包括高容量、高速度、高维度、稀疏数据以及各种不同的数据源和格式等。
(4)视频和视觉分析
视频分析是解决视频数据的可扩展和可靠分析的研究领域。视觉分析被描述为“通过交互式视觉界面促进分析推理的科学”,其总体目标是从数据中产生洞察力。
在协作视觉界面上提供分析推理是大数据研究的一个引人入胜的分支。
(5)文本分析
它指的是从文本数据中提取信息的技术。它包含统计学、计算语言学和机器学习(Gandomi & Haider, 2015)。文本分析帮助企业将大量人工生成的文本转化为有意义的见解,从而支持基于证据的决策。概括地说,总结遵循两种方法抽取方法和抽象方法。在提取方法中,从原始文本单元生成摘要。而抽象方法则是从文本中提取语义信息。
(6)音频分析
音频分析从非结构化音频数据(如人类口语)中分析和提取数据,这被称为语音分析(Gandomi & Haider, 2015)。在将这些技术用于存储、预处理和分析等特定应用领域时,可以获得的好处进行了总结。
接下来是各种数据分析应用,如智能农业、智能医疗、网络物理安全和智能城市,简要描述为:
(7)智能农业
随着这项技术在几十年内迅速普及,大数据分析是促进农业新革命的关键。它已经发展了基于历史数据、机器生成数据和实时流数据来解决现实世界问题的技术。 农业物联网产生了大量的农业信息(Lee, Hwang, & Yoe, 2013)。农业公司正在采用大数据技术,以期从大量异构数据中获得见解,解决实时问题,管理数据不完整和缺乏先验知识的问题,并以复杂的形式捕获各种数据。
智能农业是大物联网数据分析中的有益“用例”。传感器是智能农业“用例”中的参与者。这些装置安装在田间,以获取土壤水分水平、植物树干直径、小气候条件和湿度水平的数据,并预测天气。它通过物联网网关和互联网到达分析层(Marjani等人,2017)。分析层处理从传感器网络获得的数据并发出命令。收获的自动气候控制、及时控制灌溉和湿度控制以预防真菌是基于大数据分析执行的行动的例子(Gubbi, Buyya, Marusic, & Palaniswami, 2013)。Kshetri,(2014)提出了一个农业案例研究,通过实施BDA获得各种利益,机会和威胁,并建议农民对土壤状况,天气模式的极端变化,新的种植方式,地形。它还提供有关可变市场条件的信息。Jiang, Chen, Dong, and Wang(2013)通过应用大量数据预测了传感器存储和分析的困难。因此提出了基于DSM架构的分布式存储,并结合农业PaaS平台提供服务。Xie, Zhang, Sun, and Hao(2015)从农业大数据的采集、存储、分析和可视化等方面提出了一种大数据处理技术,以获得农业信息系统的层次结构。本文从大数据技术的角度阐述了如何利用Map Reduce工具处理海量农业数据。BDA提供了一种新的视角,为提高产量提供预先决策支持,并避免与化肥和农药相关的不必要成本。Bendre、Thool和Thool(2016)介绍了精准农业、基于ict的电子农业中不同的大数据来源和类型。最后,讨论了有监督和无监督方法在降水预报中的应用。
(8)智能医疗
大数据分析是医疗保健和医学研究领域的一场新兴革命,用于健康管理的研发(R&D)、治疗、测试和诊断。随着保健协会的日益扩大,由于患者数量的增加,用于恢复性治疗的药物也在增加。这样,就对存储、处理和分析提出了挑战。因此,BDA的需求也与该领域相关。卫生保健组织正在大力应用"可穿戴实时传感器"来分析病人的现状,并根据他们的正确诊断对他们进行治疗,并提供医疗服务。
因此,在诊断和治疗过程中,有大量的数据收集,如:结构化和非结构化数据、自我监测健康数据、实时传感器设备、图像、视频、各种报告和文档。目前,有不同的医疗保健系统,如:医疗保健管理,创新药物发现,人脸识别,签名验证,指纹和虹膜。图12显示了卫生组织中非结构化数据的分析过程(Wang, Kung, & Byrd, 2016)。
医疗保健领域的大数据维护有关患者的信息,如病史、医生笔记、实验室报告、x光报告、饮食规则、特定医院的医生和护士名单、国家健康登记数据、基于RFID数据的药物和手术器械有效期识别。这些组织进一步依赖BD技术从患者那里收集数据,以获得更多关于护理和治疗的见解。
此外,数据分析创建了一个专门的健康分析和见解中心,以满足世界各地医院、诊所和卫生专业人员日益增长的需求。新的大数据医疗保健平台:- CHESS (Batarseh & Latif, 2016), EHR, LIMS, MQIC, CMS (Ward, Marsolo, & Froehle, 2014)。大数据分析用于分析健康保险索赔,并利用大数据来检测欺诈、浪费和错误(Srinivasan & Arunasalam, 2013)。Dolin, Rogers, and Jaffe(2015)提出了两个使用BDA方法预测临床文档架构(CDA)哮喘的案例研究。
(9)Cyber-physical systems
组织和政府通过使用计算机安全网络来保护他们的敏感信息。大数据用于收集、组织和存储数据。一种信息技术被网络防御者用来有效地保护他们的数据,检测所有的恶意软件和网络攻击者。开发人员必须使用计算机网络、有线或无线传感器以及不同的操作系统、数据格式和分析系统来同步并使硬件组件与软件应用程序兼容。
因此,BDA在克服安全、隐私等严重问题,从而认证各种组织访问数据,获得完整的业务洞察方面发挥着至关重要的作用。网络物理系统的出现可用于生产、运输、物流和其他部门,为模拟和规划、监测、控制以及与机械或数据使用应用程序的交互带来新的挑战(Becker, 2016)。
(10)智能城市
智慧城市是一个广泛的概念,它不仅考虑到物理结构,而且考虑到人与社会方面。它利用几种技术来扩大卫生、交通、能源、教育和供水服务的绩效,从而使其公民的舒适度达到先进水平。BDA的应用可以有效地进行数据存储和处理,从而为智能电网环境(SGE) (Zhou, Fu, & Yang, 2016)、智慧城市(ortizi - rangel, M. 2015;Strohbach, Ziekow, Gazis, & Akiva, 2015)。智能医疗用于预测或诊断早期疾病(Demirkan, 2013;Roy, Pallapa, & Das, 2007)。
大多数关于大数据分析的调查论文都集中在讨论机遇、挑战和架构上。大数据分析助力发展的数据来源和应用领域如表7所示。