001.精读《Big Data: A Survey》

文章目录

    • 1. 引言
    • 2. 精读
      • 2.1 摘要
      • 2.2 背景
      • 2.4 相关技术
      • 2.5 相关流程
      • 2.6 应用场景
    • 3. 总结

1. 引言

大数据精读周刊首次与大家正式见面。我们每周将精读并分析几篇精选文章,试图讨论并得出结论性观点。我们的目标是通过深入探讨,帮助大家更好地理解大数据领域的重要话题。

大数据的发展和应用是当前信息技术领域的一个重要方向,本期精读的文章是《Big Data: A Survey》。

不想读整篇文章?没关系,我们将提供文章的内容概述,让大家快速了解核心内容。同时,我们鼓励大家在此基础上进一步阅读原文,以获得更深的理解。

2. 精读

2.1 摘要

本文全面回顾了大数据的背景、相关技术和应用。作者首先介绍了大数据的总体背景,并讨论了云计算、物联网、数据中心和Hadoop等技术。接着,重点介绍了大数据价值链的四个阶段:数据生成、获取、存储和分析,每个阶段都包括背景介绍、技术挑战讨论和最新进展回顾。最后,作者讨论了大数据在企业管理、物联网、社交网络、医疗、集体智能和智能电网中的应用,旨在为读者提供一个全面的视角。

2.2 背景

Over the past 20 years, data has increased in a large scale in various fields… how to effectively organize and manage such datasets… generates data of tens of Terabyte (TB) for online trading per day.

在过去的20年中,各个领域的数据呈现出大规模增长。例如,全球每天的在线交易生成的数据量达到了数十TB。随着数据量的指数级增长,大数据这一术语被用来描述这些庞大的数据集。大数据不仅包括大量的非结构化数据,还需要实时分析,从而发现新的价值。然而,这也带来了如何有效地组织和管理这些庞大数据集的挑战。

it also brings about many challenging problems demanding prompt solutions: collecting and integrating massive data… store and manage such huge heterogeneous datasets… reveal its intrinsic property and improve the decision making.

大数据的迅猛增长带来了巨大的机会,同时也带来了许多亟需解决的挑战。首先,收集和整合来自不同来源的大量数据是一个主要挑战。其次,云计算和物联网的兴起进一步加剧了数据的爆炸式增长,提出了如何在现有硬件和软件基础设施下存储和管理这些庞大且异构的数据集的问题。最后,为了揭示大数据的内在价值并改进决策,必须在不同层次上对数据集进行有效的分析和挖掘。

Big data is an abstract concept. Apart from masses of data, it also has some other features, which determine the difference between itself and ‘massive data’ or ‘very big data.’

大数据不仅仅是大量的数据,它还具有其他独特的特征,使其区别于一般的海量数据或非常大的数据。这些特征定义了大数据的独特性和复杂性。

Datasets that could not be perceived, acquired, managed, and processed by traditional IT and software/hardware tools within a tolerable time… datasets which could not be captured, managed, and processed by general computers within an acceptable scope… Big data shall mean the data of which the data volume, acquisition speed, or data representation limits the capacity of using traditional relational methods to conduct effective analysis or the data which may be effectively processed with important horizontal zoom technologies.

文章继续讨论了大数据的定义和特征。大数据是一个抽象的概念,除了海量数据之外,还具有其他特征,这些特征决定了其与“海量数据”或“非常大的数据”的区别。尽管大数据的重要性已被广泛认可,但人们对其定义仍有不同的看法。

通常,大数据指的是传统IT和软件/硬件工具无法在可接受的时间内感知、获取、管理和处理的数据集。2010年,Apache Hadoop将大数据定义为“无法在可接受范围内被普通计算机捕获、管理和处理的数据集”。2011年,麦肯锡公司将大数据定义为无法被经典数据库软件获取、存储和管理的数据集。META(现为Gartner)分析师Doug Laney在2001年提出了3Vs模型,即数据量(Volume)、速度(Velocity)和多样性(Variety)的增加,来定义大数据带来的挑战和机遇。根据这个定义,大数据的特征可以总结为四个V,即数据量(Volume)、多样性(Variety)、速度(Velocity)和价值(Value)。

NIST将大数据定义为:数据量、获取速度或数据表示限制了使用传统关系方法进行有效分析的数据,或者需要使用重要的横向扩展技术来处理的数据”。大数据不仅仅是大量的数据,它还具有其他独特的特征,使其区别于一般的海量数据或非常大的数据。这些特征定义了大数据的独特性和复杂性,涉及复杂的、异构的数据集,需要先进的方法来进行数据的收集、存储和分析。

传统的IT和关系数据库方法不足以管理大数据,需要新的技术和架构来处理。大数据的关键挑战在于从庞大、多样和快速生成的数据集中提取有意义的洞察和价值。

In the late 1970s, the concept of ‘database machine’ emerged, which is a technology specially used for storing and analyzing data… In the 1980s, people proposed ‘share nothing,’ a parallel database system, to meet the demand of the increasing data volume.

大数据的发展过程始于20世纪70年代,随着数据量的增加,单一主机系统的存储和处理能力变得不足。随后,在互联网服务的发展下,搜索引擎公司需要应对大数据处理的挑战。谷歌创建了GFSMapReduce编程模型以应对互联网规模的数据管理和分析挑战。。此外,用户生成的内容、传感器和其他无处不在的数据源也推动了数据流的爆炸性增长,这需要对计算架构和大规模数据处理机制进行根本性变革。

In March 2012, the Obama Administration announced a USD 200 million investment to launch the ‘Big Data Research and Development Plan.’

在学术界,大数据也受到了广泛关注。2008年,Nature杂志发表了大数据特刊。2012年,欧洲信息与数学研究联盟(ERCIM)新闻刊登了大数据专题。

The sharply increasing data deluge in the big data era brings about huge challenges on data acquisition, storage, management and analysis.

在大数据时代,急剧增加的数据洪流带来了巨大的挑战,尤其是在数据采集、存储、管理和分析方面。

2.4 相关技术

随后文章继续讨论了与大数据密切相关的几项基础技术,包括云计算、物联网、数据中心和Hadoop。

Cloud computing is closely related to big data… Big data is the object of the computation-intensive operation and stresses the storage capacity of a cloud system… The development of cloud computing provides solutions for the storage and processing of big data… The emergence of big data also accelerates the development of cloud computing… The distributed storage technology based on cloud computing can effectively manage big data; the parallel computing capacity by virtue of cloud computing can improve the efficiency of acquisition and analyzing big data… However, big data depends on cloud computing as the fundamental infrastructure for smooth operation… The main objective of cloud computing is to use huge computing and storage resources under concentrated management, so as to provide big data applications with fine-grained computing capacity… With the advances of big data and cloud computing, these two technologies are certainly and increasingly entwine with each other.

云计算与大数据密切相关,云计算提供大数据存储和处理的解决方案,而大数据也加速了云计算的发展,两者在分布式存储和并行计算方面紧密交织。

In the IoT paradigm, an enormous amount of networking sensors are embedded into various devices and machines in the real world… Such sensors deployed in different fields may collect various kinds of data, such as environmental data, geographical data, astronomical data, and logistic data… Mobile equipments, transportation facilities, public facilities, and home appliances could all be data acquisition equipments in IoT.

物联网通过嵌入各种设备的传感器收集大量数据,这些数据进一步推动了大数据的发展和应用。

With the growth of data, the importance of data centers is also increasingly prominent… Data centers are becoming the backbone of big data technology, with the functions of data storage, management, and processing becoming increasingly complex and demanding… A large number of servers and storage devices need to be deployed to meet the needs of big data applications, which requires the data center to have high performance, high reliability, and high scalability… The architecture of data centers is evolving to provide better support for big data applications, including increased storage density, energy efficiency, and improved fault tolerance.

随着数据量的增长,数据中心的重要性日益凸显,其功能和架构也在不断演进,以满足大数据应用的高性能、高可靠性和高可扩展性的需求。

Hadoop is an open-source distributed computing framework that is designed to store and process large volumes of data across many computers in a cluster… It is specifically designed to handle the challenges posed by big data, including the storage, processing, and analysis of massive datasets… Hadoop’s core components include the Hadoop Distributed File System (HDFS) for storage and MapReduce for processing… The development of Hadoop has significantly advanced the ability to manage and analyze big data, enabling distributed computing and data storage at scale.

Hadoop作为一个开源分布式计算框架,专为大数据设计,极大地推动了大数据的存储和处理能力,其核心组件如HDFSMapReduce,已成为大数据处理的基石。

2.5 相关流程

Big data generation and acquisition can be generally divided into four phases: data generation, data acquisition, data storage, and data analysis.

可以大致分为四个阶段:数据生成、数据获取、数据存储和数据分析

Data generation is the first step of big data. Given Internet data as an example, huge amounts of data in terms of searching entries, Internet forum posts, chatting records, and microblog messages, are generated…

数据生成是大数据处理的初始阶段,涉及各种来源产生的大量数据。这些来源包括互联网活动、企业记录、科学研究和临床应用等。

As the second phase of the big data system, big data acquisition includes data collection, data transmission, and data pre-processing…The collected datasets may sometimes include much redundant or useless data…Data compression technology can be applied to reduce the redundancy. Therefore, data pre-processing operations are indispensable to ensure efficient data storage and exploitation…Data collection is to utilize special data collection techniques to acquire raw data from a specific data generation environment…Log files are record files automatically generated by the data source system…Sensors measure physical quantities and transform them into readable digital signals for subsequent processing…Sensed information is transferred to a data collection point through wired or wireless networks.

大数据获取是大数据系统的第二阶段,包括数据收集、数据传输和数据预处理。在数据获取过程中,收集到的原始数据需要通过高效的传输机制发送到适当的存储管理系统,以支持不同的分析应用。收集的数据集可能包含大量冗余或无用数据,这会不必要地增加存储空间并影响后续的数据分析。例如,环境监测传感器收集的数据集通常存在高度冗余。数据压缩技术可以用来减少冗余,因此数据预处理操作对于确保高效的数据存储和利用是不可或缺的。

Big data storage refers to the storage and management of large-scale datasets while achieving reliability and availability of data accessing…Eric Brewer proposed a CAP [80, 81] theory in 2000, which indicated that a distributed system could not simultaneously meet the requirements on consistency, availability, and partition tolerance.

数据存储涉及对大规模数据集进行高效存储和管理,同时确保数据访问的可靠性和可用性。这包括开发大规模分布式存储系统,使用直接附加存储(DAS)、网络附加存储(NAS)和存储区域网络(SAN)等技术,以满足数据存储和处理的需求。同时Eric Brewer提出的CAP理论表明,分布式系统在设计时必须在一致性、可用性和分区容错性之间进行权衡,无法同时满足这三项要求。

大数据的存储机制,如GFSBigTable,将在单独的章节中详细讨论,因此本文不再过多阐述相关内容。

In the era of big data, key information extraction methods include Bloom Filter, Hashing, Index, Triel, and Parallel Computing. These methods help in efficient data processing and retrieval, though each has its limitations.

在大数据时代,关键信息提取方法包括布隆过滤器、哈希、索引、字典树和并行计算。这些方法有助于高效的数据处理和检索,但每种方法都有其局限性。数据分析可以分为实时分析和离线分析,每种方法有不同的目的,并需要不同的工具和方法。

2.6 应用场景

Big data in enterprises…enhances production efficiency and competitiveness in various areas: marketing, sales planning, operations, and supply chain…IoT is a major source and market for big data…real-time tracking of trucks…smart cities…supports decision-making in water management, traffic reduction, and public safety…Social networks…public opinion analysis, intelligence collection, social marketing, government decision-making support, and online education…Medical applications…precise diagnostics, personalized treatments, and efficient hospital management…Collective intelligence…enhanced decision-making and innovation through crowd-sourced information and analytics…Smart grid…optimizes the efficiency and reliability of power grids through real-time monitoring and predictive analytics.

大数据在企业中提高了生产效率和竞争力,尤其在营销、销售规划、运营和供应链管理方面。在物联网领域,大数据实现了卡车的实时跟踪和智慧城市的发展,支持水资源管理、交通减缓和公共安全的决策。社交网络利用大数据进行舆情分析、情报收集、社交化营销、政府决策支持和在线教育。医疗应用包括精确诊断、个性化治疗和高效的医院管理。集体智慧通过众包信息和分析改进决策和创新。智能电网利用大数据进行实时监控和预测分析,优化电网的效率和可靠性。

The analysis of big data is confronted with many challenges…but the current research is still in early stage…Considerable research efforts are needed to improve the efficiency of display, storage, and analysis of big data…There is a compelling need for a rigorous and holistic definition of big data, a structural model of big data, a formal description of big data, and a theoretical system of data science…An evaluation system of data quality and an evaluation standard/benchmark of data computing efficiency should be developed…Big data technology is still in its infancy…many key technical problems, such as cloud computing, grid computing, stream computing, parallel computing, big data architecture, big data model, and software systems supporting big data, etc. should be fully investigated…The emergence of big data opens great opportunities…Data with a larger scale, higher diversity, and more complex structures…Data resource performance…The reorganization and integration of different datasets can create more values…enterprises that master big data resources may obtain huge benefits by renting and assigning the rights to use their data .

大数据分析面临许多挑战,目前仍处于早期阶段。需要大量研究努力来提高大数据展示存储分析的效率。关键领域包括大数据基本问题的理论研究、标准化、计算模式的演变,以及技术问题,如格式转换和数据传输。实际影响包括大数据管理搜索挖掘分析数据集成溯源和应用开发。数据安全,包括加密、安全机制和信息安全应用,也至关重要。

但是,大数据的出现带来了巨大的机遇,并将推动技术进步。未来的发展将涉及处理更大规模、更复杂的数据结构,改进数据资源性能,以及数据集的重组和整合。这将为掌握大数据资源的企业创造新的价值和利益。

3. 总结

首先,通读本文后,我们至少可以了解到什么是大数据。大数据不仅仅指的是数据量大,而是那些无法在可接受范围内被普通计算机捕获、管理和处理的数据集。具体来说,这些数据集至少具有以下四个特征:数据量(Volume)、多样性(Variety)、速度(Velocity)和价值(Value)。

在此基础上,我们可以概括出:大数据(Big Data)是指那些数据量巨大(Volume)、类型多样(Variety)、增长速度快(Velocity),能够挖掘出潜在价值(Value)的数据集合。简而言之,大数据不仅仅是大量的数据,而是这些数据如何帮助我们获取有用的信息和见解。

接着,文章说明了急剧增加的数据洪流带来的巨大挑战,特别是在数据采集、存储、管理和分析方面。进一步引出了相关的技术:云计算、物联网、Hadoop等。

随后,文章介绍了大数据应用的相关流程:数据生成数据获取数据存储数据分析。具体内容如下:

  • 数据生成:来源于互联网活动、企业记录、科学研究和临床应用等。
  • 数据获取:包括数据收集、数据传输和数据预处理等。
  • 数据存储:涉及存储机制的一致性、可用性和分区容错性等。
  • 数据分析:分为实时分析和离线分析,具体场景具体分析。

最后,文章讨论了大数据的应用以及未来的发展展望。

总的来说,这篇论文通过对大数据技术的全面回顾和实际应用的讨论,为读者提供了一个系统的、全面的理解框架。通过阅读这篇论文,我们不仅了解了大数据的定义和特征,还学到了大数据处理的关键技术、实际应用和面临的技术挑战。论文提供的技术详述和实际应用案例,对于大数据技术的研究和应用具有重要的参考价值。建议有兴趣的读者可以看看原文。

获取原文

  • GItHub:https://github.com/hiszm/BigDataWeekly/tree/main/资料
  • 公众号回复:001

如果你想参与讨论,请 点击这里,每周都有新的主题,周末或周一发布。

大数据精读,探索知识的深度。

关注 大数据精读周刊 微信公众号

版权声明:自由转载-非商用-非衍生-保持署名(创意共享 3.0 许可证)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/877229.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里玄铁处理器涉及的相关技术居然有PHP

其实跟PHP没啥关系,也可以说有点关系 指令集说明: RISC-V 指令集是由美国加州大学伯克利分校(University of California, Berkeley)的研究人员开发的。该项目主要由Krste Asanović教授领导,并且得到了计算机体系结构…

springboot+vue+mybatis线上选课系统+PPT+论文+讲解+售后

在如今社会上,关于信息上面的处理,没有任何一个企业或者个人会忽视,如何让信息急速传递,并且归档储存查询,采用之前的纸张记录模式已经不符合当前使用要求了。所以,对学生选课信息管理的提升,也…

FastAPI(七十二)实战开发《在线课程学习系统》接口开发-- 留言列表开发

源码见:"fastapi_study_road-learning_system_online_courses: fastapi框架实战之--在线课程学习系统" 之前我们分享了FastAPI(七十一)实战开发《在线课程学习系统》接口开发-- 查看留言,这次我们分享留言列表开发。 获…

Git 创建分支进行写作开发

第一次链接仓库提交 and 有SSH公匙 第一步&#xff1a; git clone 远程仓库链接clone 远程已有仓库到本地 第二部&#xff1a; cd 文件夹 第三步&#xff1a; git checkout -b <your_branch_name> 创建分支 第四步&#xff1a; git add . 将目前目录下的所有文件…

用frp内网穿透https网站

场景说明 在微信小程序上线测试的时候&#xff0c;自主开发的后端服务在公司局域网&#xff0c;小程序前端在微信公众平台只支持配置https协议的域名来访问服务端。公司一直在使用frp内网穿透工具实现公网访问公司局域网服务&#xff0c;因此&#xff0c;研究如何实现frp代理h…

Java高手之路:每日一练,技能精进秘籍

目录 一、题目知识点java中有两种方式实现线程Servlet生命周期总结 一、题目 选自牛客网 1.后端获取数据&#xff0c;向前端输出过程中&#xff0c;以下描述正确的是 A.对于前端过滤过的参数&#xff0c;属于可信数据&#xff0c;可以直接输出到前端页面 B.对于从数据库获得的…

【YOLOv5/v7改进系列】引入YOLOv9的RepNCSPELAN4

一、导言 YOLOv9的几个主要创新点&#xff1a; Programmable Gradient Information (PGI): PGI是一种机制&#xff0c;用于应对深度网络中实现多目标所需要的多种变化。PGI提供完整的输入信息来计算目标函数&#xff0c;从而获得可靠的梯度信息以更新网络权重。PGI可以自由选择…

TCP/IP协议——使用Socket套接字实现

目录 Socket 使用Socket实现TCP客户端和服务器的过程 使用Socket搭建TCP服务器 线程优化 向客户端发送消息 连接的断开 客户端主动断开 服务端主动断开 服务器完整的程序 使用Socket编写客户端程序连接TCP服务器 Socket Socket是一种网络通信协议&#xff0c;它允许…

x-cmd pkg | yazi - 超快终端文件管理器

目录 简介快速入门功能特点竞品和相关项目进一步阅读 简介 yazi 是由 github.com/sxyazi 用 Rust 开发的终端文件管理器&#xff0c;支持预览文本文件、pdf 文件、图像、视频&#xff0c;内置代码高亮功能。在内部&#xff0c;它使用 Tokio 作为其异步运行时&#xff0c;以非阻…

【Vue3】watch 监视多种类型数据

【Vue3】watch 监视多种类型数据 背景简介开发环境开发步骤及源码 背景 随着年龄的增长&#xff0c;很多曾经烂熟于心的技术原理已被岁月摩擦得愈发模糊起来&#xff0c;技术出身的人总是很难放下一些执念&#xff0c;遂将这些知识整理成文&#xff0c;以纪念曾经努力学习奋斗…

大数据-53 Kafka 基本架构核心概念 Producer Consumer Broker Topic Partition Offset 基础概念了解

点一下关注吧&#xff01;&#xff01;&#xff01;非常感谢&#xff01;&#xff01;持续更新&#xff01;&#xff01;&#xff01; 目前已经更新到了&#xff1a; Hadoop&#xff08;已更完&#xff09;HDFS&#xff08;已更完&#xff09;MapReduce&#xff08;已更完&am…

实战:Zookeeper 简介和单点部署ZooKeeper

Zookeeper 简介 ZooKeeper是一个开源的分布式协调服务&#xff0c;它是Apache软件基金会下的一个项目&#xff0c;旨在解决分布式系统中的协调和管理问题。以下是ZooKeeper的详细简介&#xff1a; 一、基本定义 ZooKeeper是一个分布式的、开放源码的分布式应用程序协调服务&a…

系统架构师考点--系统架构设计(下)

大家好。今天总结一下系统架构设计的最后一部分知识点。 一、软件系统的质量属性 软件系统的质量属性 软件系统的质量属性可分为开发期质量属性和运行期质量属性2个部分。 1、开发期质量属性主要指在软件开发阶段所关注的质量属性&#xff0c;主要包含6个方面&#xff1a; …

C++ 关键字与库函数 学习总结

sizeof与strlen 含义 sizeof&#xff1a;是一个操作符&#xff0c;用于计算数据类型或变量的大小&#xff08;以字节为单位&#xff09;。在编译时求值strlen&#xff1a; 是一个函数&#xff0c;用于计算字符串的长度&#xff08;不包括终止符 \0&#xff09;。在运行时求值不…

【Code】Street-Gaussian代码复现笔记

文章目录 1. EnvironmentBug 1 2. TrainingBug 2Bug 3 1. Environment Follow the original instructions, conda create --name street-gaussians-ns -y python3.8 conda activate street-gaussians-ns pip install --upgrade pippip install torch2.1.2cu118 torchvision0.…

bugku-web-ctf-变量1

<?php error_reporting(0); include "flag1.php"; highlight_file(__file__); if(isset($_GET[args])){$args $_GET[args];if(!preg_match("/^\w$/",$args)){die("args error!");}eval("var_dump($$args);"); } ?> error_r…

扩展------正向代理和反向代理怎么理解?

今天看博客园&#xff0c;突然看到正向代理和反向代理&#xff0c;发现自己还不会就稍微研究了一下。 正向代理----(看做是服务员) 当我们进饭店吃饭&#xff0c;我们不可能会直接去后厨叫厨师给我们做菜&#xff0c;而是通过服务员去通知&#xff0c;这个就叫做正向代理。 再…

当年很流行,现在已经淘汰的Java技术,请不要学了!【建议收藏】

在Java技术的发展历程中&#xff0c;确实有一些曾经流行但现在已经被淘汰或不再推荐使用的技术。了解这些技术可以帮助你避免学习过时的知识&#xff0c;从而更高效地提升自己的技能。 以下是一些曾经流行但现在已经不太推荐学习的Java技术&#xff1a; 1. Servlet 2.x&#x…

AI作图接口要怎么调用呢?

一、什么是AI作图&#xff1f; 基于AI大模型的深度学习算法和大规模的图像数据训练&#xff0c;输入图片和关键词&#xff0c;可生成独特及富有创意的山水风格图片。 二、AI作图使用场景有哪些呢&#xff1f; 1.广告与营销&#xff1a; 为产品制作吸引人的宣传海报、广告图片…

git拉完代码总是自动创建一个新的节点

git拉完代码&#xff0c;总是自动生成弹出这个信息 然后还会在git上面留下一个节点&#xff0c;这个节点没啥用&#xff0c;显示着感觉有点碍事。 而且后续的git push 之后&#xff0c;会覆盖掉自己的git commit 的提示&#xff0c;其他人cr代码的时候看到的是 解决方法&#…