2.1 初探大数据

文章目录

  • 零、学习目标
  • 一、导入新课
  • 二、新课讲解
    • (一)什么是大数据
    • (二)大数据的特征
      • 1、Volume - 数据量大
      • 2、Variety - 数据多样
      • 3、Velocity - 数据增速快
      • 4、Value - 数据价值低
      • 5、Veracity - 数据真实性
    • (三)研究大数据的意义
    • (四)拥抱大数据时代
      • 1、第三次信息化浪潮
      • 2、信息科技为大数据时代提供技术支撑
        • (1)存储设备容量不断增加
        • (2)CPU处理能力大幅提升
        • (3)网络带宽不断增加,互联网容量不断增长
        • (4)数据产生方式的变革促成大数据时代的来临
      • 3、大数据发展历程
      • 4、大数据应用广泛
      • 5、大数据关键技术
      • 6、大数据计算模式
      • 7、了解大数据产业
      • 8、大数据工程师技能树
      • 9、大数据与云计算、物联网的关系
    • (五)大数据发展趋势
      • 1、大数据是一种生产资料
      • 2、与物联网和5G的融合
      • 3、大数据理论的突破
      • 4、数据公开和标准化
      • 5、数据安全
  • 三、归纳总结
  • 四、上机操作

零、学习目标

  1. 了解大数据的定义
  2. 理解大数据的特征
  3. 理解研究大数据的意义

一、导入新课

  • 大数据的快速发展在无时无刻影响着我们的生活。在医疗方面,大数据能够帮助医生预测疾病;在电商方面,大数据能够向顾客个性化推荐商品;在交通方面,大数据能帮助人们选择最佳出行方案。本次课我们将针对大数据的相关知识进行详细讲解。

二、新课讲解

在这里插入图片描述

(一)什么是大数据

  • 最早提出“大数据”这一概念的是全球知名咨询公司麦肯锡,他是这样定义大数据的:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型以及价值密度四大特征。
  • 研究机构Gartner是这样定义大数据的:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流转优化能力来适应海量、高增长率和多样化的信息资产。
  • 目前,学界对于大数据的概念主要有以下三种认识:第一,从大数据“大”的特征进行界定,强调大数据是海量数据的集合;第二,对大数据进行综合、全面的界定,大数据不仅包括数据本身,还包括与大数据相关的技术、人才、制度等;第三,从大数据的价值出发,强调大数据的核心价值在于背后所蕴藏的规律,这一观点以“大数据之父”舍恩伯格为代表。大数据本身就是个开放的理念,上述对大数据概念的不同界定,反映了学者们对大数据认识的多元化,他们从个人的知识结构和研究旨趣出发,对大数据有着不同角度的解读。
    在这里插入图片描述
  • 至于什么数据量算得上大数据,这个也没有一定的标准,一般来说,单机难以处理的数据量,就可以称得上大数据。
  • 大数据和人工智能往往关系密切,人工智能算法必须依据数据才能构建合适的模型,以便用于预测和智能决策。当前,大数据技术已经在医药、电信、金融、安全监管、环保等领域广泛使用。
  • 大数据时代,分布式的数据存储和查询模式可以对全量数据进行处理。举例来说,以前DNA和指纹数据库的建立,由于信息技术水平的限制,只能重点采集并存储部分人口的DNA和指纹数据,这种限制对于很多案件的侦破是非常不利的。而当我们步入大数据时代后,从理论上来讲,采集并存储全球人口的DNA和指纹信息是可行的。因此,建立全量的DNA和指纹数据库,这对DNA和指纹数据的比对工作来说,具有非常大的价值。
  • 以前我们研究问题,主要研究几个要素之间的因果关系,例如通过经验、观察实验和数学等理论推导出一些公式,用于指导生产和生活。而在大数据时代,更多的是对几个要素之间相关性进行分析。例如,通过对电商平台上的购买行为进行分析,可以对用户进行画像,并根据用户的历史购买记录,来智能推荐他可能感兴趣的商品,这种分析对提升成单率来说至关重要。
  • 基于大数据的推荐系统,可能比你自己都要了解你自己。这也是在大数据时代人类越来越关心个人隐私信息的安全问题的原因。
  • 相关性分析是寻找因果关系的利器。可以说,相关分析和因果分析是互相促进的。如果多个因素之间有明显的相关性,那么就可以进一步研究其因果关系。
  • 大数据的价值就在于从海量数据中,通过机器学习算法自动搜寻多个因素之间的相关性,这些相关性可以大大减少人工搜寻的时间。换句话说,人工从海量数据中往往很难发现多个因素之间的相关性,而这恰恰是机器学习比较擅长的领域。

(二)大数据的特征

  • 大数据主要具有以下五个方面的典型特征,即大量(Volume)、多样(Varity)、高速(Velocity)、价值(Value)和真实(Veracity),即所谓的“5V”。
    在这里插入图片描述

1、Volume - 数据量大

  • 大数据场景下,对数据的采集、计算和存储所涉及的数量是非常庞大的,数据量往往多到单台计算机无法处理和存储,必须借助多台计算机构建的集群来分布式处理和存储。分布式存储要保证数据存储的安全性。如果某一个节点上的数据损坏,那么必须从其他节点上对损坏节点上的数据进行自动修复,这个过程中就需要数据的副本,同一份数据会复制多份,并分布式存储到不同的节点上。如果不借助大数据工具,自己实现一个分布式文件系统,那么其工作量非常大。因此,对于大数据的处理和存储来说,更好的方案就是选择一款开源的分布式文件系统。
  • 根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)人类在最近两年产生的数据量相当于之前产生的全部数据量;预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍。
    在这里插入图片描述
  • 随着物联网、电子商务、社会化网络的快速发展,全球大数据储量迅猛增长,成为大数据产业发展的基础。2017年全球大数据储量为21.6ZB,2018年全球大数据储量达到33ZB,增速达52.8%。随着信息科技的不断进步,中商产业研究院预计2022年全球大数据储量将达61.2ZB。
    在这里插入图片描述
  • 最新数据显示,中国的数据产生量约占全球数据产生量的23%,美国的数据产生量占比约为21%,EMEA(欧洲、中东、非洲)的数据产生量占比约为30%,APJxC(日本和亚太)数据产生量占比约为18%,全球其他地区数据产生量占比约为8%。
    在这里插入图片描述

2、Variety - 数据多样

  • 生物具有多样性,动物有哺乳动物、鸟类和冷血动物等,植物有苔藓植物、蕨类植物和种子植物等。多样的生物只有和谐相处,才是可持续发展之道。同样地,数据的载体也是多种多样,一般来说,可以分为结构化数据、非结构化数据和半结构化数据。其中很多业务数据都属于结构化数据,而是视频、音频和图像等都可划分为非结构化数据。在大数据时代下,非结构化数据从数量上来说占了大部分。因此,对视频、音频、图像和自然语言等非结构化数据的处理,也是当前大数据工具要攻克的重点。
  • 大数据是由结构化和非结构化数据组成的,10%结构化数据,存储在数据库中;90%非结构化数据,它们与人类信息密切相关。
    在这里插入图片描述

3、Velocity - 数据增速快

  • 以前由于数据采集手段落后、数据存储空间横向扩展困难,不能存储海量的数据,因此只会采集一些重要的数据,如财务数据、生产数据等。这就导致了高层管理人员在决策时,缺乏完整、统一的宏观数据作为数据支撑。在大数据时代,由于数据采集手段多样、数据可以分布式存储,因此当前很多企业都会尽可能地存储数据,其中不少企业中都有传感器或者视频探头,它们会产生大量的数据,形成一个数据流,这些数据流的产生都是非常迅速的,因此分析这些数据的软件系统必须做到高效地采集、处理和存储这些高速生成的数据。一般来说,大数据系统可以借助分布式集群构建的强大计算力,对海量数据进行快速处理。若处理数据的响应时间能到秒级,甚至毫秒级,那么其价值将非常大。实时大数据的处理,这也是目前众多大数据工具追求的一个重要能力。
  • 从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少。
  • 1秒定律是互联网进入DT时代对数据处理速度的要求。当然并非严格的1秒,只是秒级的时间内给出结果,这也是大数据技术有别于传统数据技术的重要一点, 时间太长,就失去意义了。
    在这里插入图片描述
  • 目前,数据处理一直受限于两个方面。一个是以处理器为代表的硬件限制,处理器遵循着“摩尔定律”,折算后是年均提高52%的处理能力。而内存性能每年却只能提高9%,硬盘性能提速每年是6%。处理器与内存/硬盘的不匹配的性能导致了数据读取延迟等系列问题。就像我们的高速公路收费站,不同匝道蜂拥而来的车辆,却只有一个出入口通过,必然会带来漫长的拥堵。
  • 另一个便是以数据库为代表的软件技术限制。涉及到海量数据存储技术、实时数据处理、高性能存储技术、检索技术、挖掘与分析技术等。也是经历了若干阶段(从OLTP/OLAP—ODS/DWD—MPP/DM)才得以实现当前可掌控的数据运算能力。2021年双“11.11”支付宝每秒成功处理14万笔交易,支付宝的支付峰值达到了每秒8.59万笔,远远领先世界纪录,马云在湖畔大学授课时也低调的宣称阿里大数据技术能力实为第一,并因此为傲,藐视BT。

4、Value - 数据价值低

  • 大数据首先是数据量庞大,一般来说,都是PB级别的。但在特定场景下,真正有用的数据可能较少,即数据价值密度相对较低。从大数据中挖掘出有用的价值,如大海捞针一般。举例来说,交通部门为了更好地对道路交通安全进行监管,在重点的路口都设有违法抓拍系统,会对每辆车进行拍照,这个数据量非常巨大,其中有交通违法行为的车辆照片并不多,可以说是万里挑一。因此这个价值密度相对低,但是存储这些数据非常重要,其中某一些图片资料对于协助破案来说会起到至关重要的作用。
  • 大数据的价值密度相对较低。数据的价值密度和数据的规模呈反相关,数据的规模越大,数据的价值密度越低。大数据最大的价值即在于从大量低价值密度数据中挖掘出对分析和预测等有价值的信息。相较于传统数据挖掘利用结构化的数据类型,大数据把目光也投向了非结构化的、非抽样的、包含全体的数据类型。这为大数据带来了更多的有效信息,但同时也增加了大量无价值的甚至是错误的信息。
    在这里插入图片描述
  • 现在有人提出大数据的第五个特征:数据的可靠性。它指在数据的生命周期内, 所有数据都是完全的、一致的和准确的程度。保证数据的完 整性意味着以准确的、真实的、完全地代表着实际发生的方 式收集、记录、报告和保存数据和信息。大数据时代带来的一个重要副作用是,很难区分真假数据,这也是当前大数据技术必须重点解决的问题之一。从当前大型Internet平台采用的方法来看,它通常是技术和管理的结合。

5、Veracity - 数据真实性

  • 大数据场景下,由于数据来源的多样性,互相可以验证,因此数据的真实性往往比较高。这里说的真实性,是指数据的准确性和及时性。数据的真实性也是大数据可以形成数据资产的一个重要前提,只有真实、可信的数据才能挖掘出有用的价值。
  • 大数据由于具有如上的特点,这就对大数据的信息化软件提出了非常高的要求。一般的软件系统是无法很好的处理大数据的。从技术上看,大数据与云计算密不可分。大数据无法用单台计算机进行存储和处理,而必须采用分布式架构,即必须依托云计算提供的分布式存储和计算能力。

(三)研究大数据的意义

  • 现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流也越来越密切,生活也越来越便捷,然而大数据就是这个高科技时代的产物。阿里巴巴的创办人马云曾经说过,未来的时代将不是IT时代,而是DT的时代,DT就是Data Technology数据科技,这显示出大数据对于阿里巴巴集团来说是举足轻重的。
  • 有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在于“大”,而在于“有用”。数据的价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据,发掘其潜在价值,才是赢得核心竞争力的关键。
  • 研究大数据,最重要的意义是预测。因为数据从根本上讲,是对过去和现在的归纳和总结,其本身不具备趋势和方向性的特征,但是我们可以应用大数据去了解事物发展的客观规律、了解人类行为,并且能够帮助我们改变过去的思维方式,建立新的数据思维模型,从而对未来进行预测和推测。知名互联网公司谷歌对其用户每天频繁搜索的词汇进行数据挖掘,从而进行相关的广告推广和商业研究。

(四)拥抱大数据时代

  • 进入2012年,大数据(Big Data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。
  • 数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。
  • 正如《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。
  • 哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
    在这里插入图片描述

1、第三次信息化浪潮

  • 根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革。当前我们正处于第三次信息浪潮(2010年前后),物联网、云计算和大数据技术突飞猛进。 信息爆炸是我们当前所需要解决的主要问题。
信息化浪潮发生时间标志解决问题代表企业
第一次浪潮1980年前后个人计算机信息处理Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等
第二次浪潮1995年前后互联网信息传输雅虎、谷歌、阿里巴巴、百度、腾讯等
第三次浪潮2010年前后物联网、云计算和大数据信息爆炸将涌现出一批新的市场标杆企业

2、信息科技为大数据时代提供技术支撑

(1)存储设备容量不断增加
  • 单位存储空间价格不断降低,开始倾向于将更多的数据保存下来
    在这里插入图片描述
(2)CPU处理能力大幅提升
  • 摩尔定律:CPU性能大约每隔18个月提高一倍,价格下降一半
    在这里插入图片描述
(3)网络带宽不断增加,互联网容量不断增长
  • 4G(100Mbps) ⟹ \Longrightarrow 5G(1Gbps)
  • 全球网络带宽的增长在很大程度上反映互联网容量的增长,两者在2017年至2021年之间的复合年增长率均为29%。香港IDC新天域互联还了解到,总体来看,国际总带宽已达到786Tbps。
    在这里插入图片描述
(4)数据产生方式的变革促成大数据时代的来临
  • 传统大型商业领域运营数据产生方式的变化促进了传统数据库技术、SQL、大型商业数据中心、全球商业数据网络等新的数据技术的发展,为数据提供存储和处理。互联网数据产生方式的变化与海底电缆、全球定位系统、移动通信3个信息核心技术的发展紧密相关。物联网(IoT)加快了数据产生方式的变革。
    在这里插入图片描述
  • GB( 1 0 9 10^9 109) ⟹ \Longrightarrow TB( 1 0 12 10^{12} 1012) ⟹ \Longrightarrow PB( 1 0 16 10^{16} 1016) ⟹ \Longrightarrow EB( 1 0 19 10^{19} 1019) ⟹ \Longrightarrow ZB( 1 0 21 10^{21} 1021) ⟹ \Longrightarrow YB( 1 0 24 10^{24} 1024) ⟹ \Longrightarrow BB( 1 0 27 10^{27} 1027) ⟹ \Longrightarrow NB( 1 0 30 10^{30} 1030) ⟹ \Longrightarrow DB( 1 0 33 10^{33} 1033) ⟹ \Longrightarrow CB( 1 0 36 10^{36} 1036) ⟹ \Longrightarrow XB( 1 0 39 10^{39} 1039)
    在这里插入图片描述
  • 大数据从哪里来?
    在这里插入图片描述

3、大数据发展历程

  • 上世纪末,是大数据的萌芽期,处于数据挖掘技术阶段。随着数据挖掘理论和数据库技术的成熟,一些商业智能工具和知识管理技术开始被应用。
  • 2003年-2006年是大数据发展的突破期,社交网络的流行导致大量非结构化数据出现,传统处理方法难以应对,数据处理系统、数据库架构开始重新思考。
  • 2006年—2009年,大数据形成并行计算和分布式系统,为大数据发展的成熟期。
  • 2010年以来,随着智能手机应用,数据碎片化、分布式、流媒体特征更加明显,移动数据急剧增长。
  • 2011年麦肯锡全球研究院发布《大数据:下一个创新、竞争和生产力的前沿》,2012年维克托·舍恩伯格《大数据时代:生活、工作与思维的大变革》宣传推广,大数据概念开始风靡全球。
  • 2013年5月,麦肯锡全球研究所发布了一份名为《颠覆性技术:技术改进生活、商业和全球经济》的研究报告,报告确认了未来12种新兴技术,而大数据是这其中需求技术的基石。
  • 2014年5月,美国白宫发布了2014年全球“大数据”白皮书的研究报告《大数据:抓住机遇,守护价值》。报告鼓励使用数据推动社会进步。
阶段时间内容
第一个阶段:萌芽期上世纪90年代至本世纪初随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。
第二个阶段:成熟期本世纪前十年Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道。
第三个阶段:大规模应用期2010年以后大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高。

4、大数据应用广泛

  • 大数据无处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹。
    在这里插入图片描述
  • 目前,大数据已不只停留在概念阶段,而是在各领域成功落地,并取得了丰硕的成果。大数据已经渗透到生活中的各个方面,距离我们最近且与我们生活息息相关的大数据项目有交通大数据、医疗大数据、金融大数据、社交媒体大数据、互联网大数据等。如此多的大数据项目能够成功落地,关键原因在于数据来源的多样化,数据量的爆发式增长,新兴技术的快速发展,以及市场创新需求的不断增多,这为各种大数据项目提供了庞大的数据源,通过多种技术的综合应用,可不断挖掘出大数据背后的社会价值和商业价值。

5、大数据关键技术

  • 大数据关键技术涉及数据采集、数据存储与管理、数据处理与分析、数据隐私与安全多个技术层面
技术层面功能
数据采集利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析。
数据存储与管理利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理。
数据处理与分析利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据。
数据隐私与安全在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全。
  • 大数据两个核心技术
    在这里插入图片描述

6、大数据计算模式

大数据计算模式解决问题代表产品
批处理计算针对大规模数据的批处理MapReduce、Spark等
流计算针对流数据的实时处理Storm、S4、Stream、Puma、DStream、Super Mario、银河流数据处理平台等
图计算针对大规模图结构数据的处理Pregel、Graphx、PowerGraph、Hama、GoldenOrb等
查询分析计算大规模数据的存储管理和查询分析Dremel、Hive、Cassandra、Impala等

在这里插入图片描述

7、了解大数据产业

  • 大数据产业,以数据为核心,大数据是一个以数据为核心的产业,是一个围绕大数据生命周期不断循环往复的生产过程,同时也是由多种行业分工和协同配合而产生的一个复合性极高的行业。互联网时代,数据就是企业发展的生命,金融业、零售业、物流业、制造业等行业都拥有大量的数据作为企业核心的支撑,同时也在高速发展当中,面对此情形,数据处理会变得更加复杂,随着国家大数据纲要的发布,大数据产业发展将提升到国家战略层次。
  • 大数据产业现在需要大量人才,一种为熟悉大数据算法、数据架构、系统研发等对技术要求高的专业人才。另一种是从事产业大数据推广人才,从现状来看,培养体系的不完整,人才培养无法满足大数据的发展需求。大数据产业是一个万亿级别的产业,这是毋庸置疑的。这么大的一个蛋糕,怎么分,能够分得多少,那就要看自己的本事了。贵阳现在的大数据产业规模三千个亿至少是有的,拉动了很多人才过来这也是存在的。
产业链环节包含内容
IT基础设施层包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如,提供数据中心解决方案的BM、惠普和戴尔等,提供存储解决方案的EMC,提供虚拟化管理软件的微软、思杰、SUN、Redhat等
数据源层大数据生态圈里的数据提供者,是生物大数据(生物信息学领域的各类研究机构)、交通大数据(交通主管部门)、医疗大数据(各大医院、体检机构)、政务大数据(政府部门)、电商大数据(淘宝、天猫、苏宁云商、京东等电商)、社交网络大数据(微博、微信、人人网等〉、搜索引擎大数据(百度、谷歌等〉等各种数据的来源
数据管理层包括数据抽取、转换、存储和管理等服务的各类企业或产品,比如分布式文件系统(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、数据库和数据仓库(Oracle、MySQL、sQL Server、HBase、GreenPlum等)
数据分析层包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,比如,分布式计算框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau、BI工具(MicroStrategy. Cognos、BO)等等
数据平台层包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,比如阿里巴巴、谷歌、中国电信、百度等
数据应用层提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,比如交通主管部门、各大医疗机构、菜鸟网络、国家电网等

8、大数据工程师技能树

  • 要成为合格的大数据工程师,需要掌握大数据技术栈……
    在这里插入图片描述
  • 关于大数据开发工程师需要具备的技能,需要充分了解一下当前大数据的几个就业方向,可以参考下主流互联网行业的部门架构、职责和JD,大数据开发工程师,总体来说有这么几类,不同的公司叫法不一样:① 数仓开发工程师;② 算法挖掘工程师;③ 大数据平台开发工程师(应用);④ 大数据前端开发工程师
    在这里插入图片描述

9、大数据与云计算、物联网的关系

  • 云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者既有区别又有联系。
    在这里插入图片描述

(五)大数据发展趋势

1、大数据是一种生产资料

  • 目前人类已经步入数字经济时代,大数据是非常重要的一种生产资料,与土地、石油等资源作为重要的生产资料类似,数字经济时代以大数据作为最基础也是最重要的生产资料。
  • 在大数据时代,信息的载体是数据。对于数据的分析与挖掘来说,其实质是生产各类信息产品,这些信息产品可以看作是一种数字商品,是可以产生实际价值的资产。若将大数据比作土地,那么基于大数据分析和挖掘出的信息产品,就好比在土地上种植出来的各种农产品。

2、与物联网和5G的融合

  • 大数据的基础是数据,而产生数据的源头更多是来自物联网和5G。物联网、移动互联网和5G等新兴技术,将进一步助力大数据的发展,让大数据为企业管理决策和政府决策提供更大的价值。特别是5G技术的推广,将进一步提升大数据的应用。

3、大数据理论的突破

  • 随着5G的发展,大数据很可能爆发新一轮的技术革命。人类处理信息往往借助视频、图像和声音(语言),因此大数据技术目前正在与机器学习、人工智能等相关技术进行深度结合,在视频、图像和语音的处理上,必须在理论上继续突破,才可能实现科学技术上的突破。视频中的行为检测、图像物体识别和语音识别等应用会产生极大的经济效益和社会效益。

4、数据公开和标准化

  • 数据作为一种重要的资产,只有流动起来才能更好地发挥价值。就像河里的水一样,只有流到田间地头对庄家进行灌溉,才能生产出农产品。数据在流转的过程中,数据的标准化非常重要,这样才能打破信息孤岛,从而更好地让数据产生价值。

5、数据安全

  • 大数据中涉及各类数据,其中难免有敏感的数据,数据在流转过程中,如何对敏感数据进行加密和脱敏,这将至关重要

三、归纳总结

  • 回顾本节课所讲的内容,并通过提问的方式引导学生解答问题并给予指导。

四、上机操作

  • 形式:单独完成
  • 题目:谈谈你对大数据时代的理解
  • 要求:收集资料,谈谈大数据时代对我们工作、学习和生活的影响。写一篇CSDN博客,要求图文并茂,并且不少于800字。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/107500.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

互联网摸鱼日报(2023-10-11)

互联网摸鱼日报(2023-10-11) 36氪新闻 走向平衡:生成式AI的开源与专有模型之争 麦当劳和可乐们最大的威胁,居然是“减肥药” 束从轩5000万“宴请全国”,老乡鸡会去港股吗? 威马汽车回应破产重整 特斯拉电动皮卡,还…

RabbitMQ消息中间件概述

1.什么是RabbitMQ RabbitMQ是一个由erlang开发的AMQP(Advanced Message Queue )的开源实现。AMQP 的出现其实也是应了广大人民群众的需求,虽然在同步消息通讯的世界里有很多公开标准(如 COBAR的 IIOP ,或者是 SOAP 等&…

当出现“无法成功完成操作,因为文件包含病毒或潜在的垃圾软件“时的解决办法

安装补丁或其他安装包时,被系统识别为病毒垃圾 具体解决步骤是: 1.在开始菜单,打开Windows 安全中心 找到主页的病毒和威胁防护 找到管理设置 最后将确认安全的文件或安装包添加到排除项即可

LetCode刷题[简单题](4)顺序链表的顺序合并

在平常的应用场景中很多时候需要将繁杂的信息进行融合,比如零散的时间戳信息进行合并,顺序链表的合并就完美的解决这种问题的痛点。相对于原本的直接合并然后再进行排序,数据结构的复杂度不一样,因此就有类似此题的北京。融合有序…

安装nginx,配置https,并解决403问题

nginx安装 下载nginx:下载地址 上传到/opt目录 解压nginx,并进入解压后到目录 cd /opt tar -zxvf nginx-1.25.2.tar.gz cd nginx-1.25.2编译(with-http_ssl_module为https模块) ./configure --with-http_ssl_module安装 make install默认的安装目录为…

华为eNSP配置专题-VLAN和DHCP的配置

文章目录 华为eNSP配置专题-VLAN和DHCP的配置1、前置环境1.1、宿主机1.2、eNSP模拟器 2、基本环境搭建2.1、基本终端构成和连接 3、VLAN的配置3.1、两台PC先配置静态IP3.2、交换机上配置VLAN 4、接口方式的DHCP的配置4.1、在交换机上开启DHCP4.2、在PC上开启DHCP 5、全局方式的…

【docker】ubuntu下安装

ubuntu下安装docker 卸载原生docker更新软件包安装依赖Docker官方GPG密钥添加软件来源仓库安装docker添加用户组运行docker安装工具重启dockerhelloworld 卸载原生docker $ apt-get remove docker docker-engine docker.io containerd runc更新软件包 apt-get update apt-get…

零售数据分析模板鉴赏-品类销售结构报表

不管是服装零售,还是连锁超市或者其他,只要是零售行业就绕不过商品数据分析,那么商品数据分析该怎么做?奥威BI的零售数据分析方案早早就预设好相关报表模板,点击应用后,一键替换数据源,立得新报…

新版Android Studio搜索不到Lombok以及无法安装Lombok插件的问题

前言 在最近新版本的Android Studio中,使用插件时,在插件市场无法找到Lombox Plugin,具体表现如下图所示: 1、操作步骤: (1)打开Android Studio->Settings->Plugins,搜索Lom…

【JVM】JVM的内存区域划分

JVM的内存区域划分 堆Java虚拟机栈程序计数器方法区运行时常量池 堆 程序中创建的所有对象都保存在堆中 Java虚拟机栈 Java虚拟机栈的生命周期和线程相同,描述的是Java方法执行的内存模型,每个方法在执行的时候都会同时创建一个栈帧用于存储局部变量表,操作栈,动态链接,方法…

docker下的onlyoffice安装(for seafile)

docker镜像拉取 # 拉取 onlyoffice 镜像docker pull onlyoffice/documentserver 创建所需目录 # 创建几个目录 用于 onlyoffice 的数据卷cd /opt# 建议与 seafile 容器都放在 /opt 目录方便管理mkdir seafile-onlyofficecd seafile-onlyofficemkdir logmkdir datamkdir libmkd…

函数指针解释

函数指针是一种特殊类型的指针,它指向程序中的函数而不是数据。函数指针可以让你在运行时动态地选择调用哪个函数,这在某些编程情景中非常有用,例如回调函数、动态函数调用和函数表驱动的编程。以下是关于函数指针的一些基本概念和用法&#…

git log 美化配置

编辑 vim ~/.gitconfig 添加配置 [alias]lg log --graph --abbrev-commit --decorate --dateformat:%m-%d %H:%M:%S --formatformat:%C(bold blue)%h%C(reset) - %s %C(bold yellow)% d%C(reset) %n %C(dim white) (%ad) - %an%C(reset) --allgit lg 效果

微信小程序------框架

目录 视图层 WXML 数据绑定 列表渲染 条件渲染 模板 wsx事件 逻辑层 生命周期 跳转 视图层 WXML WXML(WeiXin Markup Language)是框架设计的一套标签语言,结合基础组件、事件系统,可以构建出页面的结构。 先在我们的项目中…

qemu 运行 linux

文章目录 qemu 运行 linuxlinux 内核版本生成配置文件编译设备树编译内核报错与解决运行 linux附录脚本参考 qemu 运行 linux linux 内核版本 linux-6.5.7linux 内核下载地址 https://www.kernel.org/可以在浏览器中点击下载,也可以使用命令行下载 wget https:/…

[23] T^3Bench: Benchmarking Current Progress in Text-to-3D Generation

3D生成蓬勃发展,主流方法通过事例比较和用户调查来评价方法好坏,缺少客观比较指标;本文提出Bench,首次综合比较了不同生成方法;具体来说,本文设计了质量评估(Quality Assessment)和对…

【Linux】线程的几种退出方法(知识点小记)

线程的几种退出方法: 方法参数介绍头文件功能区别return stutus;status//程序退出的返回值--返回到上一级主调函数 普通线程执行return,只退出当前线程 主函数中执行return,会退出进程,并释放所有线程 exit(int status);status//…

【Vivado HLS Bug】Ubuntu环境下Vivado HLS导出IP报错:HLS ERROR: [IMPL 213-28]

Export IP Invalid Argument / Revision Number Overflow Issue (Y2K22) (xilinx.com)一.问题描述: 在Ubuntu20.04环境中使用Vivado HLS导出IP时报错:HLS ERROR: [IMPL 213-28] 二.解决方法: 1.从如下链接中下载官方补丁Export IP Invalid…

Angular知识点系列(1)-每天10个小知识

目录 1. Angular工作原理和与其他前端框架的区别2. 使用Angular的经验和最喜欢的特性3. 使用的最复杂的Angular组件或指令4. Angular的依赖注入系统和示例5. Angular的模块和组件生命周期6. 使用Angular路由和路由保护7. 在Angular应用中实现延迟加载8. 处理Angular应用中的状态…

1、资源包下载

1 、百度云盘永久下载地址 : 链接: https://pan.baidu.com/s/13pBco75qXU6bLxlTtZ29TQ 提取码: ixkg 2 、官方下载地址: https://dev.mysql.com/downloads/mysql/ 3 、注意:下载时候要选择自己的系统和对应的电脑 CPU 位数&a…