学习大数据有什么用?
2010年:大数据技术体系开始在国内火热
2015年:国务院印发《促进大数据发展行动纲要》
2016年:发改委发布关于组织实施促进大数据发展重大工程的通知
2017年:工信部印发大数据产业规划(2016-2020)
2020年:国务院指示十四五规划大数据重点发展
2022年:国务院印发十四五数字经济发展规划
由此可见,国家对于大数据越来越重视。同时,伴随着信息全球化的发展,大数据也成为了很多行业的基础。我们随时随地都在创造数据。
数据是什么?
数据与信息不同
数据:一种可以被鉴别的对客观事件进行记录的符号。
常见的数据类型:文本,图片,音频,视频等。
信息:与数据不同的概念,信息是较为宏观的概念,它由数据的有序排列组合而成,传达给读者某个概念方法等,而数据则是构成信息的基本单位。离散的数据没有任何实用价值。
数据的组织形式和生命周期
计算机系统中的数据组织形式主要有两种,即文件和数据库。
文件:计算机系统中的很多数据都是以文件形式存在的,例如:WORD文件、一个文本文件、一个网页文件、一个图片文件等等。
数据库:数据库是结构化信息或数据的有序集合,一般以电子形式存储在计算机系统中。通常由数据库管理系统 (DBMS) 来控制。
数据生命周期:是指数据从创建->修改->发布利用->归档/销毁的整个过程。
- 对数据进行自动分类,分离出有效的数据,对不同类型数据制定不同的管理策略,并及时清理无用的数据。
- 构建分层的存储系统,满足不同类型的数据对不同生命周期阶段的存储要求,对关键数据进行数据备份保护,对处于生命周期末期的数据进行归档并保存到适合长期保存数据的存储设备中。
- 根据不同数据管理策略,实施自动分层数据管理,即自动把不同生命周期阶段的数据存放在最合适的存储设备上,提高数据可用性和管理效率。
数据如何转化为信息
- 一致性检查:根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。
- 无效值和缺失值的处理:由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。常用的处理方法有:估算,整例删除,变量删除和成对删除。
- 数据管理:利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。其目的在于充分有效地发挥数据的作用。实现数据有效管理的关键是数据组织。
- 数据分析:把隐藏在一大批看来杂乱无章的数据中的信息集中和提炼出来,从而找出所研究对象的内在规律。在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。数据分析是有组织有目的地收集数据、分析数据,使数据成为信息的过程。
数据的价值
- 数据的价值在于可以为人们找出答案。
- 数据的价值不会因为不断被使用而削减,反而会因为不断重组而产生更大的价值。
- 各类收集来的数据都应当被尽可能长时间地保存下来,同时也应当在一定条件下与全社会分享,并产生价值。
- 数据已经具备资本的属性,可以用来创造经济价值。
大数据具有哪些特性?
数据层面:大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、警理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
技术层面:大数据(技术)使用分布式技术完成海量数据的处理,以得到数据背后蕴含的价值。
大数据5V性质
Volume(体积):采集数据量大,存储数据量大,计算数据量大,TB、PB级别起步。
Variety(种类):结构化、半结构化、非结构化 日志、文本、图片、音频、视频。
Value(价值):数据海量但是价值密度低,深度复杂的挖掘分析需要机器学习参与。
Velocity(速度):数据增长速度快,获取数据速度快,数据处理速度快。
Veracity(质量):数据的准确性,数据的可信赖度。
大数据是如何产生的?
数据的生产方式
- 运营式系统阶段:
数据库的出现使得数管理的复杂度降低,数据往往伴随着一定的运营活动而产生并记录在数据库中。 在此阶段,数据被动产生。
- 用户原创内容阶段:
数据爆发产生于Web 2.0 时代,而Web 2.0 的最重要标志就是用户原创内容。 在此阶段,数据主动产生。
- 感知式系统阶段:
感知式系统的广泛应用最终导致了大数据的产生。 在此阶段,数据自动产生。
信息化浪潮
- 第一次浪潮:1980前后,个人计算机处理信息。
- 第二次浪潮:1995前后,互联网传输信息。
- 第三次浪潮:2010前后,物联网、云计算和大数据让信息爆炸。
大数据带来了哪些影响?
正面影响——科学研究
图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结:人类自古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式。
虽然计算科学和数据密集型科学都是利用计算机来进行计算,但是二者的本质区别在于:计算科学先提出可能的理论,再搜集数据,然后通过计算来验证;数据密集型科学先有了大量已知的数据,然后通过计算得到之前未知的理论。
正面影响——社会发展
- 大数据决策逐渐成为一种新的决策方式。
- 大数据成为提升国家治理能力的新途径。
- 大数据应用有力促进了信息技术与各行业的深度融合。
- 大数据开发大大推动了新技术和新应用的不断涌现。
正面影响——就业市场
大数据的兴起使得数据科学家成为热门职业。
正面影响——人才培养
- 一是计算机技术相关人才,包括平台搭建和应用开发。
- 二是统计学相关人才,包括数学、建模、算法。
- 三是业务人才,就是要有一定的专业领域知识,只有明白目标领域知识的人,才能了解数据的意义以及指导数据分析的方向并判断数据分析结果的可信性。