大数据概述

学习大数据有什么用?

2010年:大数据技术体系开始在国内火热

2015年:国务院印发《促进大数据发展行动纲要》

2016年:发改委发布关于组织实施促进大数据发展重大工程的通知

2017年:工信部印发大数据产业规划(2016-2020)

2020年:国务院指示十四五规划大数据重点发展

2022年:国务院印发十四五数字经济发展规划

由此可见,国家对于大数据越来越重视。同时,伴随着信息全球化的发展,大数据也成为了很多行业的基础。我们随时随地都在创造数据。

数据是什么?

数据与信息不同

数据:一种可以被鉴别的对客观事件进行记录的符号。

常见的数据类型:文本,图片,音频,视频等。

信息:与数据不同的概念,信息是较为宏观的概念,它由数据的有序排列组合而成,传达给读者某个概念方法等,而数据则是构成信息的基本单位。离散的数据没有任何实用价值。

数据的组织形式和生命周期

计算机系统中的数据组织形式主要有两种,即文件和数据库。

文件:计算机系统中的很多数据都是以文件形式存在的,例如:WORD文件、一个文本文件、一个网页文件、一个图片文件等等。

数据库:数据库是结构化信息或数据的有序集合,一般以电子形式存储在计算机系统中。通常由数据库管理系统 (DBMS) 来控制。

数据生命周期:是指数据从创建->修改->发布利用->归档/销毁的整个过程。

  • 对数据进行自动分类,分离出有效的数据,对不同类型数据制定不同的管理策略,并及时清理无用的数据。
  • 构建分层的存储系统,满足不同类型的数据对不同生命周期阶段的存储要求,对关键数据进行数据备份保护,对处于生命周期末期的数据进行归档并保存到适合长期保存数据的存储设备中。
  • 根据不同数据管理策略,实施自动分层数据管理,即自动把不同生命周期阶段的数据存放在最合适的存储设备上,提高数据可用性和管理效率。

数据如何转化为信息

  • 一致性检查:根据每个变量的合理取值范围相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。
  • 无效值和缺失值的处理:由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。常用的处理方法有:估算整例删除变量删除成对删除
  • 数据管理:利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。其目的在于充分有效地发挥数据的作用。实现数据有效管理的关键是数据组织
  • 数据分析:把隐藏在一大批看来杂乱无章的数据中的信息集中和提炼出来,从而找出所研究对象的内在规律。在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。数据分析是有组织有目的地收集数据、分析数据,使数据成为信息的过程。

数据的价值

  • 数据的价值在于可以为人们找出答案。
  • 数据的价值不会因为不断被使用而削减,反而会因为不断重组而产生更大的价值。
  • 各类收集来的数据都应当被尽可能长时间地保存下来,同时也应当在一定条件下与全社会分享,并产生价值。
  • 数据已经具备资本的属性,可以用来创造经济价值。

大数据具有哪些特性?

数据层面:大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、警理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

技术层面:大数据(技术)使用分布式技术完成海量数据的处理,以得到数据背后蕴含的价值。

大数据5V性质

Volume(体积):采集数据量大,存储数据量大,计算数据量大,TB、PB级别起步。

Variety(种类):结构化、半结构化、非结构化 日志、文本、图片、音频、视频。

Value(价值):数据海量但是价值密度低,深度复杂的挖掘分析需要机器学习参与。

Velocity(速度):数据增长速度快,获取数据速度快,数据处理速度快。

Veracity(质量):数据的准确性,数据的可信赖度。

大数据是如何产生的?

数据的生产方式

  • 运营式系统阶段:

数据库的出现使得数管理的复杂度降低,数据往往伴随着一定的运营活动而产生并记录在数据库中。 在此阶段,数据被动产生。

  • 用户原创内容阶段:

数据爆发产生于Web 2.0 时代,而Web 2.0 的最重要标志就是用户原创内容。 在此阶段,数据主动产生。

  • 感知式系统阶段:

感知式系统的广泛应用最终导致了大数据的产生。 在此阶段,数据自动产生。

信息化浪潮

  • 第一次浪潮:1980前后,个人计算机处理信息。
  • 第二次浪潮:1995前后,互联网传输信息。
  • 第三次浪潮:2010前后,物联网、云计算和大数据让信息爆炸。

大数据带来了哪些影响?

正面影响——科学研究

图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结:人类自古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式。

虽然计算科学和数据密集型科学都是利用计算机来进行计算,但是二者的本质区别在于:计算科学先提出可能的理论,再搜集数据,然后通过计算来验证;数据密集型科学先有了大量已知的数据,然后通过计算得到之前未知的理论。

正面影响——社会发展

  • 大数据决策逐渐成为一种新的决策方式。
  • 大数据成为提升国家治理能力的新途径。
  • 大数据应用有力促进了信息技术与各行业的深度融合。
  • 大数据开发大大推动了新技术和新应用的不断涌现。

正面影响——就业市场

大数据的兴起使得数据科学家成为热门职业。

正面影响——人才培养

  • 一是计算机技术相关人才,包括平台搭建和应用开发。  
  • 二是统计学相关人才,包括数学、建模、算法。
  •  三是业务人才,就是要有一定的专业领域知识,只有明白目标领域知识的人,才能了解数据的意义以及指导数据分析的方向并判断数据分析结果的可信性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/716498.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux运维_Bash脚本_构建安装Meson-1.0.1和Ninja-1.11.1

Linux运维_Bash脚本_构建安装Meson-1.0.1和Ninja-1.11.1 Bash (Bourne Again Shell) 是一个解释器,负责处理 Unix 系统命令行上的命令。它是由 Brian Fox 编写的免费软件,并于 1989 年发布的免费软件,作为 Sh (Bourne Shell) 的替代品。 您…

Nginx高级技巧:实现负载均衡和反向代理

文章目录 Nginx概述Nginx作用正向代理反向代理负载均衡动静分离 Nginx的安装 -->Docker3.1 安装Nginx3.2 Nginx的配置文件3.3 修改docker-compose文件 Nginx源码安装nginx常用命令nginx配置文件配置文件位置配置文件结构详情 Nginx的反向代理【重点】基于Nginx实现反向代理4…

C语言冒泡排序(高级版)

目录: 冒泡排序的原理 主函数 "冒泡排序函数" 比较函数 交换函数 最终输出 完整代码 冒泡排序的原理: 冒泡排序的原理是:从左到右,相邻元素进行比较。每次比较一轮,就会找到序列中最大的一个或最小的一个。这个数就会从序列的最右…

Windows上构建一个和Linux类似的Terminal

preview 目的是在Windows上构建一个和Linux类似的Terminal,让Windows炼丹和Linux一样舒适,同是让Terminal取代Xshell完成远程链接。 预览如下图 在Linux下我们使用zsh和oh-my-zsh结合,Windows下我们使用powershell7和oh-my-posh结合。 前提…

Vue 前端开发 v-for和v-if两个指令不能混合使用

原由: 在进行项目开发的时候因为在一个标签上同时使用了v-for和v-if两个指令导致的报错。 提示错误:The undefined variable inside v-for directive should be replaced with a computed property that returns filtered array instead. You should no…

nginx------------缓存功能 ip透传 负载均衡 (六)

一、http 协议反向代理 (一)反向代理示例:缓存功能 缓存功能可以加速访问,如果没有缓存关闭后端服务器后,图片将无法访问,缓存功能默认关闭,需要开启。 ​ proxy_cache zone_name | off; 默认off #指明调…

基于Springboot纯净水配送和商城系统设计与实现 开题报告参考

博主介绍:黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者,CSDN博客专家,在线教育专家,CSDN钻石讲师;专注大学生毕业设计教育和辅导。 所有项目都配有从入门到精通的基础知识视频课程&#xff…

2023 版王道单科书勘误汇总(3.30)

注:因2023版对题目编号做了优化“历年真题全部放最后、且按年份排序”,以方便大家根据需要保留某些年份的真题作为最后的模拟。所以造成了一些题目和解析的编号错误。 数据结构: P11 P20 P56 P278 P326 “2.”中第 3 行”题 5改成”9”,第6行”题 8”改成…

css3详解

一.什么是CSS3 CSS3是Cascading Style Sheets的第三个版本,是一种用于描述文档样式的语言(CSS3是CSS(层叠样式表)技术的升级版本)。它是前端开发中用于控制网页布局和样式的技术之一。CSS3引入了许多新的特性和功能&a…

Linux常用操作命令大全

Linux常用操作命令大全 Linux,作为一款开源的操作系统,深受全世界开发者和系统管理员的喜爱。在Linux环境下,用户通过命令行界面可以执行各种操作,从而实现对系统的全面控制。本文将详细介绍Linux中常用的操作命令,帮助读者更好地理解和运用这些命令。 一、文件操作命令…

hexo图片显示不出且图片路径错误/.com//

参考博客: hexo 图片显示问题及使用typora设置图片路径-CSDN博客 javascript - hexo 图片路径错误/.com// - SegmentFault 思否 先说如何让hexo图片成功地显示出来 Step1: 修改config设置 将 _config.yml 设置文件中的 post_asset_folder 修改为 true 这一步的作…

平衡二叉树,二叉树的路径,左叶子之和

第六章 二叉树part04 今日内容: 110.平衡二叉树 257. 二叉树的所有路径 404.左叶子之和 110.平衡二叉树 (优先掌握递归) 给定一个二叉树,判断它是否是高度平衡的二叉树。 本题中,一棵高度平衡二叉树定义为&am…

【不可不知的考研复试秘籍 1】

----------------------------------------------------------------------------------------------------- 考研复试科研背景提升班 教你快速深入了解掌握考研复试面试中的常见问题以及注意事项,系统的教你如何在短期内快速提升自己的专业知识水平和编程以及英语…

windows下安装cnpm

cnpm是淘宝团队开发的一个针对中国用户的npm镜像源,它是npm的一个定制版本。由于国外的npm源在国内访问速度较慢,所以cnpm镜像源可以提供更快的下载速度。cnpm的使用方式与npm基本相同,只需将npm替换为cnpm即可。 要想使用cnpm等先安装node.…

反序列化逃逸 [安洵杯 2019]easy_serialize_php1

打开题目 题目源码&#xff1a; <?php$function $_GET[f];function filter($img){$filter_arr array(php,flag,php5,php4,fl1g);$filter /.implode(|,$filter_arr)./i;return preg_replace($filter,,$img); }if($_SESSION){unset($_SESSION); }$_SESSION["user&qu…

每日一题 KY148还是畅通工程

某省调查乡村交通状况&#xff0c;得到的统计表中列出了任意两村庄间的距离。省政府“畅通工程”的目标是使全省任何两个村庄间都可以实现公路交通&#xff08;但不一定有直接的公路相连&#xff0c;只要能间接通过公路可达即可&#xff09;&#xff0c;并要求铺设的公路总长度…

PostgreSQL对已有表增加自增序列

对已有表增加自增序列&#xff1a; 1、在PostgreSQL当中&#xff0c;我们要实现对已有表的ID字段自增。 首先需创建一个关联序列&#xff0c;以下sql语句是创建一个序列&#xff1a; CREATE SEQUENCE menu_id_seq START 6000001; 序列名称是menu_id_seq&#xff0c;起始…

sizeof 和 strlen的区别

sizeof sizeof是单目操作符,sizeof计算变量所栈内存空间大小,单位是字节,如果操作数是类型的话,会计算类型所占大小,sizeof指在乎占用内存空间大小不在乎内容是什么. int main() {int a 0;printf("%zd\n", sizeof(a));printf("%zd\n", sizeof a );printf…

巧【二叉搜索树的最近公共祖先】【二叉搜索树的性质】Leetcode 235. 二叉搜索树的最近公共祖先

【二叉搜索树的最近公共祖先】【二叉搜索树性质】Leetcode 235. 二叉搜索树的最近公共祖先 【巧】解法1 利用二叉搜索树有序的性质解法2 采用二叉树求最近公共祖先的方法——后序遍历 ---------------&#x1f388;&#x1f388;235. 二叉搜索树的最近公共祖先 题目链接&#x…

huggingface上传或发布自己的模型(大语言模型LLM)

创建huggingface账号和token 在https://huggingface.co/join注册huggingface账号&#xff0c;登录账号后&#xff0c;在https://huggingface.co/settings/tokens创建token&#xff0c;注意需要将token的类型设置为WRITE。 安装必要软件包和初始化环境 安装git lfs curl -s …