【大数据】基础认知入门

目录

  • 前言
  • 阅读对象
  • 阅读导航
  • 前置知识
  • 笔记正文
    • 一、什么是大数据
      • 1.1 定义
      • 1.2 特点
      • 1.3 数据结构
      • 1.4 补充总结
    • 二、大数据能用来干什么
      • 2.1 应用方向
      • 2.2 应用场景(简述)
      • 2.3 总结
    • 三、大数据一般性过程
    • 四、给自己的作业
  • 感谢
  • 说在后面

前言

唉,最近有点迷茫,本着迷茫就多看书、多学习的原则,于是就来学学【大数据】。说起【大数据】这玩意,我有点对自己感到无语。此话怎讲呢?且听我说。
此前,我一直在思考一个问题,那就是【我能用大数据给我公司做什么】。对啊,能做什么,这是个问题。但更大的问题是:我是一个大数据外行,只曾听闻过大数据3个字,却我从未对它有过系统性了解,所以我连【大数据是什么】都不知道就去思考【能做什么】,这不是来搞笑的吗?
我不知道我有没有给大家描述清楚我的错误认知。对于临近30的我,发现自己做很多事情并没有什么章法,我想等到那天失业了我可能真就成一个xx了。幸好我也逐渐意识到了问题所在,现在正在尽可能地去改善这一点。

阅读对象

小白。我自己也是小白

阅读导航

      标题            链接      
系列上一篇
系列下一篇

前置知识

本文内容多选自《大数据 [ 百度百科 ] 》

笔记正文

一、什么是大数据

1.1 定义

  • 麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征
  • 我自己的定义:大数据是一门旨在研究如何在巨大的数据集中高效地存储、处理、分析和提取价值的学科
  • 百度百科节选:大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作是一种产业,那么这种产业实现盈利的关键在于,提高对数据的加工能力,通过加工实现数据的增值

1.2 特点

4个V来表示:(案例建议联想微博、抖音、12306等场景)

  • Volumn-大量(1V): 像现在的一些大电商、大的社交平台、自媒体平台等他们的数据都是海量的,数据量大到远超过当前传统数据库工具的处理能力。以我们最为常用的Mysql数据库为对比,HBase组件设计的目的是为了存储以及检索数百万行*数十万列 的巨量数据集。这样量级的数据集,对于MySQL数据库来说,就算是分库分表,也很难处理如此大的数据集
  • Velocity-高速(2V): 这也是大数据区分于传统数据挖掘最为显著的特征。这里的【高速】是指数据量增长特别快
  • Variety-多样性(3V): 这个不同于我们的刻板印象,这里的多样性是指:数据形式的多样性。这是因为我们的数据来源比较多,它不只是说Mysql、Redis里面存储的结构性、非结构性业务数据,还指图片、音视频等数据
  • Value-价值(4V): 准确的说,这里其实指的是:数据【呈高密度低价值】状态。海量数据里面,很多时候真正有价值的数据就那么一点

综上4个大数据的特征,我们再回头联想一下【大数据的定义】,我们应该能理解,为什么说【大数据是一门旨在研究如何在巨大的数据集中高效地存储、处理、分析和提取价值的学科】了吧。

1.3 数据结构

大家不要把大数据的【数据】拘泥于我们过往接触的,存储在关系型或者非关系型数据库里面的结构化和半结构化数据中,它其实还包括其他非结构化数据,我在【1.2 特点】的【Variety-多样性(3V)】里面已经提到过了。
根据IDC调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。

1.4 补充总结

到了这里,我想结合【定义】跟【特征】额外补充说明一点,也是我在学习的时候,一直在纠结的问题:多大的数据量,才算大呢?
我知道大家心里想要的是一个具体的量化标准,比如说1TB算大,10TB才算大这样子。但其实上面的【1.1 定义】中可以看出,比较权威的定义是指【大到传统数据库软件无法有效地、在合理时间内实时得到结果的量】就是大,并没有具体的量化标准。
另外我们还得结合上面提到的其他3个特征——高速、多样、高密度低价值等去理解这个【大】。这说明,大数据的【大】不仅仅是体现在【量】上。

如果硬要说一个具体的量化数值,根据阿里通义千问的回答,是这样:

  • TB级别:数据量达到TB(Terabyte,太字节)级别通常被认为是大数据的入门门槛
  • PB级别:数据量达到PB(Petabyte,拍字节)及以上通常被认为是大数据的典型规模
  • EB级别:数据量达到EB(Exabyte,艾字节)及以上则是极其庞大的数据量

二、大数据能用来干什么

2.1 应用方向

下面这些是我培训课老师说的,综合对比之后我觉得比较合理的应用方向(宏观方向):

  1. 数据挖掘/分析方向:
    • 定义:通俗地讲,数据挖掘是将原始数据转化为实用的知识。其目标不是提取或挖掘数据本身,而是对已有的大量数据,提取有意义或有价值的知识。另外,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。百度百科认为,狭义的数据分析与数据挖掘本质是一样的,都是发现有价值的信息。然后狭义的数据分析+数据挖掘==广义的数据分析
    • 定位: 这个方向更注重于对已有数据进行整合,并通过数据挖掘深入体现出数据的内在价值,从而为各单位、企业的业务决策提供数据支持
    • 例子:用户画像、餐厅画像、大型数据报表、个人征信报告、业务风控系统、电商行业就近分发的物流仓储系统等
  2. 数据预测方向:
    • 定义:简单地说,就是利用历史数据和统计模型来预测未来的趋势、行为或事件。多用在金融、医疗、制造等领域(PS:我比较倾向于把【推荐】也作为【预测】的一种
    • 定位:这个方向主要是基于机器学习对未来变化进行预测
    • 例子:金融股票预测、医疗健康风险预测、医疗辅助诊断、制造业机器故障预测、交通流量预测等
  3. 数据决策方向:
    • 定义:与预测差不多,他也是利用历史数据和统计模型来对单位、企业的业务决策提供数据支撑(科学依据)
    • 定位:这个方向主要是基于模型来对行为决策提供数据支撑
    • 例子:农业、畜牧业的精细化管理以及经营决策、体育赛事战术决策

忘了是08年还是10年了,当时猪肉价格狂涨,一度到了牛肉的价格。紧接着有意思的事情来了,一堆人开始追涨养猪,结果是,到了明年全体扑街。倘若,他们有一点市场供需意识,或者有大数据提供数据支撑(通过在饲料供给端埋点),就能在高维【看到】有多少人养殖、又会引起怎样的市场供需变化,或许就不会亏的裤衩子都不剩了

  1. 业务创新方向:
    • 定义:比较宽泛,大概的思路是用大数据凝练的经验去解放生产力
    • 定位:这个方向主要是用来替代一些重复性的工作,解放人类的生产力
    • 例子:自动驾驶汽车,各种各样的机器人等

2.2 应用场景(简述)

序号行业过程(包括,不限于)行为
1医疗行业各种报告 =》挖掘/分析 =》疾病数据库 =》治疗方案决策
2金融行业信贷记录 =》挖掘/分析 =》个人征信报告 =》风险管控决策
3电商/零售行业消费数据 =》挖掘/分析 =》消费习惯 =》营销短信预测(推荐)
4农牧行业农产品消费数据 =》挖掘/分析 =》供应量 =》平衡供需/种植、养殖建议预测、决策
5交通运输车辆通行数据 =》挖掘/分析 =》车辆通行密度 =》规划通行路线预测、决策
6

2.3 总结

我在学习了之后,其实整体总结下来,大数据的应用无非就围绕【挖掘/分析】、【预测】、【决策】这三个点上。而他们之间其实存在着前后关联关系,即:

  • 【挖掘/分析】==》【预测】
  • 【挖掘/分析】==》【决策】

无论是预测也好,决策也罢,其实都需要先经过【挖掘/分析】得到【有价值的信息】之后,才能进一步做【预测】、【决策】

三、大数据一般性过程

大数据的一般性过程我觉得还是有必要提一嘴,因为这个基本上预示了,围绕这个过程存在对应的产业布局或者技术应用,以及一些规范。大致过程有如下:

  1. 采集与处理:数据采集与处理是大数据的关键技术之一,它从互联网、传感器和信息系统等来源获取的大量带有噪声的数据进行预处理,包括数据清洗、填补和规范化等流程,使无序的数据更加有序,便于处理,以达到快速分析处理的目的
  2. 存储与管理:数据存储与管理是指将处理前或处理后的数据以特定格式记录在计算机内部或外部存储介质上,并对数据进行管理和调用的过程。此过程有助于减少数据孤岛现象,并确保数据的可靠性、安全性、可用性和可扩展性
  3. 挖掘与分析:通俗地讲,数据挖掘是将原始数据转化为实用的知识。其目标不是提取或挖掘数据本身,而是对已有的大量数据,提取有意义或有价值的知识。另外,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。百度百科认为,狭义的数据分析与数据挖掘本质是一样的,都是发现有价值的信息。然后狭义的数据分析+数据挖掘==广义的数据分析
  4. 可视化与呈现:数据可视化是使用图表、图形或地图等可视元素来表示数据的过程。该过程将难以理解和运用的数据转化为更易于处理的可视化表示。数据可视化工具可自动提高视觉交流过程的准确性并提供详细信息,以便决策者可以确定数据之间的关系并发现隐藏的模式或趋势
  5. 治理与应用:这里其实就是根据挖掘与分析后,得到的有价值信息,然后给出对应的解决方案
  6. 安全与合规:根据《中华人民共和国数据安全法》,数据是指任何以电子或者其他方式对信息的记录。数据安全是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。各地区、各部门对本地区、本部门工作中收集和产生的数据及数据安全负责

四、给自己的作业

差点忘了这个。我在前言中已经提到了,我学大数据其实是想知道,【我能用大数据技术给我公司做什么】,到这里,其实我已经有一点点构思了。
首先,我们公司主营业务是提供【智慧食堂解决方案】的,从作业标准上来说我们提供的方案已经涵盖了前厅到后厨的采购、库存、营销、收银、会员中心等全场景流程。那么, 围绕着【挖掘/分析】、【预测】、【决策】这三个点,我认为我们公司业务可以和大数据技术做如下结合:

  1. 用户画像:宏观上,可以从年龄、性别、地域给出用户饮食上的偏好;微观上,可以做针对每个用户的营养分析
  2. 餐厅画像:宏观上,可以从地区上描述智慧食堂分布情况、盈利情况、营业情况等;微观上对每个餐厅做具体分析
  3. 食谱/食谱BOM画像:宏观上,可以做地区食谱受欢迎榜单;微观上可以从BOM分析出,怎样的物料配比既能让用户满意,又能让餐厅盈利最大化
  4. 经营决策:上面提及的食谱BOM画像说到的,科学的食材配比;利用历史数据预测未来需求量、客流量,进而调整库存或者采购量;通过分析顾客点餐偏好优化每日经营菜谱;根据顾客历史消费记录精准推荐菜品
  5. …还没想好…

感谢

  1. 感谢百度百科词条《大数据 [ 百度百科 ] 》提供的信息
  2. 感谢51CTO大佬【Hjiangxue】的文章《大数据应用场景有哪些?一篇文章告诉你》

说在后面

这些都是我个人总结学习的,如有不对之处,还请批评指正

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/50985.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Kubectl命令、初识pod、namespace

文章目录 一、Kubectl简介基础命令1.基本信息命令2.创建和更新资源命令3.删除资源命令4. 查看日志和调试命令5. 端口转发和复制文件命令6. 部署管理命令7. 伸缩命令8. 配置和上下文管理命令9.常用命令 二、Pod简介核心概念pod常见状态调度和初始化阶段容器创建和运行阶段异常状…

Qt网络通信——TCP和UDP

一、TCP通信 TCP通信必须先建立 TCP 连接,通信端分为客户端和服务器端。 Qt 为服务器端提供了 QTcpServer 类用于实现端口监听,QTcpSocket 类则用于服务器和客户端之间建立连接。大致流程如下图所示: 1. 服务器端建立 1.1 监听——listen() …

PPP简介

介绍PPP特性的定义和目的。 定义 PPP(Point-to-Point Protocol)协议是一种点到点链路层协议,主要用于在全双工的同异步链路上进行点到点的数据传输。 目的 PPP协议是在串行线IP协议SLIP(Serial Line Internet Protocol&#x…

【Android高级UI】将View或Layout裁剪为任意形状

需求 将View裁剪为指定形状 将Layout裁剪为指定形状,并且Children不能超过裁剪范围 应用 圆角图片异形图片圆角Layout 方案 通过ViewOutlineProvider裁剪控件范围 实现 fun View.getMeasureSize(): Size {val widthSpec View.MeasureSpec.makeMeasureSpec(…

代码随想录:动态规划6-10

62、不同路径 题目 一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为 “Start” )。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为 “Finish” )。 问总共有多少条不同的路径…

Hadoop入门基础(三):Hadoop启动踩坑记录

一、机器ssh连接方式非默认22端口 报错: sbin/start-dfs.sh Starting namenodes on [doop253] doop253: ssh: connect to host doop253 port 22: Connection refused 解决方法: sudo vim /etc/ssh/ssh_config 添加如下内容(注意替换自己服…

[Qt] 避免CMake编译的Qt程序单独运行时出现控制台窗口的解决办法

只需要在add_executable中加上WIN32即可 避免CMake编译的Qt程序单独运行时出现控制台窗口的解决办法

史上最全的软件工厂考试简答题教程

软件工程考试简答题 1. 有人认为软件开发时,一个错误发现得越晚,为改正它所付出的代价越大。提出你的观点并解释原因? (1)在软件开发的不同阶段进行修改付出的代价是很不相同的,在早期引入变动&#xff0c…

【Harmony OS 4.0】交互事件(手势事件)

1. 绑定手势方法 1.1 gesture(常规手势绑定方法) 1.2 priorityGesture(带优先级的手势绑定方法) 1.3 parallelGesture(并行手势绑定方法) 可以在父子组件上绑定。可以同时响应的相同手势。当父组件绑定了…

如何清理win备用内存?备用内存过大怎么办?

下载这个软件RamMap 运行以后 选择Empty-Empty Standby List就行了 参考:https://www.zhihu.com/question/263768043 另外,禁用服务中的SystemMain,应该会停止占用备用内存,但是需要重启。 所以没办法只好创建一个任务计划&…

openai whisper使用

whisper使用 介绍 Whisper是一种通用的语音识别模型。它是在大量不同音频数据集上训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。 GitHub:https://github.com/openai/whisper 论文链接:https://arx…

注册Github账号详细过程

目录 一、准备工作 二、注册步骤 一、准备工作 在注册GitHub账号之前,请确保您已经准备好以下信息: 一个有效的电子邮箱地址:用于接收验证邮件和GitHub的后续通知。 用户名:确保该用户名在GitHub上是唯一的,且符合…

turtle画图知识

Turtle库是Python编程语言中的一个库,用于创建各种类型的图形,包括简单圆形、线条、路径和图片。它支持多种图形类型,并且可以绘制出各种复杂的形状。 以下是一些基本的使用方法: 1. 创建一个新的Turtle对象: pytho…

Leetcode JAVA刷刷站(53)最大子数组和

一、题目概述 二、思路方向 这个问题是一个经典的算法问题,称为“最大子序和”(Maximum Subarray Problem)。解决这个问题的一个高效方法是使用“Kadanes Algorithm”,它只需要遍历数组一次,就能在 O(n) 时间复杂度内…

CVPR2023《DNF: Decouple and Feedback Network for Seeing in the Dark》暗光图像增强论文阅读笔记

相关链接 论文链接 https://openaccess.thecvf.com/content/CVPR2023/papers/Jin_DNF_Decouple_and_Feedback_Network_for_Seeing_in_the_Dark_CVPR_2023_paper.pdf 代码链接 https://github.com/Srameo/DNF 摘要 RAW数据的独特属性在低光照图像增强方面展现出巨大潜力。…

C语言典型例题47

《C程序设计教程(第四版)——谭浩强》 习题3.7 输入4个整数,要求按照从小到大的顺序输出 4个数之间进行比较,冒泡排序最最最详细过程,如果想更改为任意数之间相互比较,只需要修改两个地方(数组大…

力扣面试经典算法150题:买卖股票的最佳时机 II

买卖股票的最佳时机 II 今天的题目是力扣面试经典150题中的数组的中等难度题:买卖股票的最佳时机 II。 题目链接:https://leetcode.cn/problems/best-time-to-buy-and-sell-stock-ii/description/?envTypestudy-plan-v2&envIdtop-interview-150 问…

教程:postman的平替hoppscotch,又叫postwoman,hoppscotch的docker-compose安装过程

目录 1. 背景2. 前期准备2.1 准备docker-compose文件,两个版本,一个3合1,一个分开2.1.1 3合1版本(推荐)2.1.2 独立版本 2.2 准备安装nginx-proxy-manager(可选)2.2 准备.env文件2.2.1 默认ip的.…

Spring Boot OAuth2.0应用

本文展示Spring Boot中,新版本OAuth2.0的简单实现,版本信息: spring-boot 2.7.10 spring-security-oauth2-authorization-server 0.4.0 spring-security-oauth2-client 5.7.7 spring-boot-starter-oauth2-resource-server 2.7.10展示三个服务…

Android高版本抓包总结

方案1 CharlesVirtualXposedJustTrustMe 推荐使用三星手机此方案 VirtualXposed下载链接:https://github.com/android-hacker/VirtualXposed/releases JustTrustMe下载链接:https://github.com/Fuzion24/JustTrustMe/releases/ 下载完成后使用adb命令…