摸鱼大数据——大数据导论

大数据导论

1、概念

大数据时代: 万物皆数据
​
数据概念: 人类的行为及产生的事件的一种记录称之为数据
​
数据价值: 对数据的内容进行深入分析,可以更好的帮助了解事和物在现实世界的运行规律   

2、大数据诞生

大数据的诞生: 跟随着互联网的发展的,当全球互联网逐步建成(2000年左右),各大企业或政府单位拥有了海量的数据亟待处理。基于这个前提逐步诞生了以分布式的形式(即多台服务器集群)完成海量数据处理的处理方式,并逐步发展成现代大数据体系。
​
分布式: 多台服务器互相配合协同处理同一个事情
​
Apache Hadoop对大数据体系的意义: 第一款获得业界普遍认可的企业级开源分布式解决方案, 一定程度上催生出了众多的大数据体系技术栈,从Hadoop开源开始(2008年左右)大数据开始蓬勃发展

3、大数据概述

什么是大数据?
狭义上: 对海量数据进行处理的软件技术体系
广义上: 数字化、信息化时代的基础支撑,以数据为生活赋能
狭义和广义联系: 学习狭义上的大数据软件技术体系,在工作中为广义上的数字化、信息化时代,添砖加瓦
​
​
大数据解决了什么问题?
问题1: 海量数据的存储
问题2: 海量数据的计算
问题3: 海量数据的传输
​
大数据的核心工作?
存储: 利用各类大数据技术栈,妥善保存海量待处理数据
计算: 利用各类大数据技术栈,完成海量数据的价值挖掘
传输: 利用各类大数据技术栈,协助各个环节的数据传输

4、大数据特征

大数据特征简述: 5v(大多值快信)
大: 数据量大,1TB=1024GB,1PB=1024TB
多: 数据多样性。各行各业,不同类型的数据都有
值: 数据背后的价值,一般是低价值
快: 使用大数据技术能够快速对数据进行分析
信: 分析结果准备

大数据的核心工作其实就是: 从海量数据中,以大数据技术分析出有价值的信息

5、大数据技术栈

Apache软件基金会(Apache Software Foundation,简称 [ASF]是专门为运作一个==开源软件==项目的 Apache 的团体提供支持的非盈利性组织,这个开源软件的项目就是 Apache 项目。

5.1 存储

Apache Hadoop-HDFS: HDFS是Apache Hadoop Core项目的一部分,(Hadoop Distributed File System) Hadoop分布式文件存储系统
​
Apache HBase: HBase是Apache的Hadoop项目的子项目
​
Apache Kudu: 是由Cloudera开源的存储引擎,贡献给Apache基金组织

5.2 计算

Apache Hadoop-MapReduce: MapReduce组件是最早一代的大数据分布式计算引擎对大数据的发展做出了卓越的贡献
​
Apache Hive: Hive是一款以SQL为要开发语言的分布式计算框架。HiveSQL其底层翻译成了Hadoop的MapReduce程序去执行
​
Apache Spark: Spark是目前全球范围内最火热的分布式内存计算引擎。是大数据体系中的明星计算产品
​
Apache Flink: Flink同样也是一款明星级的大数据分布式内存计算引擎。特别是在实时计算(流计算)领域占据了大多数的国内市场。

5.3 传输

Apache Sqoop: Sqoop是一款ETL工具,可以协助大数据体系(hdfs,hive)和关系型数据库(mysql)之间进行数据传输。
​
Apache Flume: Flume是一款流式数据采集工具,可以从非常多的数据源中完成数据采集传输的任务。
​
Apache Kafka: Kafka是一款分布式的消息系统,可以完成海量规模的数据传输工作。Apache Kafka在大数据领域也是明星产品
​
Apache Pulsar: Pulsar同样是一款分布式的消息系统。

6、Hadoop

Hadoop是开源的技术框架,提供分布式存储、计算、资源调度的解决方案

狭义上Hadoop:  包含HDFS,MapReduce,YARN三大组件的技术栈
​
广义上Hadoop:  整个Hadoop生态圈
​
Hadoop的创始人: Doug Cutting
Hadoop起源:于Apache Lucene子项目:Nutch  ,Nutch的设计目标是构建一个大型的全网搜索引擎。
Hadoop启蒙: Google三篇著名的论文(也叫三驾马车)《The Google file system》:谷歌分布式文件系统GFS《MapReduce: Simplified Data Processing on Large Clusters》:谷歌分布式计算框架MapReduce《Bigtable: A Distributed Storage System for Structured Data》:谷歌结构化数据存储系统
​
​
Hadoop的开源版本: Apache版本,免费
​
Hadoop的商业版本: CDH付费版,在开源基础上进行了二次封装

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/13326.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

K8S认证 | CKA题库 + 答案 | 查看Pod CPU资源使用量

2、查看集群中运行Pod CPU资源使用量 您必须在以下Cluster/Node上完成此考题: Cluster Master node Worker node k8s …

拧紧设备或工具的选型原则、常见类型和选型关键因素有哪些?

智能扭矩系统-智能拧紧系统-扭矩自动控制系统-SunTorque 在工业生产领域,拧紧控制是一项至关重要的工艺环节。它涉及螺栓、螺母等紧固件的装配过程,直接关系到产品的质量和性能。因此,选择合适的拧紧设备或工具对于确保拧紧过程的准确性和稳…

[牛客网]——C语言刷题day4

答案:B 解析: a是数组首元素的地址,a1的步长是int,所以是2 &a是数组的首地址,&a1步长是int[5] ptr是int类型的指针,指向a数组的尾后位置,ptr-1的步长是int,所以是a数组的最后一个元素5 答案&am…

如何使用ffmpeg 实现10种特效

相关特效的名字 特效id 特效名 1 向上移动 2 向左移动 3 向下移动 4 颤抖 5 摇摆 6 雨刷 7 弹入 8 弹簧 9 轻微跳动 10 跳动 特效展示(同时汇总相关命令) pad背景显示 pad背景透明 相关命令(一会再讲这些命令,先往下看) # 合成特效语音 ffmpeg -y -loglevel erro…

Element Plus/vue3 无限级导航实现

在使用element plus 时,最初要使用的就是导航组件了,官网上看到的也就是写死的一级/二级导航,那么如何设计一个无限级且动态的导航呢?毋庸置疑,递归。废话不多说,直接看代码和效果: 代码&#x…

Jmeter:录制脚本(操作文档)

新建线程组 打开jmeter,右键测试计划–>添加–>Threads(Users)–>点击"线程组" 添加录制控制器 右键线程组–>添加–>逻辑控制器–>点击"录制控制器" 添加HTTP代理服务器 右键工作台–>添加–>非测试元件–>…

YOLOv5改进 | Neck | 添加双向特征金字塔BiFPN【小白轻松上手 | 论文必备】

🚀🚀🚀本专栏所有的改进均可成功执行🚀🚀🚀 尽管Ultralytics 推出了最新版本的 YOLOv8 模型。但YOLOv5作为一个anchor base的目标检测的算法,YOLOv5可能比YOLOv8的效果更好。但是针对不同的数据…

Linux 第三十五章

🐶博主主页:ᰔᩚ. 一怀明月ꦿ ❤️‍🔥专栏系列:线性代数,C初学者入门训练,题解C,C的使用文章,「初学」C,linux 🔥座右铭:“不要等到什么都没有了…

Kubernetes安装calico网络插件失败

今天啥也没干成,不想排版了。 接着昨天搭建k8s集群,安装calico插件,虚拟机一直卡。 # 在 master 节点上执行 # 下载 calico 配置文件,可能会网络超时 curl https://docs.tigera.io/archive/v3.25/manifests/calico.yaml -O # 修…

[svelte] 怎么引入fortawesome的icon样式

首先在项目的终端下执行以下命令 npm install fortawesome/fontawesome-free # 或者 yarn add fortawesome/fontawesome-free这样子可以把fontawsome的图标给下载到项目的对应文件中 一般都是在node_modules中 在fontawsome/fontawesome-free中就可以看到很多文件夹了 …

unapp写微信小程序封装水印相机组件怎么实现?

<template><view><!-- <cu-custom bgColor"bg-gradual-blue" :isBack"true"><block slot"backText">返回</block><block slot"content">编辑资料</block></cu-custom> --><…

三步在 vite 中配置 tailwindcss

前言 tailwindcss 是一个原子化的 css 工具&#xff0c;可以让你免于写 css&#xff0c;只写 html 即可原理&#xff1a;利用你写的 html 的 class 名称来生成 css 样式&#xff0c;理解为一个 postcss 插件或 loader 第一步&#xff1a;安装 tailwindcss npm i -D tailwind…

图片恢复的实用指南,为你拯救遗失的记忆!

随着科技的日新月异&#xff0c;我们的生活已被照片填满。它们记录着我们的喜怒哀乐&#xff0c;见证着每一个重要的时刻。但我们往往会因为各种原因将手机图片遗失&#xff0c;有什么方法可以恢复呢&#xff1f;本文将提供一份实用的图片恢复指南&#xff0c;帮助你找回那些遗…

ArrayList和LinkedList的使用

ArrayList List<> list new ArrayList<>(); LinkedList

SQL注入漏洞常用绕过方法

SQL注入漏洞 漏洞描述 Web 程序代码中对于用户提交的参数未做过滤就直接放到 SQL 语句中执行&#xff0c;导致参数中的特殊字符打破了原有的SQL 语句逻辑&#xff0c;黑客可以利用该漏洞执行任意 SQL 语句&#xff0c;如查询数据、下载数据、写入webshell 、执行系统命令以及…

WPF使用ItemsControl显示Object的所有属性值

对于上位机开发&#xff0c;我们有时候有这样的需求&#xff1a;如何显示所有的IO点位&#xff1f;比如有10个IO点位&#xff0c;那我们要写10个TextBlock去绑定这10个点位的属性&#xff08;本文暂时不考虑显示的样式&#xff0c;当然也可以考虑&#xff09;&#xff0c;当点位…

霍庭格TruPlasma MF 7100 7050电源现货50KW

霍庭格TruPlasma MF 7100 7050电源现货50KW

【C语言深度解剖】:(11)函数指针、函数指针数组、指向函数指针数组的指针、回调函数

&#x1f921;博客主页&#xff1a;醉竺 &#x1f970;本文专栏&#xff1a;《C语言深度解剖》《精通C指针》 &#x1f63b;欢迎关注&#xff1a;感谢大家的点赞评论关注&#xff0c;祝您学有所成&#xff01; ✨✨&#x1f49c;&#x1f49b;想要学习更多C语言深度解剖点击专栏…

AVDemo漏洞平台黑盒测试

信息收集 说明一下&#xff1a; 因为是本地的环境&#xff0c;端口这些就不扫描了&#xff0c; 还有这个是某个dalao写的平台&#xff0c;也就检测不到什么cms了&#xff0c; 信息收集&#xff0c;端口&#xff0c;cms这些是必做的&#xff0c; 首先&#xff0c;这里先简单的…

web3 ETF软件开发难点

开发一个涉及到 Web3 ETF&#xff08;Exchange-Traded Fund&#xff0c;交易所交易基金&#xff09;的软件可能会面临一些挑战和难点&#xff0c;特别是在整合 Web3 技术和金融服务方面。以下是一些可能的难点。北京木奇移动技术有限公司&#xff0c;专业的软件外包开发公司&am…