大数据入门(一)

大数据主要要解决:海量数据的采集,存储,分析计算问题。

大数据的特点:大量(数据量大),高速(数据量的累积越来越快),多样(结构化数据和非结构化数据),低价值密度(有用的数据与总的数据量成反比)

大数据的应用场景:1、抖音基于大数据推荐你喜欢的视频

                                2、电商网站你买了一个东西后,给你推荐的周边

                                3、物流仓储:京东物流的上午下单,下午送达,或者次日达。

                                4、金融:我们用的花呗,你的额度评审。(基于你的存款,人脉,身份认证等信息)

hadoop主要解决的是:海量数据的存储以及海量数据的分析计算问题。

hadoop的主要优势

        1、高可靠性:hadoop底层维护多个数据副本,所以某个计算元或者存储出现故障,也不会导致数据的丢失。

        2、高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。

        3、高效性:hadoop是并行工作的,以加快任务的处理速度。

        4、高容错性:能够将故障节点的任务,重新分配。

hadoop 1.x ,2.x,3.x的区别

HDFS架构概述

 

YARN技术架构

 MapReduce架构概述

        1)Map阶段并行处理输入数据

        2)Reduce阶段对Map结果进行汇总

大数据技术生态体系:

 

图中涉及的技术名词解释如下:

1)Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySQL)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

2)Flume:Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;

3)Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统;

4)Spark:Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

5)Flink:Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。

6)Oozie:Oozie是一个管理Hadoop作业(job)的工作流程调度管理系统。

7)Hbase:HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。

8)Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

9)ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。

大数据推荐系统的应用示例架构图:

点点关注点点赞呀,持续发布有用的知识.................................. 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/772864.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Intellij IDEA构建Android开发环境

Intellij IDEA创建项目时没有Android的选项 进设置(Intellij IDEA - Settings - Plugins ) 再次创建项目可以看到Android的选项 解决Android导入项目时Gradle下载速度慢/超时/失败

HCIP —— 多生成树 (MSTP)

MSTP --- Multiple Spanning Tree Protocol --- 802.1s 在 MSTP 中 ,提出了实例的概念,相当于可用让多个VLAN同时属于一个实例,然后只需要一个实例生成一棵树。 --- 一种 VLAN 分流的思想 实例ID :instance ID 由 12位 二进制…

windows安装tomcat

安装之前需要安装jdk1.8可以参考windows安装jdk1.8-CSDN博客 一、下载tomcat Apache Tomcat - Apache Tomcat 8 Software Downloads 解压到D盘的D:\Program Files\tomcat目录下 二、配置环境变量 电脑右键属性-高级系统设置-高级-环境变量 1、在系统变量配置CATALINA_HOME环…

掌握ES6的箭头函数:深入了解其实用性与规则

引言 ES6(ECMAScript 2015)引入了箭头函数,这是一种新的函数声明方式,它改变了我们编写JavaScript代码的方式。箭头函数提供了更简洁、更直观的语法,并且具有一些独特的特性和行为。本文将深入探讨箭头函数的规则、用…

【分布式】——降级熔断限流

降级&熔断&限流 ⭐⭐⭐⭐⭐⭐ Github主页👉https://github.com/A-BigTree 笔记仓库👉https://github.com/A-BigTree/tree-learning-notes 个人主页👉https://www.abigtree.top ⭐⭐⭐⭐⭐⭐ 如果可以,麻烦各位看官顺手点…

mysqldump 备份与恢复

1. mysqldump 简介 mysqldump 是 MySQL 提供的一个命令行工具,用于备份 MySQL 数据库的结构和数据。它能够生成一个包含 SQL 语句的文本文件,以便在需要时恢复数据库。 2. mysqldump 备份数据库 要备份一个或多个数据库,可以使用 mysqldum…

uniApp中使用小程序XR-Frame创建3D场景(2)加载模型

上篇文章讲述了如何将XR-Frame作为子组件集成到uniApp中使用,只完成了简单的环境搭建,这篇文章讲解如何加载3D模型。 1 加入模型加载标签 在XR-Frame框架中,加载资源都是在wxml文件的标签中实现的。下面是wxml中完整的代码 index.wxml &l…

PC电脑技巧[笔记本通过网线访问设备CMW500]

笔记本局域网访问设备 现在我有一台CMW500,我要用笔记本去访问它,但是我发现没有路由器就是不能够访问,通过网线连接设备就是ping不通: 这里设置TCP/IPv4的IP地址如下,这时候就可以pin通了:

论文篇05-论文范文-论数据访问层设计技术及其应用(2024年软考高级系统架构设计师冲刺知识点总结系列文章)

试题:论数据访问层设计技术及其应用 在信息系统的开发与建设中,分层设计是一种常见的架构设计方法,区分层次的目的是为了实现“高内聚低耦合”的思想。分层设计能有效简化系统复杂性,使设计结构清晰,便于提高复用能力和产品维护能力。一种常见的层次划分模型是将信息系统分…

nRF52832——定时器 TIME

nRF52832——定时器 TIME 原理分析定时器定时功能寄存器方式定时器库函数版本使用 定时器计数功能计数器寄存器方式计数器库函数方式 原理分析 和其他 MCU 处理器一样,在 nRF52832 中定时器的功能是十分强大的。其内部包含了 5 个定 时器 TIMER 模块:TIMER0、TIMER…

windows下的vscode + opencv4.8.0(C++) 配置

1.添加环境变量 D:\mingw64\bin 2.安装vscode 3.下载opencv 4.8.0 4.程序引用第三方库(opencv为例) 打开CMakeLists.txt,引入头文件,使用include_directories 加入头文件所在目录。静态链接库link_directories # 头文件 include_directories(D:/ope…

搭建 Apple Mac M1 stm32 开发环境

近期想学习 stm32 开发,看了些书和视频,买了开发板。开发板到了后就迫不及待的的进行尝试。由于我目前使用的电脑是 Apple M1 Pro,目前用的比较多的是 windows + keil。我先是在 mac 使用虚拟机,安装 win 环境来使用,但是我分别使用了 VMware 和 parallels desktop ,keil…

API成网络攻击常见载体,如何确保API安全?

根据Imperva发布的《2024年API安全状况报告》,API成为网络攻击者的常见载体,这是因为大部分互联网流量(71%)都是API调用,API是访问敏感数据的直接途径。根据安全公司Fastly的一项调查显示,95%的企业在过去1…

STM32之HAL开发——串口配置(源码)

串口收发原理框图(F1系列) 注意:数据寄存器有俩个一个是收一个是发,但是在标准库或者HAL库中没有特别区分开来是俩个寄存器! USART 初始化结构体详解 HAL 库函数对每个外设都建立了一个初始化结构体,比如 …

标题:深入理解 ES6 中的变量声明:let、var 和 const

在 ES6(ECMAScript 6)语法中,新增了let和const关键字来声明变量,这为 JavaScript 变量的作用域和声明方式带来了一些重要的改进。在这篇博客中,我们将深入探讨let、var和const之间的区别,并了解它们如何影响…

I/O(输入/输出流的概述)

文章目录 前言一、流的概述二、输入/输出流 1.字节/字符输入流2.字节/字符输出流总结 前言 在变量、数组和对象中储存的数据是暂时的,程序结束后它们就会丢失。如果想要永久地储存程序创建的数据,需要将其保存在磁盘文件中,这样就可以在程序中…

C#_事件_多线程(基础)

文章目录 事件通过事件使用委托 多线程(基础)进程:线程: 多线程线程生命周期主线程Thread 类中的属性和方法创建线程管理线程销毁线程 昨天习题答案 事件 事件(Event)本质上来讲是一种特殊的多播委托,只能从声明它的类中进行调用,基本上说是…

MyBatis-Plus分页接口实现教程:Spring Boot中如何编写分页查询

🌟 前言 欢迎来到我的技术小宇宙!🌌 这里不仅是我记录技术点滴的后花园,也是我分享学习心得和项目经验的乐园。📚 无论你是技术小白还是资深大牛,这里总有一些内容能触动你的好奇心。🔍 &#x…

Unity VisionOS开发流程

Unity开发环境 Unity Pro, Unity Enterprise and Unity Industry 国际版 Mac Unity Editor(Apple silicon) visionOS Build Support (experimental) 实验版 Unity 2022.3.11f1 NOTE: 国际版与国服版Pro账通用,需要激活Pro的许可证。官方模板v0.6.2,非Pro版本会打…

稀碎从零算法笔记Day29-LeetCode:单词拆分

死磕dp的第二天了 题型:dp,字符串,二维数组,背包类 链接:139. 单词拆分 - 力扣(LeetCode) 来源:LeetCode 题目描述 给你一个字符串 s 和一个字符串列表 wordDict 作为字典。如果…