净水器 技术支持 东莞网站建设/seo算法优化

净水器 技术支持 东莞网站建设,seo算法优化,婚庆公司加盟连锁品牌,百度企业推广文章目录 前言一、Hadoop介绍1. 简介2. Hadoop发展史3. Hadoop现状 二、Hadoop特性1. Hadoop国外应用2. Hadoop国内应用 三、Hadoop架构变迁1. 发行版本2. Hadoop架构变迁(1.0-2.0变迁)3. Hadoop架构变迁(3.0新版本)4. 综述 四、技术生态体系 前言 大数据(Big Data…

文章目录

  • 前言
  • 一、Hadoop介绍
    • 1. 简介
    • 2. Hadoop发展史
    • 3. Hadoop现状
  • 二、Hadoop特性
    • 1. Hadoop国外应用
    • 2. Hadoop国内应用
  • 三、Hadoop架构变迁
    • 1. 发行版本
    • 2. Hadoop架构变迁(1.0-2.0变迁)
    • 3. Hadoop架构变迁(3.0新版本)
    • 4. 综述
  • 四、技术生态体系


前言

大数据(Big Data)

大数据(Big Data)是指无法用传统数据处理工具处理的大规模数据集合,具有数据量大、数据类型多、数据生成速度快、数据价值密度低等特点。
大数据的处理技术包括分布式存储和计算、数据清洗和转换、数据分析和可视化等。
分布式存储和计算是通过多台计算机协同工作来处理大规模数据,如Hadoop、Spark等;
数据清洗和转换是对大数据进行预处理,如数据去重、数据转换等;
数据分析和可视化是对大数据进行分析和展示,如机器学习、数据可视化等。
大数据的设计和实现需要考虑数据源、数据质量、性能、数据安全等因素。


一、Hadoop介绍

Hadoop是大数据生态圈的核心与基石,是整个大数据开发的入门。

1. 简介

狭义上Hadoop指的是Apache软件基金会的一款开源软件。

用 java语言实现,开源允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理。

Hadoop核心组件:

  • Hadoop HDFS (分布式文件存储系统):解决海量数据存储
  • Hadoop YARN (集群资源管理和任务调度框架): 解决资源任务调度
  • Hadoop MapReduce (分布式计算框架):解决海量数据计算

官网:Apache Hadoop

广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。

Hadoop生态圈

2. Hadoop发展史

  • Hadoop之父: Doug Cutting

  • Hadoop起源于Apache Lucene子项目: Nutch,Nutch的设计目标是构建一个大型的全网搜索引擎。遇到瓶颈:如何解决数十亿网页的存储和索引问题

  • Google三篇论文

《The Google file system》 :谷歌分布式文件系统GFS

《MapReduce: Simpliied Data Processing on Large Clusters》 :谷歌分布式计算框架MapReduce

《Bigtable: A Distributed Storage System for Structured Data》 :谷歌结构化数据存储系统

3. Hadoop现状

HDFS作为分布式文件存储系统,处在生态圈的底层与核心地位;

YARN作为分布式通用的集群资源管理系统和任务调度平台, 支撑各种计算引擎运行,保证了Hadoop地位;

MapReduce作为大数据生态圈第一代分布式计算引擎,由于自身设计的模型所产生的弊端, 导致企业一线几乎不再直接使用MapReduce进行编程处理,但是很多软件的底层依然在使用MapReduce引擎来处理数据。

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,主要就是解决数据存储和数据分析计算的问题(通过HDFS和MapReduce实现)。
Hive基于Hadoop的数据仓库工具,可以存储,查询,分析数据,方便决策人员和数据分析人员统计分析历史数据。
Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。

对应于Google三驾马车:
HDFS对应于GFS,即分布式文件系统;
MapReduce即并行计算框架;
HBase对应于BigTable,即分布式NoSQL列数据库。
外加Zookeeper对应于Chubby,即分布式锁设施。

二、Hadoop特性

Hadoop特性优点

1. Hadoop国外应用

  1. Yahoo
  • 支持广告系统
  • 用户行为分析
  • 支持Web搜索
  • 反垃圾邮件系统
  1. Facebook
  • 存储处理数据挖掘和日志统计
  • 构建基于Hadoop数据仓库平台(Apache Hive来自FB)
  1. IBM
  • 蓝云基础设施构建
  • 商业化Hadoop发行、解决方案支持

2. Hadoop国内应用

  1. 百度
  • 用户搜索表征的需求数据、阿拉丁爬虫数据存储
  • 数据分析和挖掘 竞价排名
  1. 阿里巴巴
  • 为电子商务网络平台提供底层的基础计算和存储服务
  • 交易数据、信用数据
  1. 腾讯
  • 用户关系数据
  • 基于Hadoop、 Hive构建TDW (腾讯分布式数据仓库)
  1. 华为
  • 对Hadoop的HA方案,以及HBase领域有深入研究

三、Hadoop架构变迁

1. 发行版本

Hadoop发行版本
Hadoop发行版本:Apache Hadoop

Apache开源社区版本:http://hadoop.apache.org/

商业发行版本:

  • Cloudera: https://www.cloudera.com/products/open-source/apache-hadoop.html
  • Hortonworks: https://www.cloudera.com/products/hdp.html

常用Apache版的Hadoop, 版本号为: 3.3.0

Hadoop版本

2. Hadoop架构变迁(1.0-2.0变迁)

Hadoop 1.0

  • HDFS (分布式文件存储)
  • MapReduce (资源管理和分布式数据处理)

Hadoop 2.0

  • HDFS (分布式文件存储)
  • MapReduce (分布式数据处理)
  • YARN (集群资源管理、任务调度)

Hadoop1.0->2.0

3. Hadoop架构变迁(3.0新版本)

Hadoop 3.0架构组件和Hadoop 2.0类似,3.0着重于性能优化。

  • 通用方面

精简内核、类路径隔离、shell脚本重构

  • Hadoop HDFS

EC纠删码、多NameNode支持

  • Hadoop MapReduce

任务本地化优化、 内存参数自动推断

  • Hadoop YARN

Timeline Service V2、队列配置

Hadoop3.0

4. 综述

① 在Hadoop1.x时代,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。

② 在Hadoop2.x时代,增加了Yarn。Yarn只负责资源的调度,MapReduce只负责运算。

③ Hadoop3.x在组成上没有什么变化。

现状:

HDFS作为分布式文件存储系统,处在生态圈的底层与核心地位;

YARN作为分布式通用的集群资源管理系统和任务调度平台, 支撑各种计算引擎运行,保证了Hadoop地位;

MapReduce作为大数据生态圈第一代分布式计算引擎,由于自身设计的模型所产生的弊端, 导致企业一线几乎不再直接使用MapReduce进行编程处理,但是很多软件的底层依然在使用MapReduce引擎来处理数据。

四、技术生态体系

大数据技术生态体系

Sqoop: Sqoop 是一款开源的工具,主要用于在 Hadoop、 Hive 与传统的数据库(MySQL)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL, Oracle 等)中的数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。

Flume: Flume 是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume 支持在日志系统中定制各类数据发送方,用于收集数据;

Kafka: Kafka 是一种高吞吐量的分布式发布订阅消息系统

Spark: Spark 是当前最流行的开源大数据内存计算框架。可以基于 Hadoop 上存储的大数据进行计算。

Flink: Flink 是当前最流行的开源大数据内存计算框架。 用于实时计算的场景较多。

Oozie: Oozie 是一个管理 Hadoop 作业(job)的工作流程调度管理系统。

Hbase: HBase 是一个分布式的、面向列的开源数据库。 HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。

Hive: Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。

ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。


本文的引用仅限自我学习如有侵权,请联系作者删除。
参考知识
Hadoop技术栈之Apache Hadoop概述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/72732.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DeepSeek 助力 Vue3 开发:打造丝滑的表格(Table)示例3: 行选择

前言:哈喽,大家好,今天给大家分享一篇文章!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 目录 Deep…

用数据唤醒深度好眠,时序数据库 TDengine 助力安提思脑科学研究

在智能医疗与脑科学快速发展的今天,高效的数据处理能力已成为突破创新的关键。安提思专注于睡眠监测与神经调控,基于人工智能和边缘计算,实现从生理体征监测、智能干预到效果评估的闭环。面对海量生理数据的存储与实时计算需求,安…

SQL_语法

1 数据库 1.1 新增 create database [if not exists] 数据库名; 1.2 删除 drop database [if exists] 数据库名; 1.3 查询 (1) 查看所有数据库 show databases; (2) 查看当前数据库下的所有表 show tables; 2 数据表 2.1 新增 (1) 创建表 create table [if not exists…

仿12306项目(4)

基本预定车票功能的开发 对于乘客购票来说,需要有每一个车次的余票信息,展示给乘客,供乘客选择,因此首个功能是余票的初始化,之后是余票查询,这两个都是控台端。对于会员端的购票,需要有余票查询…

第十二届蓝桥杯 异或数列

原题: https://www.acwing.com/problem/content/3424/ 题目大意: A、B两人的数初始值均为0,他们轮流从X数组中取数,可以将该数与自己的数或对方的数进行异或操作,A先手,当X中的数被取完的时候谁的数大谁…

高效编程指南:PyCharm与DeepSeek的完美结合

DeepSeek接入Pycharm 前几天DeepSeek的充值窗口又悄悄的开放了,这也就意味着我们又可以丝滑的使用DeepSeek的API进行各种辅助性工作了。本文我们来聊聊如何在代码编辑器中使用DeepSeek自动生成代码。 注:本文适用于所有的JetBrains开发工具&#xff0c…

项目中同时使用Redis(lettuce)和Redisson的报错

温馨提示:图片有点小,可以放大页面进行查看... 问题1:版本冲突 直接上图,这个错表示依赖版本不匹配问题,我本地SpringBoot用的是2.7,但是Redisson版本用的3.32.5。 我们通过点击 artifactId跟进去 发现它…

clickhouse安装路径

《ClickHouse安装路径指南》 大家好,今天我们将一起学习如何在电脑上找到和理解ClickHouse的安装路径。这将帮助学生、科研人员以及任何对数据库技术感兴趣的人更好地管理他们的数据查询工作。 ClickHouse是一款列式存储数据库管理系统(DBMS&#xff09…

时序数据库 InfluxDB 3.0 版本性能实测报告:写入吞吐量提升效果验证

亮点总结: TSBS 测试表明,对于少于 100 万台设备的数据集,InfluxDB OSS 3.0 的数据写入速度实际上比 InfluxDB OSS 1.8 更慢。 对于 100 万台及以上设备的数据集,InfluxDB OSS 3.0 的数据写入性能才开始超过 InfluxDB OSS 1.8。…

AS32X601双核锁步MCU技术优势分析

AS32X601是国科安芯公司研制的一系列基于32位RISC-V指令集车规级MCU处理器芯片。主频高达180MHz,支持双核锁步架构,基于软错误防护技术加持,显著提高芯片安全性能。产品具有高安全、低失效、多IO、低成本、抗辐照等特点。 一、功能安全与可靠…

基于 LeNet 网络的 MNIST 数据集图像分类

1.LeNet的原始实验数据集MNIST 名称:MNIST手写数字数据集 数据类型:灰度图 (一通道) 图像大小:28*28 类别数:10类(数字0-9) 1.通过torchvision.datasets.MNIST下载并保存到本地…

电池综合测试仪:科技赋能,精准守护能源安全

在当今这个科技日新月异的时代,电池作为众多电子设备的心脏,其性能的稳定与高效直接关系到设备的运行质量与使用安全。随着电动汽车、可穿戴设备、储能系统等领域的快速发展,对电池性能的检测与评估提出了更高要求。在此背景下,电…

实战案例分享:Android WLAN Hal层移植(MTK+QCA6696)

本文将详细介绍基于MTK平台,适配高通(Qualcomm)QCA6696芯片的Android WLAN HAL层的移植过程,包括HIDL接口定义、Wi-Fi驱动移植以及wpa_supplicant适配过程,涵盖STA与AP模式的常见问题与解决方法。 1. HIDL接口简介 HID…

Greenplum6.19集群搭建

一,安装说明 1.1环境说明 1、首先确定部署的环境,确定下服务器的端口,一般默认是22的端口; 2、当前这份文档是服务器处于10022端口下部署的(现场生产环境要求,22端口在生产环境存在安全隐患)&…

原生android 打包.aar到uniapp使用

1.原生安卓里面引入uniapp官方提供的包文件: uniapp-v8-release.aar 2.提供uniapp调用的接口,新建类文件继承UniModule, package com.dermandar.panoramal;import com.scjt.lib.certlib;import io.dcloud.feature.uniapp.annotation.UniJSM…

基于Spring Boot的高校就业招聘系统的设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导,欢迎高校老师/同行前辈交流合作✌。 技术范围:SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:…

deepseek 本地部署

deepseek 本地部署 纯新手教学,手把手5分钟带你在本地部署一个私有的deepseek,再也不用受网络影响。流畅使用deepseek!!! 如果不想看文章,指路:Deep seek R1本地部署 小白超详细教程 &#xff0…

HTML学习笔记(全)

基本结构 <!DOCTYPE html> <html> <head><meta charset"UTF-8"><title></title> </head> <body></body> </html> 基本标签元素 标题&#xff08;heading&#xff09; <h1>一级标题</h1> &…

腾讯云对象存储服务(COS)

腾讯云对象存储服务&#xff08;COS&#xff09; 安全、可扩展、低成本的云存储解决方案 腾讯云 对象存储服务&#xff08;COS&#xff0c;Cloud Object Storage&#xff09; 是一种高可靠、高性能、可扩展的云存储服务&#xff0c;专为海量非结构化数据&#xff08;如图片、…

数字孪生对于新基建的价值浅析,算是抛砖引玉。

数字孪生&#xff08;Digital Twin&#xff09;作为一项融合物理世界与数字世界的关键技术&#xff0c;在新基建中扮演着虚实协同、智能决策、全生命周期管理的核心角色&#xff0c;其价值贯穿于基础设施的设计、建设、运维到优化全流程。 一、核心价值&#xff1a;虚实映射与智…