大数据学习(07)--MapReduce

文章目录

  • 目录
    • 1.MapReduce介绍
      • 1.1 什么是分布式并行编程?
      • 1.2 MapReduce模型介绍
      • 1.3 map和reduce函数
    • 2.MapReduce体系架构
    • 3.MapReduce工作流程
      • 3.1 概述
      • 3.2 MapReduce各个阶段介绍
      • 3.3 shuffle过程介绍
        • 3.3.1 shuffle过程简介
        • 3.3.2 map中的shuffle过程
        • 3.3.3 reduce中的shuffle过程
        • 3.3.4 MapReduce应用程序执行过程
    • 4.MapReduce具体应用
      • 4.1 wordCount
        • 4.1.1 程序的任务
        • 4.1.2 设计思路
        • 4.1.3 执行过程
      • 4.2 关系表的自然连接
    • 5.MapReduce编程实践
      • 5.1 任务
      • 5.2 编写map处理逻辑
      • 5.3 编写reduce处理逻辑
      • 5.4 编写main方法
      • 5.5 打包编译程序
      • 5.6MapReduce中执行MapReduce其他方法
    • 6.总结

目录

1.MapReduce介绍

1.1 什么是分布式并行编程?

在这里插入图片描述

传统的并行计算框架:cuda,MPI,OPENMP等等
参考博客

1.2 MapReduce模型介绍

在这里插入图片描述

1.3 map和reduce函数

在这里插入图片描述

结合操作:对键相同的数据的值进行相加
归并操作:对键相同的数据的值组合成一个数组

2.MapReduce体系架构

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.MapReduce工作流程

3.1 概述

在这里插入图片描述

3.2 MapReduce各个阶段介绍

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.3 shuffle过程介绍

3.3.1 shuffle过程简介

在这里插入图片描述

3.3.2 map中的shuffle过程

在这里插入图片描述

3.3.3 reduce中的shuffle过程

在这里插入图片描述

3.3.4 MapReduce应用程序执行过程

在这里插入图片描述

map和reduce执行过程中产生的数据都是存储在其本地计算机内部,这样可以避免频繁的通信造成的延迟和不必要的错误。

4.MapReduce具体应用

4.1 wordCount

4.1.1 程序的任务

在这里插入图片描述

4.1.2 设计思路

在这里插入图片描述

只要问题可以满足分治的思想解决的,都可以使用MapReduce程序解决
在这里插入图片描述

4.1.3 执行过程

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.2 关系表的自然连接

在这里插入图片描述
在这里插入图片描述

5.MapReduce编程实践

参考博客

5.1 任务

在这里插入图片描述

5.2 编写map处理逻辑

在这里插入图片描述

5.3 编写reduce处理逻辑

在这里插入图片描述
在这里插入图片描述

5.4 编写main方法

在这里插入图片描述
完整代码
在这里插入图片描述
在这里插入图片描述

5.5 打包编译程序

在这里插入图片描述

5.6MapReduce中执行MapReduce其他方法

在这里插入图片描述

6.总结

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/445240.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关闭用playsound函数的WAV文件

播放声音文件 PlaySound函数应用 1.关闭用playsound函数的WAV文件 PlaySound(0,NULL,0);即可 // test2.cpp : Defines the entry point for the application.//#include "stdafx.h"#include <mmsystem.h>int APIENTRY WinMain(HINSTANCE hInstance, …

身份验证

传统身份验证的方法 HTTP 是一种没有状态的协议&#xff0c;也就是它并不知道是谁是访问应用。这里我们把用户看成是客户端&#xff0c;客户端使用用户名还有密码通过了身份验证&#xff0c;不过下回这个客户端再发送请求时候&#xff0c;还得再验证一下。 解决的方法就是&…

Pytorch(4)-模型保存-载入-eval()

模型保存与提取1. 整个模型 保存-载入2. 仅模型参数 保存-载入3. GPU/CPU模型保存与导入4. net.eval()--固定模型随机项神经网络模型在线训练完之后需要保存下来&#xff0c;以便下次使用时可以直接导入已经训练好的模型。pytorch 提供两种方式保存模型:方式1&#xff1a;保存整…

大数据学习(08)--Hadoop中的数据仓库Hive

文章目录目录1.什么是数据仓库&#xff1f;1.1数据仓库概念1.2传统数据仓库面临的挑战1.3 Hive介绍1.4 Hive与传统数据库的对比1.5 Hive在企业中的部署与应用2.Hive系统架构3.Hive工作原理3.1 SQL转换为MapReduce作业的基本原理3.2 Hive中SQL查询转换MapReduce作业的过程4.Hive…

dubbo知识点总结 持续更新

Dubbo 支持哪些协议&#xff0c;每种协议的应用场景&#xff0c;优缺点&#xff1f;  dubbo&#xff1a; 单一长连接和 NIO 异步通讯&#xff0c;适合大并发小数据量的服务调用&#xff0c; 以及消费者远大于提供者。传输协议 TCP&#xff0c;异步&#xff0c;Hessian 序列化…

使用Linux auto Makefile自动生成的运行步骤

首先创建一个 Linux Makefile.am.这一步是创建Linux Makefile很重要的一步&#xff0c;automake要用的脚本配置文件是Linux Makefile.am&#xff0c;用户需要自己创建相应的文件。之后&#xff0c;automake工具转换成Linux Makefile.in。AD&#xff1a; 在向大家详细介绍Linux …

无限踩坑系列(6)-mySQL数据库链接错误

mySQL数据库链接错误错误1错误2长链接短连接应用场景需要一直访问mySQL数据库&#xff0c;遇到如下错误&#xff1a;错误1 释放已经释放的数据库链接conn.&#xff0c;或者&#xff0c;操作已经释放的数据库链接conn.或者失去链接后再操作数据库都可能会报这个错误 aise err.I…

初探函数式编程和面对对象式编程

文章目录目录1.函数式编程和面向对象编程概念1.1 函数式编程1.2 面向对象编程2.函数式编程和面向对象编程的优缺点2.1 函数式编程优点缺点2.2 面对对象编程优点缺点3.为什么在并行计算中函数式编程比较好3.1 什么是并行计算3.2 函数式编程兴起原因目录 1.函数式编程和面向对象…

linux常用解压和压缩文件的命令

linux常用解压和压缩文件的命令 .tar 解包&#xff1a;tar xvf FileName.tar打包&#xff1a;tar cvf FileName.tar DirName&#xff08;注&#xff1a;tar是打包&#xff0c;不是压缩&#xff01;&#xff09;———————————————.gz解压1&#xff1a;gunzip FileN…

Python外(4)-读写mat文件

读写mat文件1.读取2.写入.mat 是matlab中数据存储的标准格式&#xff0c;Python中能够通过库scipy读取和保存。导入scipy库 from scipy import io 1.读取 io.loadmat(file_name, mdictNone, appendmatTrue, **kwargs) 简便方式&#xff1a; io.loadmat(file_name) append mat–…

Linux下的xml文件的创建

创建一个xml文档流程如下&#xff1a; l 用xmlNewDoc函数创建一个文档指针doc&#xff1b; l 用xmlNewNode函数创建一个节点指针root_node&#xff1b; l 用xmlDocSetRootElement将root_node设置为doc的根结点&#xff1b; l 给root_node添加一系列的子节点&#x…

压力测试http_load 通过修改配置测试https协议成功了。

到http://www.acme.com/software/http_load/ 下载http_load &#xff0c;安装也很简单直接make;make instlall 就行。 如果你需要测试https&#xff0c;你必须将 Makefile中 # CONFIGURE: If you want to compile in support for https, uncomment these # definitions. You w…

面向对象设计与分析40讲(16)静态工厂方法模式

前面我们介绍了简单工厂模式&#xff0c;在创建对象前&#xff0c;我们需要先创建工厂&#xff0c;然后再通过工厂去创建产品。 如果将工厂的创建方法static化&#xff0c;那么无需创建工厂即可通过静态方法直接调用的方式创建产品&#xff1a; // 工厂类&#xff0c;定义了静…

搜索详解

搜索 一.dfs和bfs简介 深度优先遍历(dfs) 本质&#xff1a; 遍历每一个点。 遍历流程&#xff1a; 从起点开始&#xff0c;在其一条分支上一条路走到黑&#xff0c;走不通了就往回走&#xff0c;只要当前有分支就继续往下走&#xff0c;直到将所有的点遍历一遍。 剪枝&a…

Python外(5)-for-enumerate()-zip()

for循环小技巧技巧1&#xff1a;enumerate()技巧2&#xff1a;打包两个可遍历数据&#xff0c;一起循环-zip()技巧1&#xff1a;enumerate() 在使用pytorch训练网络的过程中&#xff0c;官方教程给出了 for i, data in enumerate(trainloader, 0): 这涉及到enumerate函数的使用…

特征工程总结

目录1 特征工程是什么&#xff1f; 2 数据预处理   2.1 无量纲化     2.1.1 标准化     2.1.2 区间缩放法     2.1.3 标准化与归一化的区别   2.2 对定量特征二值化   2.3 对定性特征哑编码   2.4 缺失值计算   2.5 数据变换 3 特征选择   3.1 Filter …

Jmeter测试并发https请求成功了

Jmeter2.4 如何测试多个并发https请求&#xff0c;终于成功了借此机会分享给大家 首先要安装jmeter2.4版本的&#xff0c;而且不建议大家使用badboy&#xff0c;因为这存在兼容性问题。对于安装&#xff0c;我就不讲了&#xff0c;我就说说如何测试https&#xff0c;想必大家都…

关系数据库——sql基础1定义

关系数据库标准语言SQL 基本概念 SQL语言是一个功能极强的关系数据库语言。同时也是一种介于关系代数与关系演算之间的结构化查询语言&#xff08;Structured Query Language&#xff09;&#xff0c;其功能包括数据定义、数据查询、数据操纵和数据控制。 SQL的特点&#xff…

libcurl编程

一、curl简介 curl是一个利用URL语法在命令行方式下工作的文件传输工具。它支持的协议有&#xff1a;FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE 以及 LDAP。curl同样支持HTTPS认证&#xff0c;HTTP POST方法, HTTP PUT方法, FTP上传, kerberos认证, HTTP上传, 代理服…

大数据学习(09)--Hadoop2.0介绍

文章目录目录1.Hadoop的发展与优化1.1 Hadoop1.0 的不足与局限1.2 Hadoop2.0 的改进与提升2.HDFS2.0 的新特性2.1 HDFS HA2.2 HDFS Federation3. 新一代的资源管理器YARN3.1 MapReduce1.0 缺陷3.2 YARN的设计思路3.3 YARN 体系结构3.4 YARN工作流程3.5 YARN框架与MapReduce1.0框…