mapreduce实现bean的序列化与反序列化

目录

序列化(Serialization)

反序列化(Deserialization)

事例操作 

UserSale

  重写序列化方法

重写反序列化

 重写toString方法

SaleMapper

SaleReducer

SaleDriver


序列化(Serialization)

        序列化是将Java对象转换成字节流的过程,使得对象可以被存储到磁盘上或通过网络进行传输。在Hadoop中,这个过程特别关键,因为数据经常需要在网络间传递(例如,从Map任务到Reduce任务),或者存储到HDFS上。Hadoop自定义了一套序列化机制——Writable接口,任何需要进行序列化的类都必须实现这个接口。实现Writable接口的类需要重写两个方法:write(DataOutput out)readFields(DataInput in)。前者负责将对象的状态(即成员变量的值)写入到DataOutput流中;后者则从DataInput流中读取字节并恢复对象状态。

反序列化(Deserialization)

        反序列化则是序列化的逆过程,即将字节流转换回Java对象。在Hadoop中,当数据从网络接收或从HDFS读取后,需要通过反序列化恢复成原始的Java对象,以便程序能够进一步处理这些数据。利用前面提到的readFields(DataInput in)方法,Hadoop可以从输入流中重建对象实例。

 Hadoop选择了自定义Writable接口,主要出于以下考虑:

  1. 性能:Hadoop的Writable接口设计得更加轻量级和高效,特别适合大规模数据处理,减少序列化和反序列化过程中的开销。
  2. 紧凑性:Writable接口能够生成更紧凑的二进制格式,节省存储空间和网络带宽。
  3. 可移植性:Hadoop集群可能包含不同版本的Java或运行在不同的操作系统上,自定义序列化机制保证了跨平台的一致性。

事例操作 

使用自定义对象,实现对用户购买商品总额的计算

入口文件示例

UserSale

实现Hadoop的Writable接口

public class UserSale implements Writable {
//销售idprivate int saleId;//用户名称private String username;//用户性别private String sex;//商品名称private String goodsName;//商品单价private  int price;//购买数量private  int saleCount;//购买总价private  int totalPrice;

 记得得有空参构造

public UserSale() {}
  重写序列化方法
 //重写序列化方法@Overridepublic void write(DataOutput out) throws IOException {out.writeInt(saleId);out.writeUTF(username);out.writeUTF(sex);out.writeUTF(goodsName);out.writeInt(price);out.writeInt(saleCount);out.writeInt(totalPrice);}
重写反序列化

顺序和序列化的顺序一样

   @Overridepublic void readFields(DataInput in) throws IOException {this.saleId = in.readInt();this.username = in.readUTF();this.sex = in.readUTF();this.goodsName = in.readUTF();this.price = in.readInt();this.saleCount = in.readInt();this.totalPrice = in.readInt();}
 重写toString方法
reduce阶段的输出的格式
//重写toString方法//最终输出到文件的value@Overridepublic String toString() {return " " + totalPrice;}

 get,set方法,以及定义totalPrice的构造方法

    public void setTotalPrice(int totalPrice) {this.totalPrice = totalPrice;}public void setTotalPrice(){this.totalPrice = this.price*this.saleCount;}

SaleMapper

package com.igeekhome.mapreduce.sale;import com.igeekhome.mapreduce.model.UserSale;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class SaleMapper extends Mapper<LongWritable, Text, Text, UserSale>{//创建输出key对象private Text keyOut = new Text();//创建输出valueUserSale valueOut = new UserSale();@Overrideprotected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, UserSale>.Context context) throws IOException, InterruptedException {//获取一行数据String line = value.toString();//根据分隔符拆解数据String[] saleDetails = line.split(",");//封装对象valueOut.setSaleId(Integer.parseInt(saleDetails[0]));valueOut.setUsername(saleDetails[1]);valueOut.setSex(saleDetails[2]);valueOut.setGoodsName(saleDetails[3]);valueOut.setPrice(Integer.parseInt(saleDetails[4]));valueOut.setSaleCount(Integer.parseInt(saleDetails[5]));//赋值keyOut.set(valueOut.getUsername());//计算总价valueOut.setTotalPrice();System.out.println(keyOut+"+"+valueOut);//map阶段的输出context.write(keyOut,valueOut);}
}

 其中

Mapper<LongWritable, Text, Text, UserSale>

分别表示

LongWritable:map阶段输入的key类型,一行文本的偏移量

Text:map阶段输入的value类型,表示一行文本中的内容

Text: map阶段输出的key类型 ,表示一个单词

UserSale :map阶段输出的value类型,这里是UserSale对象

SaleReducer

新建reduce阶段输出的alue

reduce()方法的调用次数 是由kv键值对中有多少不同的key决定的

比如此时小明的两条数据进入Reducer,for循环执行的是这两条数据里的总价相加

package com.igeekhome.mapreduce.sale;import com.igeekhome.mapreduce.model.UserSale;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;public class SaleReducer extends Reducer<Text, UserSale,Text, UserSale> {//新建reduce阶段输出的alue//reduce()方法的调用次数 是由kv键值对中有多少不同的key决定的private UserSale valueOut = new UserSale();@Overrideprotected void reduce(Text key, Iterable<UserSale> values, Reducer<Text, UserSale, Text, UserSale>.Context context) throws IOException, InterruptedException {//定义一个用户的订单int sumTotalPrice = 0;for (UserSale userSale : values) {//获取一个订单中的总价int totalPrice = userSale.getTotalPrice();valueOut.setSex(userSale.getSex());//进行累加sumTotalPrice +=totalPrice;}//设置在结果文件终端输出valueOut.setTotalPrice(sumTotalPrice);System.out.println("reduce" +valueOut);//reduce阶段的输出context.write(key,valueOut);}
}

Reducer<Text, UserSale,Text, UserSale>

Text:reduce阶段的输入key类型, 即map阶段输出key类型,表示用户名

UserSale:reduce阶段的输入value类型,即map阶段输出value类型,表示用户对象

Text:reduce阶段的输出key类型,表示用户名

UserSale:reduce阶段的输出value类型,表示用户对象,实际上输出的是totalPrice(因为toString方法的重写)

SaleDriver

package com.igeekhome.mapreduce.sale;import com.igeekhome.mapreduce.model.UserSale;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.io.IOException;public class SaleDriver {public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {//1.获取配置对象和job对象Configuration conf = new Configuration();Job job = Job.getInstance(conf);//2.设置Driver类对象job.setJarByClass(SaleDriver.class);//3.设置mapper和reducer类对象job.setMapperClass(SaleMapper.class);job.setReducerClass(SaleReducer.class);//4.设置map阶段输出的kv对象job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(UserSale.class);//5.设置最终输出的kv类对象job.setOutputKeyClass(Text.class);job.setOutputValueClass(UserSale.class);//6.设置读取文件的路径 和 输出文件的路径FileInputFormat.setInputPaths(job,new Path("D:\\code\\sale_details (1).txt"));FileOutputFormat.setOutputPath(job,new Path("D:\\code\\output"));//7.提交jobboolean result = job.waitForCompletion(true);System.out.println(result?"计算成功":"计算失败");}}

之后的分区操作mapreduce分区icon-default.png?t=N7T8https://blog.csdn.net/m0_74934794/article/details/139991018?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22139991018%22%2C%22source%22%3A%22m0_74934794%22%7D

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/39657.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【后端面试题】【中间件】【NoSQL】MongoDB的配置服务器、复制机制、写入语义和面试准备

MongoDB的配置服务器 引入了分片机制之后&#xff0c;MongoDB启用了配置服务器(config server) 来存储元数据&#xff0c;这些元数据包括分片信息、权限控制信息&#xff0c;用来控制分布式锁。其中分片信息还会被负责执行查询mongos使用。 MongoDB的配置服务器有一个很大的优…

WPF----自定义滚动条ScrollViewer

滚动条是项目当中经常用到的一个控件&#xff0c;大部分对外项目都有外观的需求&#xff0c;因此需要自定义&#xff0c;文中主要是针对一段动态的状态数据进行展示&#xff0c;并保证数据始终在最新一条&#xff0c;就是需要滚动条滚动到底部。 1&#xff0c;xaml中引入 <…

zxing-cpp+OpenCV根据字符串生成条形码

编译构建 需要使用到 CMake、Git、GCC 或 MSVC。 github 链接&#xff1a;https://github.com/zxing-cpp/zxing-cpp 编译之前请确保&#xff1a; 确保安装了 CMake 版本 3.15 或更高版本。 确保安装了与 C17 兼容的编译器(最低VS 2019 16.8 / gcc 7 / clang 5)。 编译构建…

Python面试宝典第4题:环形链表

题目 给你一个链表的头节点 head &#xff0c;判断链表中是否有环。如果存在环 &#xff0c;则返回 true 。 否则&#xff0c;返回 false 。 如果链表中有某个节点&#xff0c;可以通过连续跟踪 next 指针再次到达&#xff0c;则链表中存在环。 为了表示给定链表中的环&#xf…

重写父类方法、创建单例对象 题目

题目 JAVA27 重写父类方法分析&#xff1a;代码&#xff1a; JAVA28 创建单例对象分析&#xff1a;代码&#xff1a; JAVA27 重写父类方法 描述 父类Base中定义了若干get方法&#xff0c;以及一个sum方法&#xff0c;sum方法是对一组数字的求和。请在子类 Sub 中重写 getX() 方…

AI智能体|AI打工我躺平!使用扣子Coze智能体自动生成和发布文章到微信公众号(一)

大家好&#xff0c;我是无界生长&#xff0c;国内最大AI付费社群“AI破局俱乐部”初创合伙人。这是我的第 44 篇原创文章——《AI智能体&#xff5c;AI打工我躺平&#xff01;使用扣子Coze智能体自动生成和发布文章到微信公众号&#xff08;一&#xff09;》 AI智能体&#xf…

《涅朵奇卡:一个女人的一生》读后感

这周的计划是看完海明威的《丧钟为谁而鸣》&#xff0c;但是因为下班晚&#xff0c;而且书的体量大&#xff0c;所以只看了一半。本来以为这周的阅读计划完不成了&#xff0c;不料昨天加完班后拿起新到的《涅朵奇卡&#xff1a;一个女人的一生》&#xff0c;不自觉就陷进去了&a…

端口聚合基础知识

一、什么是端口聚合 端口聚合是将多个物理端口捆绑在一起&#xff0c;形成一个逻辑链路&#xff0c;以实现带宽增加、提高冗余和负载均衡的技术。端口聚合&#xff0c;也称为以太通道&#xff08;Ethernet Channel&#xff09;&#xff0c;主要用于交换机之间的连接。在具有多…

开发数字药店APP实战:互联网医院系统源码详解

本篇文章&#xff0c;笔者将深入探讨如何开发一个功能完善的数字药店APP&#xff0c;并详细解析互联网医院系统的源码实现。 一、数字药店APP的需求分析 应具备以下基本功能&#xff1a; 用户注册与登录 药品搜索与浏览 在线下单与支付 订单管理 健康咨询与远程医疗 个人…

partition()方法——分割字符串为元组

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 语法参考 partition()方法根据指定的分隔符将字符串进行分割。如果字符串中包含指定的分隔符&#xff0c;则返回一个3元的元组&#xff0c;第一个为…

Perl 语言开发(四):条件语句

目录 1. 概述 2. if 语句 3. else 语句 4. elsif 语句 5. unless 语句 6. 嵌套条件语句 7. 三元运算符 8. 智能匹配运算符 9. given-when 语句 10. 条件修饰符 11. 高级条件语句应用 11.1 数据验证 11.2 配置文件解析 11.3 异常处理 12. 条件语句的最佳实践 12…

Spring Boot+Mybatis Plus 使用Redis实现二级缓存具体步骤以及代码

下面是使用Spring BootMybatis Plus和Redis实现二级缓存的具体步骤和代码示例&#xff1a; 1. 首先&#xff0c;确保你已经添加了Spring Boot、Mybatis Plus和Redis的依赖。 2. 在Spring Boot的配置文件中添加Redis的配置&#xff0c;如下所示&#xff1a; yaml spring: r…

wordpress:更新网站域名后后页面无法访问,页面媒体文件异常(已解决)

WordPress 在数据库中存储了许多配置信息,包括网站的域名。如果更新了域名,但数据库中的旧域名没有更新,WordPress 将无法正确生成页面链接或重定向访问请求。 一、更新域名 在wp-config.php 文件中,添加或更新你的新域名! define(WP_HOME, http://172.18.214.195:32520…

Linux_fileio学习

参考韦东山老师教程&#xff1a;https://www.bilibili.com/video/BV1kk4y117Tu?p12 目录 1. 文件IO函数分类2. 函数原型2.1 系统调用接口2.2 标准IO接口 3. fileio内部机制3.1 系统调用接口内部流程3.1 dup函数使用3.2 dup2函数使用 4. open file4.1 open实例4.2 open函数分析…

Cocos如何跟Android通信?

点击上方亿元程序员+关注和★星标 引言 Cocos如何跟Android通信 大家好,相信小伙伴们通过阅读笔者前几期的文章**《Cocos打安卓包打不出来?看看这个》,对Cocos**如何打安卓包有了一定的了解。 但是,除了把安卓包打出来,另外还有一个重要的就是要能够调用安卓提供的Java方…

华为HCIP Datacom H12-821 卷21

1.单选题 以下关于PIM-SM中SPT切换的描述,错误的是哪一项? A、若所有组播流量都经过RP路由器,则RP路由器可能成为数据转发的瓶颈 B、SPT路径最短,转发性能更优 C、SPT 切换完成后,组播流量依然经过 ReT 树 D、RPT 树可能不是组播流量转发的最优路径 正确答案: C 解析…

【AI原理解析】—K近邻(KNN)原理

目录 一、算法概述 二、算法原理 1. 数据集准备 2. 输入新数据 3. 距离计算 4. 选择K个最近邻 5. 预测 三、关键要素 1. K值的选择 2. 距离度量方法 3. 数据预处理 四、算法优缺点 优点 缺点 五、总结 KNN&#xff08;K-Nearest Neighbors&#xff0c;K最近邻&a…

[教程]Gitee保姆级图文使用教程

我们在日常的工作过程中经常会遇到&#xff0c;家里和公司资料文件同步的问题&#xff0c;以及项目开发过程中的协作问题。Git就完美的解决了这些问题&#xff0c;但是由于 Git国外服务器的原因平时网络太慢了&#xff0c;不过还好有国内的托管平台Gitee&#xff08;码云&#…

「C++系列」C++ 变量类型

文章目录 一、C 变量类型1. 基本数据类型2. 复合数据类型3. 类型修饰符 二、C 变量定义案例 1: 基本类型变量的定义和初始化案例 2: 数组的定义和使用案例 3: 结构体&#xff08;Struct&#xff09;的定义和使用案例 4: 指针的定义和使用案例 5: 类的定义和使用&#xff08;面向…

五、removeClosedPointCloud

五、removeClosedPointCloud 主要功能: removeClosedPointCloud 函数用于过滤掉点云中距离传感器(例如激光雷达)太近的点。这些点可能会引入噪声或不利于后续的点云处理和分析。函数通过比较每个点与传感器之间的距离,移除那些距离小于设定阈值 minimumRange 的点。 计算…