java序列化写法_java-spark的各种常用算子的写法

通常写spark的程序用scala比较方便,毕竟spark的源码就是用scala写的。然而,目前java开发者特别多,尤其进行数据对接、上线服务的时候,这时候,就需要掌握一些spark在java中的使用方法了

一、map

map在进行数据处理、转换的时候,不能更常用了

在使用map之前 首先要定义一个转换的函数 格式如下:

Function transForm =new Function() {//String是某一行的输入类型 LabeledPoint是转换后的输出类型@Overridepublic LabeledPoint call(String row)throws Exception {//重写call方法String[] rowArr = row.split(",");int rowSize = rowArr.length; double[] doubleArr =new double[rowSize-1]; //除了第一位的lable外 其余的部分解析成double 然后放到数组中for (int i =1; i < rowSize; i++) {String each = rowArr[i];doubleArr[i] = Double.parseDouble(each);} //用刚才得到的数据 转成向量Vector feature = Vectors.dense(doubleArr);double label = Double.parseDouble(rowArr[0]);//构造用于分类训练的数据格式 LabelPointLabeledPoint point =new LabeledPoint(label, feature);return point;}};

需要特别注意的是:

1、call方法的输入应该是转换之前的数据行的类型  返回值应是处理之后的数据行类型

2、如果转换方法中调用了自定义的类,注意该类名必须实现序列化 比如12public class TreeEnsembleimplements Serializable {}

3、转换函数中如果调用了某些类的对象,比如该方法需要调用外部的一个参数,或者数值处理模型(标准化,归一化等),则该对象需要声明是final

然后就是在合适的时候调用该转换函数了

1JavaRDD rdd = oriData.toJavaRDD().map(transForm);

这种方式是需要将普通的rdd转成javaRDD才能使用的,转成javaRDD的这一步操作不耗时,不用担心

二、filter

在避免数据出现空值、0等场景中也非常常用,可以满足sql中where的功能

这里首先也是要定义一个函数,该函数给定数据行 返回布尔值 实际效果是将返回为true的数据保留Function boolFilter =new Function() {//String是某一行的输入类型 Boolean是对应的输出类型 用于判断数据是否保留@Overridepublic Boolean call(String row)throws Exception {//重写call方法boolean flag = row!=null;return flag;}};

通常该函数实际使用中需要修改的仅仅是row的类型 也就是数据行的输入类型,和上面的转换函数不同,此call方法的返回值应是固定为Boolean

然后是调用方式

1JavaRDD rdd = oriData.toJavaRDD().filter(boolFilter);

三、mapToPair

该方法和map方法有一些类似,也是对数据进行一些转换。不过此函数输入一行 输出的是一个元组,最常用的方法是用来做交叉验证 或者统计错误率 召回率 计算AUC等等

同样,需要先定义一个转换函数Function transformer =new PairFunction() {//LabeledPoint是输入类型 后面的两个Object不要改动@Overridepublic Tuple2 call(LabeledPoint row)throws Exception {//重写call方法 通常只改动输入参数 输出不要改动double predicton = thismodel.predict(row.features());double label = row.label();return new Tuple2(predicton, label);}});

关于调用的类、类的对象,要求和之前的一致,类需要实现序列化,类的对象需要声明成final类型

相应的调用如下:1JavaPairRDD predictionsAndLabels = oriData.mapToPair(transformer);

然后对该predictionsAndLabels的使用,计算准确率、召回率、精准率、AUC,接下来的博客中会有,敬请期待

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/429372.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python 如何在一个for循环中遍历两个列表

是我在看《笨方法学python》过程中发现有一行代码看不懂——“ for sentence in snippet, phrase:”&#xff0c;所以研究了半天&#xff0c;感觉挺有收获的。所以就放在博客上分享给大家了。 直入主题&#xff1a; 为了不耽误大家时间&#xff0c;如果知道以下为两段代码为什么…

画王八java代码参数_java画乌龟源代码-郭遥航.doc

java画乌龟源代码-郭遥航.doc /*JAVA基本功小练习用java语言描述小王八用鼠标可以拖动小乌龟进行移动选中乌龟时可以显示小乌龟的腹面*/importjava.awt.*;importjavax.swing.*;importjava.awt.event.MouseMotionListener;importjava.awt.event.MouseListener;importjava.awt.ev…

Longest Substring With At Most K Distinct Characters

Given a string, find the length of the longest substring T that contains at most k distinct characters. For example, Given s “eceba” and k 2, T is "ece" which its length is 3. Analyses: Map each character in the string into a index in an arra…

java不同环境_Spring Boot系列 – 5. 不同的环境使用不同的配置

SpringBoot系列-5.不同的环境使用不同的配置数据库spring boot中&#xff0c;可以通过在application.yml配置文件中&#xff0c;配置多个不同的profile&#xff0c;实现在不同的环境(比如开发、测试和生产环境)使用不同的配置变量。具体配置如下(application.yml中的内容)&…

SQL Server的WAITFOR DELAY注入

SQL Server的WAITFOR DELAY注入WAITFOR是SQL Server中Transact-SQL提供的一个流程控制语句。它的作用就是等待特定时间&#xff0c;然后继续执行后续的语句。它包含一个参数DELAY&#xff0c;用来指定等待的时间。如果将该语句成功注入后&#xff0c;会造成数据库返回记录和Web…

java服务注册中心有哪些_Spring Cloud服务注册中心简述

概念当一个大型系统拥有很多服务时&#xff0c;往往需要一个服务注册中心来管理这些服务&#xff0c;它可以提供如下功能&#xff1a;登记每个服务提供的功能检测每个服务是否可用&#xff0c;不可用的服务剔除服务间互相调用时&#xff0c;通过服务注册中心很容易找到目标服务…

如何监听RecyclerView划到最后一条数据

实现代码&#xff1a;//RecyclerView的滑动监听mRecyclerView.addOnScrollListener(new RecyclerView.OnScrollListener() { //当RecyclerView滑动时触发 Override public void onScrolled(RecyclerView recyclerView, int dx, int dy) { super.onScrolled(rec…

java小白会有那些工作_Java小白找工作与学习的第四天

昨天没有更新&#xff0c;其实很大一部分原因是我写了这么多字的简书&#xff0c;竟然没有一个人看&#xff0c;确实感觉不太对劲&#xff0c;但是我今天又想开了&#xff0c;我是要为自己学习的&#xff0c;不一定要他人的鼓励下才能继续学习&#xff0c;要享受一个人的孤独&a…

JavaScript原生对象及扩展

来源于 https://segmentfault.com/a/1190000002634958 内置对象与原生对象 内置&#xff08;Build-in&#xff09;对象与原生&#xff08;Naitve&#xff09;对象的区别在于&#xff1a;前者总是在引擎初始化阶段就被创建好的对象&#xff0c;是后者的一个子集&#xff1b;而后…

实例化Java对象_Java面向对象基础之对象实例化

1、实例化对象的过程可以分为两部分,例如下面代码:Person per new Person();该代码分为两部分:第一,声明对象:Personper&#xff0c;这部分是在栈内存中声明的&#xff0c;与数组一样&#xff0c;数组名称及时保存在占内存之中&#xff0c;只是开闭了真内存&#xff0c;对象是…

HTTP 错误 404.2 - Not Found 由于 Web 服务器上的“ISAPI 和 CGI 限制”列表设置,无法提供您请求的页面 详细错误:HTTP 错误...

错误摘要 HTTP 错误 404.2 - Not Found 由于 Web 服务器上的“ISAPI 和 CGI 限制”列表设置&#xff0c;无法提供您请求的页面。 详细错误信息 模块IsapiModule通知ExecuteRequestHandler处理程序ExtensionlessUrlHandler-ISAPI-4.0_32bit错误代码0x800704ec请求的 URLhttp://:…

java knn分类_返回2个或更多最近邻居的KNN算法

这正是构建这些度量树的原因 .你问的问题就像你要求的东西一样简单&#xff0c;就像使用sklearn的KDTree一样(根据游戏中的指标考虑BallTree)&#xff1a;import numpy as npfrom sklearn.neighbors import KDTreeX np.array([[1,1],[2,2], [3,3]]) # 3 points in 2 dimension…

php替换不区分大小写_PHP大小写问题:函数名和类名不区分,变量名区分

这篇文章主要介绍了PHP大小写问题&#xff0c;php中变量名是区分大小写的&#xff0c;而函数名与类名是不区分的PHP对大小写敏感问题的处理比较乱&#xff0c;写代码时可能偶尔出问题&#xff0c;所以这里总结一下。但我不是鼓励大家去用这些规则。推荐大家始终坚持“大小写敏感…

vue value key

转载于:https://www.cnblogs.com/lily2021/p/6772817.html

19.请输入整数

<!DOCTYPE html><html ><head lang"en"> <meta charset"UTF-8"> <title>T61-请输入整数</title></head><body><input type"text" id"num" οnblur"myBlur()" ο…

php post aspx,Login/LoginPost.aspx.vb 文件 LoginPost.aspx

Dim strAdminEmail As String S_Tools.GetWebSetting("AdminEmail")Dim strAdminPassword As String S_Tools.GetWebSetting("AdminPassword")Dim strTitle As String "MathFan注册Email"Dim strContent As String strName & "你好…

go的timer定时器实现

示例如下&#xff1a; package mainimport ("fmt""time" )func testTimer1() {go func() {fmt.Println("test timer1")}()}func testTimer2() {go func() {fmt.Println(time.Now().String())}() }func timer1() {timer1 : time.NewTicker(1 * ti…

php关闭按钮,C#_winform去掉右上角关闭按钮的方法,一种方法是可以在窗体的属性 - phpStudy...

winform去掉右上角关闭按钮的方法一种方法是可以在窗体的属性面板将窗体的 ControlBox属性设置为false&#xff0c;或者在窗体的构造函数中这样写&#xff1a;public Form1(){InitializeComponent();this.ControlBox false; // 设置不出现关闭按钮}不过这样做的话&#xff0…

如何获取枚举字符串,值及遍历枚举(转)

http://www.cnblogs.com/fanwenxuan/archive/2007/10/16/926019.html 枚举是一个特定的常量集合组成的独特类型using System;public enum TimeOfDay{ Morning 0, Afternoon 1, Evening }class EnumExample{ public static int Main() {//调用方法 WriteGreeti…

java构造方法和实例化,10. JavaSE-子类实例化过程 构造方法间调用

子类的实例化过程&#xff1a;子类中所有的构造函数默认都会访问父类中空参数的构造函数。class Parent{Parent(){System.out.println("parent class run");}}class Children extends Parent{Children(){//super();//调用的就是父类空参数的构造函数System.out.print…