Spark SQL 中UDF的讲解

Spark SQL 中UDF的讲解

User Define Function, 用户自定义函数,简称UDF,存在与很多组件中。

在使用Sparksql的人都遇到了Sparksql所支持的函数太少了的难处,除了最基本的函数,Sparksql所能支撑的函数很少,肯定不能满足正常的项目使用,UDF可以解决问题。

SparkSQL中的UDF相当于是11出,UDAF相当于是多进一出,类似于聚合函数。

开窗函数一般分组取topn时常用。

可以理解为自己定义函数,来获取自己想要的结果!
案例借鉴于网络!
需求:计算文本中每一个单词的长度!
代码:
Scala版本:
package com.bynear.Scalaimport org.apache.spark.sql.types.{StringType, StructField, StructType}
import org.apache.spark.sql.{Row, SQLContext}
import org.apache.spark.{SparkConf, SparkContext}object UDF {def main(args: Array[String]): Unit = {val conf = new SparkConf().setAppName("SparkSQL_UDF").setMaster("local")val sc = new SparkContext(conf)val sqlContext = new SQLContext(sc)val names = Array("刘亦菲", "张柏芝", "冯提模","陈一发儿")val nameRDD = sc.parallelize(names, 5)val nameRowRDD = nameRDD.map(name => Row(name))val structType = StructType(Array(StructField("name", StringType, true)))val namesDF = sqlContext.createDataFrame(nameRowRDD, structType)namesDF.registerTempTable("names")sqlContext.udf.register("strLen", (str: String) => str.length)sqlContext.sql("select name,strLen(name) as length from names").show()sqlContext.sql("select name,strLen(name) as length from names").collect().foreach(println)}
}
运行结果:
+----+------+
|name|length|
+----+------+
| 刘亦菲|     3|
| 张柏芝|     3|
| 冯提模|     3|
|陈一发儿|     4|
+----+------+

[刘亦菲,3]
[张柏芝,3]
[冯提模,3]
[陈一发儿,4]

Java版本:
package com.bynear.spark_sql;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.api.java.UDF1;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;

import java.util.ArrayList;
public class JavaUDF {public static void main(String[] args) {SparkConf conf = new SparkConf().setAppName("JavaUDF").setMaster("local");
        JavaSparkContext sc = new JavaSparkContext(conf);
        SQLContext sqlContext = new SQLContext(sc.sc());
        ArrayList<String> names = new ArrayList<String>();
        names.add("刘亦菲");
        names.add("张柏芝");
        names.add("冯提模");
        names.add("陈一发儿");
        JavaRDD<String> nameRDD = sc.parallelize(names);
        JavaRDD<Row> nameRowRDD = nameRDD.map(new Function<String, Row>() {@Override
            public Row call(String line) throws Exception {return RowFactory.create(String.valueOf(line));
            }});
        /**
         * 使用动态编程方式,将RDD转换为Dataframe
         */
        ArrayList<StructField> fields = new ArrayList<StructField>();
        fields.add(DataTypes.createStructField("name", DataTypes.StringType, true));
        StructType structType = DataTypes.createStructType(fields);
        DataFrame nameDF = sqlContext.createDataFrame(nameRowRDD, structType);
        /**
         * 注册临时表
         */
        nameDF.registerTempTable("user");
        /**
         * 根据UDF函数参数的个数来决定是实现哪一个UDF  UDF1UDF2, 表明包含几个参数传入
         * UDF1<String, Integer> 表示 传入参数 String 输出参数为 Integer
         * call方法为 自定义的函数!
         * DataTypes.IntegerType  必须与输出参数的类型一致即 Integer
         */
        sqlContext.udf().register("StrLen", new UDF1<String, Integer>() {@Override
            public Integer call(String s) throws Exception {return s.length();
            }}, DataTypes.IntegerType);
        /**
         * select name ,StrLen(name) as length from user
         * 在临时表user中 查找name   StrLen(name) == name的长度
         * StrLen(name) as length 表示将获取到的name的长度 例如15  15作为一列 as length 列名为 length
         */
        sqlContext.sql("select name ,StrLen(name) as length from user").show();
        Row[] rows = sqlContext.sql("select name ,StrLen(name) as length from user").collect();
        for (Row row : rows) {System.out.println(row);
        }sc.close();
    }
}
输出结果:同上!

Java版本中,主要之一到UDFX 方法,以及传入参数的个数类型,以及输出类型,最终要的是文本最后的
DataTypes.IntegerType  类型要与输出类型相同!





本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/326074.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis面试总结

转载自 Redis面试总结 1、什么是Redis? Redis 是一个基于内存的高性能key-value数据库。 (有空再补充&#xff0c;有理解错误或不足欢迎指正) 2、Reids有哪些特点&#xff1f; Redis本质上是一个Key-Value类型的内存数据库&#xff0c;很像memcached&#xff0c;整个数据…

jquery动画与事件案例

代码都已经测试通过&#xff0c;直接打开注释即可看见效果&#xff01; <!DOCTYPE html> <html><head><meta charset"UTF-8"><title></title><script src"js/jquery-1.8.3.js" type"text/javascript" c…

两路语音 两路计算机数据综合,脉冲编码调制解调实验摘要.doc

2012-2013 第二学期开放实验项目题  目&#xff1a;两路话音&#xff0b;两路计算机数据综合传输系统实验学生姓名专业名称&#xff1a;  电子信息工程指导教师&#xff1a;2013年 5月 20日脉冲编码调制解调实验实验原理(一)基本原理PCM 调制原理框图量化从数学上来看&…

2016蓝桥杯省赛---java---C---10(密码脱落)

题目描述 思路分析 将字符串反转&#xff0c;后寻找到最长子串&#xff0c;然后用字符串长度减去最长字串长度即可。 代码实现 package lanqiao;import java.util.Scanner;public class Main {static int min0,num0;static String str;public static void main(String[] arg…

Java多线程面试问题

转载自 Java多线程面试问题 这篇文章主要是对多线程的面试问题进行总结的&#xff0c;罗列了40个多线程的问题。 1、多线程有什么用&#xff1f; 一个可能在很多人看来很扯淡的一个问题&#xff1a;我会用多线程就好了&#xff0c;还管它有什么用&#xff1f;在我看来&…

Spark SQL UDF2的使用

Spark SQL UDF2的使用继续之前的UDF1进行说明&#xff1a;UDF1博客地址点击打开链接与UDF1的区别在于两个参数&#xff1a;需求&#xff1a; 获取文本中的两个数字 计算每行中数字的和文本&#xff1a;1,1 2,2 3,3 4,4 5,5 6,6 7,7 8,8 9,9 10,10代码&#xff1a;package com.…

使用ElasticSearch,Kibana,ASP.NET Core和Docker可视化数据

原文地址&#xff1a;http://www.dotnetcurry.com/aspnet/1354/elastic-search-kibana-in-docker-dotnet-core-app 想要轻松地通过许多不同的方式查询数据&#xff0c;甚至是从未预料到的方式&#xff1f;想要以多种方式可视化日志&#xff1f;同时支持基于时间、文本和其他类…

计算机辐射对人体影响吗,电脑屏幕辐射对人体的危害怎么解决?

现在不光是从事IT职业的人经常用电脑&#xff0c;普通打工族也时常接触电脑&#xff0c;人们用电脑的时间越来越多&#xff0c;电脑屏幕带来的辐射问题随之而来&#xff0c;工作上班用电脑&#xff0c;下班回家看电视剧、打游戏也用电脑&#xff0c;KTV点歌也用触摸屏辐射&…

第二章jQuery选择器

一、jquery选择器的分类&#xff1a; 1.基本选择器 &#xff08;1&#xff09;标签选择器 $(“h2”).css(“color”,“red”); &#xff08;2&#xff09;类选择器 $(".title").css(“color”,“red”); &#xff08;3&#xff09;ID选择器 $("#title").cs…

2017蓝桥杯省赛---java---A---4(方格分割)

题目描述 思路分析 dfs 题目要求沿着格子的边线剪成两个部分&#xff0c;仔细观察&#xff0c;剪开的边线是关于中心点&#xff08;3&#xff0c;3&#xff09;对称的&#xff0c;于是我们从&#xff08;3&#xff0c;3&#xff09;开始搜索&#xff0c;直到搜到边界则退出。…

这些分布式事务的解决方案,你都知道吗

转载自 这些分布式事务的解决方案&#xff0c;你都知道吗 分布式事务是企业集成中的一个技术难点&#xff0c;也是每一个分布式系统架构中都会涉及到的一个东西&#xff0c;特别是在微服务架构中&#xff0c;几乎可以说是无法避免。 数据库事务 在说分布式事务之前&#x…

如何在多个项目中分离Asp.Net Core Mvc的Controller和Areas

前言 软件系统中总是希望做到松耦合&#xff0c;项目的组织形式也是一样&#xff0c;本篇文章将介绍在ASP.NET CORE MVC中怎么样将Controller与主网站项目进行分离&#xff0c;并且对Areas进行支持。 实践 1.新建项目 新建两个ASP.NET Core Web应用程序&#xff0c;一个命名…

SparkSQL中UDAF案例分析

SparkSQL中UDAF案例分析 1、统计单词的个数package com.bynear.spark_sql;import org.apache.spark.sql.Row; import org.apache.spark.sql.expressions.MutableAggregationBuffer; import org.apache.spark.sql.expressions.UserDefinedAggregateFunction; import org.apache.…

第四章选择结构(二)

一、Switch的结构语法&#xff1a; switch&#xff08;变量&#xff09;{ case 1: //代码 break; case 2: //代码 break; default : //代码 break; } 2.switch&#xff1a;相当于一个开关&#xff0c;后面的括号里面可以是int short byte char 枚举类型 String类型的值 3.case后…

河北省计算机对口高考大纲,河北省普通高等学校对口招生英语考试大纲

河北省普通高等学校对口招生英语考试大纲一、考试范围和考试形式河北省中等职业学校对口升学英语考试以教育部颁布的《中等职业学校英语教学大纲》为依据&#xff0c;以中等职业教育课程改革国家规划教材《英语》为主要参考教材&#xff0c;同时结合我省中等职业学校教学情况进…

2017蓝桥杯省赛---java---B---10(k倍区间)

题目描述 标题&#xff1a; k倍区间给定一个长度为N的数列&#xff0c;A1, A2, … AN&#xff0c;如果其中一段连续的子序列Ai, Ai1, … Aj(i < j)之和是K的倍数&#xff0c;我们就称这个区间[i, j]是K倍区间。你能求出数列中总共有多少个K倍区间吗&#xff1f;输入 第一行…

Spring Boot 最佳实践

转载自 Spring Boot 最佳实践 Spring Boot是用于开发微服务的最流行的Java框架。在本文中&#xff0c;我将与您分享自2016年以来我在专业开发中使用Spring Boot所采用的最佳实践。本文基于我的个人经验和认可的Spring Boot方面的专家。 在本文中&#xff0c;我将重点介绍Spr…

第三章选择结构(一)

一、boolean 类型&#xff1a; 值只有两个&#xff1a;true(真)和false(假) 二、常用的关系符&#xff1a; > < > < ! 作用&#xff1a;用来比较运算结果&#xff0c;值是boolean类型。. 三、if选择结构的语法&#xff1a; if(boolean){ 代码块 } 含义&#xff1a…

eq,neq,gt,lt等表达式缩写

eq,neq,gt,lt等表达式缩写 eq 等于neq 不等于gt 大于egt 大于等于lt 小于elt 小于等于like LIKEbetween BETWEEN

asp.net core源码飘香:Configuration组件

简介&#xff1a; 这是一个基础组件&#xff0c;是一个统一的配置模型&#xff0c;配置可以来源于配置文件&#xff08;json文件&#xff0c;xml文件&#xff0c;ini文件&#xff09;&#xff0c;内存对象&#xff0c;命令行参数&#xff0c;系统的环境变量又或者是你自己扩展的…