Spark SQL内置函数

Apache Spark SQL 提供了一组丰富的内置函数(或称为UDFs,用户定义函数),用于在查询时处理数据。这些函数涵盖了字符串操作、日期/时间处理、数学运算、聚合等多个方面。以下是一些 Spark SQL 中常见的内置函数类别及其示例:

  1. 字符串函数

    • concat(str1, str2, ...): 连接两个或多个字符串。
    • length(str): 返回字符串的长度。
    • upper(str): 将字符串转换为大写。
    • lower(str): 将字符串转换为小写。
    • trim(str): 去除字符串两端的空格。
    • regexp_replace(str, pattern, replacement): 使用正则表达式替换字符串中的子串。
  2. 日期/时间函数

    • current_date: 返回当前日期。
    • current_timestamp: 返回当前日期和时间。
    • date_format(date/timestamp, format): 将日期/时间格式化为指定格式的字符串。
    • year(date/timestamp): 提取日期/时间的年份部分。
    • month(date/timestamp): 提取日期/时间的月份部分。
    • dayofmonth(date/timestamp): 提取日期/时间的月份中的第几天。
  3. 数学函数

    • abs(num): 返回数的绝对值。
    • round(num, d): 将数四舍五入到指定的小数位数。
    • floor(num): 返回小于或等于给定数字的最大整数。
    • ceil(num)ceiling(num): 返回大于或等于给定数字的最小整数。
    • sqrt(num): 返回数的平方根。
    • pow(num, exponent): 返回数的指数幂。
  4. 聚合函数

    • count(*): 计算行数。
    • sum(col): 计算列的总和。
    • avg(col): 计算列的平均值。
    • min(col): 返回列的最小值。
    • max(col): 返回列的最大值。
    • collect_list(col): 将列的值收集到一个列表中。
  5. 其他常用函数

    • coalesce(value1, value2, ...): 返回参数列表中的第一个非空值。
    • ifnull(value1, value2): 如果 value1 为空,则返回 value2,否则返回 value1
    • case when ... then ... else ... end: 条件表达式,类似于 SQL 中的 CASE 语句。
  6. 窗口函数

    • row_number() over (order by ...): 为结果集中的每一行分配一个唯一的连续整数。
    • rank() over (order by ...): 为结果集中的每一行分配一个排名,考虑平级关系。
    • dense_rank() over (order by ...): 为结果集中的每一行分配一个排名,不考虑平级关系(即没有间隔)。
    • lead(col) over (order by ...): 返回当前行之后的第一行的值。
    • lag(col) over (order by ...): 返回当前行之前的第一行的值。

这只是 Spark SQL 提供的内置函数的一小部分示例。要获取完整的函数列表和详细文档,请参阅 Spark 官方文档。

以下是一些使用Spark SQL内置函数的代码示例。

示例1:字符串函数

假设我们有一个包含用户信息的DataFrame,其中有一个名为name的列,我们想要将这一列的名字转换为大写。

import org.apache.spark.sql.SparkSessionval spark = SparkSession.builder().appName("Spark SQL Built-in Functions Example").getOrCreate()import spark.implicits._// 创建一个简单的DataFrame
val data = Seq(("John Doe"), ("Jane Smith"), ("Alice Johnson"))
val df = data.toDF("name")// 使用upper函数将名字转换为大写
val uppercasedNamesDF = df.withColumn("uppercase_name", upper($"name"))uppercasedNamesDF.show()

示例2:日期函数

假设我们有一个包含日期的DataFrame,我们想要提取出年份和月份。

// 创建一个包含日期的DataFrame
val dateData = Seq(("2023-03-15"), ("2022-07-01"), ("2023-01-31"))
val datesDF = dateData.toDF("date_string").withColumn("date", to_date($"date_string", "yyyy-MM-dd")) // 将字符串转换为日期类型// 提取年份和月份
val yearMonthDF = datesDF.withColumn("year", year($"date")).withColumn("month", month($"date"))yearMonthDF.show()

示例3:数学函数

假设我们有一个包含数字的DataFrame,我们想要对这些数字进行四舍五入和取平方根。

// 创建一个包含数字的DataFrame
val numberData = Seq((10.5678), (15.2345), (9.8765))
val numbersDF = numberData.toDF("number")// 对数字进行四舍五入到小数点后两位,并取平方根
val roundedAndSqrtDF = numbersDF.withColumn("rounded_number", round($"number", 2)).withColumn("sqrt_number", sqrt($"number"))roundedAndSqrtDF.show()

示例4:聚合函数

假设我们有一个销售数据的DataFrame,我们想要计算总销售额和平均销售额。

// 创建一个销售数据的DataFrame
val salesData = Seq(("Product1", 100.0),("Product2", 150.0),("Product1", 200.0),("Product3", 120.0),("Product2", 180.0)
)
val salesDF = salesData.toDF("product", "sale_amount")// 计算总销售额和平均销售额
val totalSales = salesDF.agg(sum($"sale_amount").alias("total_sales")).first().getAs[Double]("total_sales")
val averageSales = salesDF.agg(avg($"sale_amount").alias("average_sales")).first().getAs[Double]("average_sales")println(s"Total Sales: $totalSales")
println(s"Average Sales: $averageSales")

这些示例展示了如何在Spark SQL中使用不同类型的内置函数来处理数据。请注意,为了运行这些示例,你需要有一个运行中的Spark环境,并且这些代码应该在Spark的驱动程序中执行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/20189.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

04.k8s的附加组件

4.k8s的附加组件 4.1 dns服务 安装dns服务 1:下载dns_docker镜像包 wget http://192.168.12.201/docker_image/docker_k8s_dns.tar.gz2:导入dns_docker镜像包(所有节点或者node2节点) 3:修改skydns-rc.yaml,指定13的机器,该功能可加可不加 spec:node…

Arduino RP2040 CDC虚拟串口通讯--普通串口不显示

这两天在用RP2040运行些程序,但发现一个问题,使用arduino IDE可以通过串口显示数据,但是其他串口工具不会显示数据,可以打开串口,排查一下午无果,相当头疼, 晚上搜索时发现这个介绍&#xff1a…

详细分析async/await的基本知识以及用法(附Demo)

目录 前言1. 基本知识2. Demo2.1 单异步2.2 多异步2.3 配合钩子2.4 差异 3. 实战 前言 原先在小程序的时候用过这个用法,知识点差不过,推荐阅读:详细分析Js中的Promise.all基本知识(附Demo) 以下文章针对Vue3知识&am…

【康耐视国产案例】智能AI相机机器视觉精准快速实现包裹标签的智能粘贴

康耐视推出的3D-A1000是专业的、匹配物流行业各类分拣机及包裹检测应用的全功能视觉检测系统,其能够准确检测分拣机上是否有包裹、包裹是否超出边界、空车检测、是否有遗留物品等。由于搭载了专利的三维结构光技术,产品具有更强大的创新性以满足持续更新…

matlab图像处理入门

matlab在学校科研,仿真及基于模型开发的工作中有重要作用,在图像处理方面由于省去了复杂的上位机开发流程,因此可以让用户快速开发验证算法,下面简要介绍其在图像处理方面的应用。 matlab开发图像处理算法的流程主要是&#xff0c…

ARM虚拟机安装OMV

OMV(OpenMediaVault)是基于 Debian GNU/Linux 的网络连接存储(network attached storage,NAS)解决方案。它包含 SSH、(S) FTP、SMB/CIFS、DAAP 媒体服务器、rsync、 BitTorrent 等很多种服务。它可用于 x86-64 和 ARM 平台。 在x86-64平台上&…

企业级网络安全问题及其解决手段

随着企业信息化程度的不断提高,网络安全问题已成为企业面临的重大挑战。本文将探讨企业级网络安全问题的现状、原因以及相应的解决手段。 一、企业级网络安全问题的现状 近年来,企业级网络安全事件频发,给企业带来了巨大的经济损失和声誉损…

「浏览器」服务端渲染

前言 服务端渲染(Server-Side Rendering,SSR)是一种常见于网页应用的技术,它指的是在服务器上将网页的内容生成,然后发送完整的HTML页面到客户端的浏览器的过程。这与传统的客户端渲染(Client-Side Render…

docker错误

启动docker容器报错:library initialization failed - unable to allocate file descriptor table - out of memory 修改/etc/systemd/system/docker.service文件中的LimitNOFILE、LimitNPROC和LimitCORE配置为65535固定值,原先配置中这三个参数都设置为…

Bean作用域和生产周期已经Bean的线程安全问题

bean 的作用域 单例(Singletion) : Spring 容器中只有一个 bean ,这个 bean 在整个应用程序内共享。 原话(Prototype) : 每次 getBean(), 都是不同的bean,都会创建一个实例。 请求(Request):每个HTTP请求都会创建一个新的 Bean …

旧衣回收小程序带来的收益优势,小程序有哪些功能?

随着互联网的快速发展,大众对旧衣回收市场也越来越了解,对于闲置的旧衣物也有了适合的处理方式。旧衣回收也符合了当下资源回收利用,因此,旧衣回收市场获得了爆发式增长,市场规模不断扩大。同时市场中还吸引了越来越多…

【调试笔记-20240530-Linux-在 OpenWRT-23.05 上为 nginx 配置 HTTPS 网站】

调试笔记-系列文章目录 调试笔记-20240530-Linux-在 OpenWRT-23.05 上为 nginx 配置 HTTPS 网站 文章目录 调试笔记-系列文章目录调试笔记-20240530-Linux-在 OpenWRT-23.05 上为 nginx 配置 HTTPS 网站 前言一、调试环境操作系统:OpenWrt 23.05.3调试环境调试目标…

安全风险 - 组件导出风险

在安全审查中关于组件导出风险是一种常见问题,不同组件都有可能遇到这种问题,而且从一定角度来看的话,如果涉及到三方业务,基本处于无法解决的场景,所以我们需要说明为何无法避免这种风险 组件导出风险能不能规避&…

【智能AI相机】基于AI的新型成像和照明技术

缩短检测时间 降低废品率和成本 更快捕捉更多缺陷 ” Trevista CI Dome将康耐视专利的计算成像算法与结构化漫射圆顶照明相结合,提供无与伦比的地形图像质量,为光泽和哑光表面检测提供创新解决方案。有助于:缩短检测时间、降低废品率和成本…

深入URP之Shader篇16: UNITY_BRANCH和UNITY_FLATTEN

Shader中的if分支 我们在shader中写if语句,例如: if(a>0){//do some cool thing }else{//do other cool thing }实际上,编译器会进行优化,以及处理成多种不同的情况。比如编译器会将if和else展开,分别执行其中的代…

4.00001Postgresql的内存管理-从哪里开始了解内存管理之架构理解

文章目录 内存管理架构图关键变量mcxt_methods (mcxt.c:46) 内存管理函数集CurrentMemoryContext (mcxt.c:143) 当前内存上下文指针通用顶级上下文 (mcxt.c:145)关键数据结构MemoryContext (memnodes.h:117)MemoryContextMethods (memnodes.h:58)MemoryContextMethodID (memuti…

北京仁爱堂李艳波主任如何预约挂号?

北京仁爱堂擅长治疗神经系统疾病,例如:痉挛性斜颈,特发性震颤,眼球震颤,帕金森,眼球震颤等。 北京仁爱堂国医馆是一所集治疗、 预防、保健、养生于一体的传统中医诊所,具有精湛技术和丰富经验的…

操作系统的发展过程

目录 一.未配置操作系统的计算机 未配置操作系统计算机的特点 三.单道批处理系统 单道批处理系统的特点 单道批处理系统的优点 单道批处理系统的缺点 四.多道批处理系统 多道批处理系统的特点 多道批处理系统的优点 多道批处理系统的缺点 五.分时系统 分时系统的…

C#的web项目ASP.NET

添加实体类和控制器类 using System; using System.Collections.Generic; using System.Linq; using System.Web;namespace WebApplication1.Models {public class Company{public string companyCode { get; set; }public string companyName { get; set; }public string com…

Vue进阶之Vue无代码可视化项目(一)

Vue无代码可视化项目 项目搭建初始步骤拓展:工程项目从0-1项目规范化package.jsoncpell.jsoncustom-words.txtts-eslint规则.eslintrc.cjsgit钩子检查有没有问题type-checkspellchecklint:stylehusky操作安装pre-commitpnpm的commit规范package.json:commitlint.config.cjs安装…