2024 1.9 Spark_SQL , 数据清洗API , 写出操作

目录

一. DataFrame 详解

        1. 数据清洗API 

        1.去重 :

        2. 去除空:

        3. 填充替换 :

        2. SparkSQL的shuffle分区设置

        3 . SparkSQL 数据写出操作

                3.1  写出到文件系统

                3.2  写出到数据库


一. DataFrame 详解

        1. 数据清洗API 

        1.1 去重 :

                DropDupilcates :

                          init_df.dropDuplicates().show()
                            init_df.dropDuplicates(subset=["id","name"]).show()

用来删除重复数据。如果没有指定参数subset,那么要比对行中的所有字段内容,
            如果全部相同,就认为是重复数据,会被删除;如果有指定参数subset,那么只比对subset中指定的字段范围

        1.2 去除空:

                Dropna:

                                 init_df.dropna().show()
                                    init_df.dropna(subset=["id","name"]).show()        

                                init_df.dropna(thresh=2,subset=["name","age","address"]).show()
                            init_df.dropna(thresh=2).show()

                                dropna(thresh,subset):删除缺失值数据.
            1- 如果不传递任何参数,只要有任意一个字段值为null,那么就删除整行数据
            2- 如果只指定了subset,那么空值的检查,就只会限定在subset指定的范围内
            3- 如果只指定了thresh,那么空值检查的这些字段中,至少需要有thresh(>=thresh)个字段的值不为空,才不会被删除

        1.3 填充替换 :

                fillna : 

                        init_df.fillna(value=999).show()
                            init_df.fillna(value=999,subset=["id","name"]).show()
                            init_df.fillna(value={"id":111,"name":"未知姓名","age":100,"address":"北京"}).show()

                                 fillna(value,subset):替换缺失值数据
            value:必须要传递参数.是用来填充缺失值的
            subset:限定缺失值替换范围
        注意:
            1-value如果不是字典,那么只会替换字段类型匹配的空值
            2-最常用的是value传递字典的形式

        2. SparkSQL的shuffle分区设置

                如何调整shuffle分区数量呢? spark.sql.shuffle.partitions


方案二(常用,推荐使用): 在客户端通过submit命令提交的时候, 动态设置shuffle的分区数量。部署、上线的时候、基于spark-submit提交运行的时候
    ./spark-submit --conf "spark.sql.shuffle.partitions=20"
 

方案三(比较常用): 在代码中设置。主要在测试环境中使用, 但是一般在部署上线的时候, 会删除(写死)。优先级也是最高的。一般的使用场景是,当你的数据量未来不会发生太大的波动。
     sparkSession.conf.set('spark.sql.shuffle.partitions',20)

        3 . SparkSQL 数据写出操作

                3.1  写出到文件系统

常用参数说明:
    1- path:指定结果数据输出路径。支持本地文件系统和HDFS文件系统
    2- mode:当输出目录中文件已经存在的时候处理办法
        2.1- append:追加。如果文件已经存在,那么继续在该目录下产生新的文件
        2.2- overwrite:覆盖。如果文件已经存在,那么就先将已有的文件清除,再写入进去
        2.3- ignore:忽略。如果文件已经存在,那么不执行任何操作
        2.4- error:报错。如果文件已经存在,那么直接报错。会报错AnalysisException: path file:xxx already exists.
    3- sep:字段间的分隔符
    4- header:数据输出的时候,是否要将字段名称输出到文件的第一行。推荐设置为True
    5- encoding:文件输出的编码方式

                对应的简写API格式如下,以CSV为例:
init_df.write.csv(
    path='存储路径',
    mode='模式',
    header=True,
    sep='\001',
    encoding='UTF-8'
)

                 # 数据输出到文件系统:复杂API
 
        设置mode,需要单独调用mode()方法

    result.write\
        .format('json')\
        .mode("overwrite")\
        .option("encoding","UTF-8")\
        .save('存储路径')

                3.2  写出到数据库

 # 数据输出到数据

        创建数据库命令:create database 库名 character set utf8;

    result.write.jdbc(
        url='jdbc:mysql://node1:3306/库名?useUnicode=true&characterEncoding=utf-8',
        table='表名',
        mode='append',
        properties={ 'user' : '用户名', 'password' : '密码' }
    )
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/611003.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Kubernetes 核心实战之三(精华篇 3/3)

文章目录 6、Ingress ★6.1 安装 Ingress6.2 访问6.3 安装不成功的bug解决6.4 测试使用6.4.1 搭建测试环境6.4.2 配置 Ingress的规则6.4.3 测试I6.4.4 测试II6.4.5 路径重写6.4.6 限流 7. Kubernetes 存储抽象7.1 NFS 搭建7.2 原生方式 数据挂载7.3 PV 和 PVC ★7.3.1 创建 PV …

语义解析:连接自然语言与机器智能的桥梁

文章目录 01 语义解析的应用场景场景一:场景二: 02 语义解析和大模型的关系 语义解析技术可以提高人机交互的效率和准确性,在自然语言处理、数据分析、智能客服、智能家居等领域都有广泛的应用前景。特别是在大数据时代,语义解析能…

m401a电视盒子

1.1 刷机教程 魔百盒M401A成功刷入armbian_m401a刷armbian-CSDN博客 https://blog.csdn.net/xiaokai1999/article/details/129623435 江苏版M401A原版 刷机ARMBIAN注意要点 http://www.taodudu.cc/news/show-5341375.html?actiononClick 1.2 查看系统内核 cat /etc/ophub-…

2024年甘肃省职业院校技能大赛 “信息安全管理与评估”赛项样题卷①

2024年甘肃省职业院校技能大赛 高职学生组电子与信息大类信息安全管理与评估赛项样题 第一阶段:第二阶段:模块二 网络安全事件响应、数字取证调查、应用程序安全第二阶段 网络安全事件响应第一部分 网络安全事件响应第二部分 数字取证调查第三部分 应用程…

[Linux进程(一)] 什么是进程?PCB的底层是什么?以及进程标识符pid与ppid

文章目录 1、前言2、描述进程 — PCB(os怎么管理进程呢)3、查看进程3.1 方法一3.2 方法二 4、系统调用获取进程标示符(PID)4.1 获取进程的ID4.2 获取进程的父进程ID 5、系统调用创建子进程-fork 1、前言 大家经常都在讲进程,而它到底是什么呢? 这里给大…

Android逆向学习(六)绕过app签名校验,通过frida,io重定向(上)

Android逆向学习(六)绕过app签名校验,通过frida,io重定向(上) 一、写在前面 这是吾爱破解正己大大教程的第五个作业,然后我的系统还是ubuntu,建议先看一下上一个博客,关…

linux: netstat 与 ss 用法详解

文章目录 netstat描述语法参数例子 ss描述语法参数例子 总结 netstat 描述 内核中访问网络连接状态及其相关信息的程序,它能提供 TCP 连接,TCP 和 UDP 监听,进程内存管理的相关报告 语法 netstat [选项] usage: netstat [-vWeenNcCF] [&l…

聊聊 Java 集合框架中的Arrays

Arrays 和 Collections是分别操作数组和集合的两个工具类。今天就来对 Arrays 中的内容作个总结。 一、Arrays 类概述 Arrays 类位于 java.util包中。Arrays 继承 Object java.lang.Object↳ java.util.ArraysArrays 类中的静态方法可以对数组进行排序、查询、搜索等等操作。…

Zookeeper设计理念与源码剖析

Zookeeper 架构理解 整体架构 Follower server 可以直接处理读请求,但不能直接处理写请求。写请求只能转发给 leader server 进行处理。最终所有的写请求在 leader server 端串行执行。(因为分布式环境下永远无法精确地确认不同服务器不同事件发生的先后…

easyExcel 获取多个sheet中复杂表头的数据

easyExcel 获取多个sheet中复杂表头的数据 easyExcel 解释 EasyExcel是一个强大且易于使用的Java库,用于简化Excel文件的读写操作。它是阿里巴巴开源的一个基于POI实现的Excel处理工具,并提供了一组简单的API来处理Excel文件,包括读取、写入…

逐步分解,一文教会你如何用 jenkins+docker 实现主从模式

jenkins 主从模式想必大家都不陌生,大家在学习过程中为了学习方便都在自己本地搭建了 jenkins 环境,然后通过 javaweb 方式实现,对于 docker 下实现主从模式大家好像兴趣挺大。 今天就通过这篇文章给大家讲讲怎么玩,希望对大家有帮…

Vivado开发FPGA使用流程、教程 verilog(建立工程、编译文件到最终烧录的全流程)

目录 一、概述 二、工程创建 三、添加设计文件并编译 四、线上仿真 五、布局布线 六、生成比特流文件 七、烧录 一、概述 vivado开发FPGA流程分为创建工程、添加设计文件、编译、线上仿真、布局布线(添加约束文件)、生成比特流文件、烧录等步骤&a…

交叉编译ARM64架构electron详解

基本介绍 本文主要参考Electron官方文档中 构建说明 和 构建步骤(Linux) 在amd64环境内构建arm64的electron包。 如果是arm64环境请查看文章arm64架构编译electron长征路 一、环境说明 操作系统版本:统信1060 操作系统架构:amd64 内存:32G 如下图: electron版本:v25…

企业微信forMAC,如何左右翻动预览图片

1、control commandshifd 进入企业微信的debug调试模式 2、按照如下步骤选择 3、重启企业微信

全球再生环保趋势的热门项目GRS认证

GRS,最初由世优认证(CU)于2008年制定,并于2011年1月1日将所有权转让给了纺织品交易所TE。 自2017年7月1日GRS4.0版本开始生效。是为在纺织工业的需求所制定,核查回收产品或某些特定产品。更重要的是让零售商和消费者了…

【K8S 存储卷】K8S的存储卷+PV/PVC

目录 一、K8S的存储卷 1、概念: 2、挂载的方式: 2.1、emptyDir: 2.2、hostPath: 2.3、NFS共享存储: 二、PV和PVC: 1、概念 2、请求方式 3、静态请求流程图: 4、PV和PVC的生命周期 5、…

基于ubuntu2204使用kubeadm部署k8s集群

部署k8s集群 基础环境配置安装container安装runc安装CNI插件部署1.24版本k8s集群(flannel)安装crictl使用kubeadm部署集群节点加入集群部署flannel网络配置dashboard 本集群基于ubuntu2204系统使用kubeadm工具部署1.24版本k8s,容器运行时使用…

Unity | Shader基础知识(第九集:shader常用单词基础知识速成)

目录 一、顶点(Vertex)和法线(Normal) 二、UV信息 三、 基础数据种类 1 基础数据种类 2 基础数据数组 3 基础数据数组的赋值 4 对数据数组的调用 四、 基础矩阵 1 基础矩阵种类 2 对矩阵数组的调用 2.1对一个数据的调用 2.2对多个数据的调用 2…

js判断当前是否是企业微信环境,微信环境

前言: js判断当前是否是企业微信环境,微信环境 封装方法: function envjudge() {var isMobile window.navigator.userAgent.match(/(phone|pad|pod|iPhone|iPod|ios|iPad|Android|Mobile|BlackBerry|IEMobile|MQQBrowser|JUC|Fennec|wOSBro…

关于frida定位无误却无法hook到加密方法的见解

一、HOOK不到问题 原先使用 frida -U APP名 -l .\hook.js 这种方法进行hook加密函数,不料始终hook不到,没反应。思考了一下,应该是该app有多个进程,使用上面hook的不是加密进程,古应当用进程pid办法进行hook 二、解决办…