数据操作——缺失值处理

缺失值处理

缺失值的处理思路

如果想探究如何处理无效值, 首先要知道无效值从哪来, 从而分析可能产生的无效值有哪些类型, 在分别去看如何处理无效值

  • 什么是缺失值

    一个值本身的含义是这个值不存在则称之为缺失值, 也就是说这个值本身代表着缺失, 或者这个值本身无意义, 比如说 null, 比如说空字符串

    在这里插入图片描述

    关于数据的分析其实就是统计分析的概念, 如果这样的话, 当数据集中存在缺失值, 则无法进行统计和分析, 对很多操作都有影响

  • 缺失值如何产生的

    在这里插入图片描述

    Spark 大多时候处理的数据来自于业务系统中, 业务系统中可能会因为各种原因, 产生一些异常的数据

    例如说 因为前后端的判断失误, 提交了一些非法参数. 再例如说因为业务系统修改 MySQL 表结构产生的一些空值数据等. 总之在业务系统中出现缺失值其实是非常常见的一件事, 所以大数据系统就一定要考虑这件事.

  • 缺失值的类型

    常见的缺失值有两种

    • null, NaN 等特殊类型的值, 某些语言中 null 可以理解是一个对象, 但是代表没有对象, NaN 是一个数字, 可以代表不是数字

      针对这一类的缺失值, Spark 提供了一个名为 DataFrameNaFunctions 特殊类型来操作和处理

    • “Null”, “NA”, " " 等解析为字符串的类型, 但是其实并不是常规字符串数据

      针对这类字符串, 需要对数据集进行采样, 观察异常数据, 总结经验, 各个击破

  • DataFrameNaFunctions

    DataFrameNaFunctions 使用 Dataset 的 na 函数来获取

    val df = ...
    val naFunc: DataFrameNaFunctions = df.na
    

    当数据集中出现缺失值的时候, 大致有两种处理方式, 一个是丢弃, 一个是替换为某值, DataFrameNaFunctions 中包含一系列针对空值数据的方案

    • DataFrameNaFunctions.drop 可以在当某行中包含 null 或 NaN 的时候丢弃此行
    • DataFrameNaFunctions.fill 可以在将 null 和 NaN 充为其它值
    • DataFrameNaFunctions.replace 可以把 null 或 NaN 替换为其它值, 但是和 fill 略有一些不同, 这个方法针对值来进行替换
  • 如何使用 SparkSQL 处理 null 和 NaN(Double.NaN → Not a number) ?

    首先要将数据读取出来, 此次使用的数据集直接存在 NaN, 在指定 Schema 后, 可直接被转为 Double.NaN

    @Test
    def nullAndNaN():Unit ={// 2. 导入数据集// 3. 读取数据集//    1.通过Spark-csv自动的推断类型来读取,推断数字的时候会将NaN推断为字符串
    //    spark.read
    //      .option("header",true)
    //      .option("inferSchema",true)
    //      .csv(....)//    2. 直接读取字符串,在后续的操作中使用 map 算子转类型
    //    spark.read.csv().map(row => row....)//    3. 指定 Schema ,不要自动推断// 创建 Schemaval schema = StructType(List(StructField("id", LongType),StructField("year", IntegerType),StructField("month", IntegerType),StructField("day", IntegerType),StructField("session", IntegerType),StructField("pm", DoubleType)))// Double.NaNval sourceDF = spark.read.option("header",true).schema(schema).csv("./dataset/beijingpm_with_nan.csv") // pm下的NaN 自动转为 Double.NaNsourceDF.show()
    }
    

    在这里插入图片描述

    对于缺失值的处理一般就是丢弃和填充

    • 丢弃包含 null 和 NaN 的行

      // 4.丢弃
      // 2019,12,12,Nam
      // 规则:
      //    1. any, 只要有一个 NaN 的行就丢弃
      sourceDF.na.drop("any").show() // sourceDF.na.drop().show() 默认 any
      //    2. all, 所有数据都是 NaN 的行才丢弃
      sourceDF.na.drop("all").show()
      //    3. 某些列的规则
      sourceDF.na.drop("any",List("year","month","day")).show()**
      
    • 填充包含 null 和 NaN 的列

      **// 5.填充// 规则://    1. 针对所有列数据进行默认值填充sourceDF.na.fill(0).show()//    2. 针对特定列填充sourceDF.na.fill(0, List("year", "month")).show()
      }**
      
  • 如何使用 SparkSQL 处理异常字符串 ?

    读取数据集, 这次读取的是最原始的那个 PM 数据集

    **val df = spark.read.option("header", value = true).csv("./dataset/BeijingPM20100101_20151231.csv")**
    

    使用函数直接转换非法的字符串

    **// 1. 替换// select name, age, case// when .. then...// elseimport org.apache.spark.sql.functions._ // 使用when 需要导入sourceDF.select('No as "id", 'year, 'month, 'day, 'hour, 'season,when('PM_Dongsi === "NA", Double.NaN) // 当 PM_Donsi 里的数据 等于 NA 时,变为 Double.NaN.otherwise('PM_Dongsi cast DoubleType) // 如果不是上面的条件,要将它的正常值转换成对应的Double类型.as("pm") // 起别名).show()// replace 注意:原类型和转换过后的类型,必须一致
    sourceDF.na.replace("PM_Dongsi", Map("NA" -> "NaN")).show()
    // sourceDF.na.replace("PM_Dongsi", Map("NA" -> "NaN", "NULL" -> "null")).show()

    在这里插入图片描述

    在这里插入图片描述

    使用 where 直接过滤

    df.select('No as "id", 'year, 'month, 'day, 'hour, 'season, 'PM_Dongsi).where('PM_Dongsi =!= "NA") // =!= 不等于.show()
    

    在这里插入图片描述

  • 所用文件

    [beijingpm_with_nan.rar]

    [BeijingPM20100101_20151231.rar](前面已上传,自己根据名称去资源下载)

  • 以上代码的前置条件

    // 1. 创建SparkSession对象
    val spark = SparkSession.builder().appName("column").master("local[6]").getOrCreate()import spark.implicits._case class Person(name: String, age: Int)
    

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/639368.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GPT应用程序的开发注意事项

GPT应用程序的开发语言可以选择多种语言,主要取决于您的偏好、团队的技能以及应用程序的具体需求。以下是一些常见的用于GPT应用程序开发的编程语言,希望对大家有所帮助。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交…

项目管理流程

优质博文 IT-BLOG-CN 一、简介 项目是为提供某项独特产品【独特指:创造出与以往不同或者多个方面与以往有所区别产品或服务,所以日复一日重复的工作就不属于项目】、服务或成果所做的临时性【临时性指:项目有明确的开始时间和明确的结束时间,不会无限期…

深入探讨JavaSE:从基础到高级

目录 1. JavaSE的基础知识 2. 标准API库 3. 异常处理与调试技巧 4. JavaSE的高级特性 5. JavaSE与新技术的整合 结语 JavaSE(Java Standard Edition)是Java平台的标准版,是Java编程语言的基础。它提供了一系列核心的API和工具&#xff0…

【Web前端开发基础】CSS的盒子模型

CSS的盒子模型 一、学习目标 能够认识不同选择器的优先级公式能够进行CSS权重叠加计算,分析并解决CSS 冲突问题能够认识盒子模型的组成部分能够掌握盒子模型的边框、内边距、外边距的作用及简写形式能够计算盒子的实际大小能够了解外边距折叠现象,并知…

Linux用户空间和内核空间所有15种内存分配方法

在Linux操作系统中,内存管理是一个关键的系统功能。用户空间和内核空间分别使用不同的函数来申请内存。以下是用户空间和内核空间内存申请函数的详细列表: Linux用户空间内存申请函数 1. malloc() 函数: void* malloc(size_t size); 用于…

在IDEA中使用快捷键让XML注释更加规范

Setting -> Editor -> Code Style -> XML 取消勾选 Line comment at first column 这样我们在使用ctrl / 快速注释时,就可以让注释符号紧贴注释内容,不出现空格。

如何唯一标识一个进程

如何唯一标识一个进程 进程ID (PID): 每个运行中的进程都有一个全局唯一的整数标识符,称为进程ID(Process ID)。PID由内核分配,并在整个系统范围内保持唯一。 在shell中输入echo $$来查看当前shell的进程ID&#xf…

java 中 Iterator 与Iterable的作用

如果需要按照元素的自然顺序进行排序,应该使用哪个集合类? 如果需要按照元素的自然顺序进行排序,应该使用TreeSet或TreeMap集合类。 TreeSet:TreeSet 是一个有序的集合,它会使用元素的自然顺序对元素进行排序&#xf…

ip_vs 的管理以及 keepalived + lvs 案例

ip_vs 的管理 ipvsadm 与 keepalived for lvs ipvsadm 命令及参数介绍 部署和配置LVS服务会经常用到一些命令,如ipvsadm,可以使用“ipvsadm -help”命令查看使用帮助。 ipvsadm 命令的常用参数及其说明如下: # 添加虚拟服务器# 语法&#x…

PLC从HTTP服务端获取JSON文件,解析数据到寄存器

智能网关IGT-DSER集成了多种PLC协议,方便实现各种PLC与HTTP服务端之间通讯。通过网关的参数配置软件绑定JSON文件的字段与PLC寄存器地址,配置URL,即可采用POST命令,将JSON文件提交给HTTP的服务端; 服务端有返回的JSON&…

【JavaEE】认识网络的工作原理

作者主页:paper jie_博客 本文作者:大家好,我是paper jie,感谢你阅读本文,欢迎一建三连哦。 本文于《JavaEE》专栏,本专栏是针对于大学生,编程小白精心打造的。笔者用重金(时间和精力)打造&…

66 C++对象模型探索。C++编译器在什么时候给我们创建默认的构造函数?

一 前提,关于C编译器给我们生成 默认构造函数 的错误认知 传统知识认为:如果在一个类中,我们没有定义任何的构造函数,那么编译器会为我们隐式自动定义一个默认的构造函数,我们称这种构造函数为 "合成的默认构造函…

德思特方案|EMI兼容测试方案——匹配不同测试标准,准确高效!

方案背景 近场测试非常适合产品开发阶段辐射发射的EMI预兼容测试。在EMC测试中,进行辐射发射测试时,通常天线离被测物EUT很远,进行的都是远场测量。标准的远场辐射发射测试,可以准确定量的告诉我们被测件是否符合相应的EMC/EMI标…

网络工程师:新兴科技基础知识面试题(十三)

112.对区块链的理解与看法? 区块链是一种分布式的、公开透明的数据库技术,以区块的形式将交易数据进行链式连接。它通过去中心化的方式,将数据存储和交易验证的权力分散给网络中的多个节点,提供了一种安全、可信的数据交换和存储方…

case语句、case分支应用示例、函数及中断控制、字符串截取、替换、删除

1 案例1:中断及退出 1.1 问题 本案例要求编写两个Shell脚本,相关要求如下: 从键盘循环取整数(0结束)并求和,输出最终结果 1.2 方案 通过break、continue、exit在Shell脚本中实现中断与退出的功能。 e…

SpringCloudConfig+SpringCloudBus+Actuator+Git实现Eureka关键配置属性热更新(全程不重启服务)

文章目录 前言1.痛点2.解决方案3.具体实现3.1搭建热配置服务3.2编写配置文件3.3搭建版本控制仓库3.4Eureka-Client引入以下依赖3.5Eureka-Client微服务编写以下配置bootstrap.yml提前加载3.6分别编写测试Controller3.7测试效果3.8下线场景压测 4.SpringCloudBus优化 前言 在上…

vue组件间通信

Vue组件之间通信方式有哪些 一、父子组件通讯 1、props,emit 父组件可以通过props给子组件传递变量。子组件可以通过emit派发自定义事件,使父组件可以获得事件函数传递过来的形参。 2、$parent、$children、ref 父组件可以通过 c h i l d r e n 获取…

imgaug库图像增强指南(32):塑造【雪景】效果的视觉魔法

引言 在深度学习和计算机视觉的世界里,数据是模型训练的基石,其质量与数量直接影响着模型的性能。然而,获取大量高质量的标注数据往往需要耗费大量的时间和资源。正因如此,数据增强技术应运而生,成为了解决这一问题的…

我的项目管理工具TaskSaas

这次使用的技术是Python的Django框架,以及Django框架自带的前端模版语法. Open-TaskSaas: 项目、学习管理工具 项目已经开源,但我在此基础上已经开始更新Vue3Springboot版本,也希望喜欢开源和学习的小伙伴共同加入进来! 基本的样式,操作,都从线上环境可以看得到了! 首页 测…

Django(九)

1. 用户登录-Cookie和Session 什么是cookie和session? 发送HTTP请求或者HTTPS请求(无状态&短连接) http://127.0.0.1:8000/admin/list/ https://127.0.0.1:8000/admin/list/http无状态短连接:一次请求响应之后断开连接,再发请求重新连…