数据清理在数据科学中的重要性

什么是数据清理?

推荐:使用 NSDT场景编辑器 助你快速搭建可编辑的3D应用场景

在数据科学中,数据清理是识别不正确数据并修复错误的过程,以便最终数据集可供使用。错误可能包括重复字段、格式不正确、字段不完整、数据不相关或不准确以及数据损坏。

数据清理在数据科学中的重要性


在数据科学项目中,清理阶段在数据管道中的验证之前。在管道中,每个阶段引入输入并创建输出,从而改进每一步的数据。数据管道的好处是每个步骤都有特定的用途并且是独立的,这意味着数据经过彻底检查。

数据清理在数据科学中的重要性

数据很少以现成的形式到达;事实上,可以自信地说,数据永远不会完美无缺。当从不同的来源和现实世界的环境中收集数据时,数据必然包含大量错误并采用不同的格式。因此,数据清理的意义就出现了——使数据无错误、相关且易于被模型吸收。

处理来自多个来源的大量数据集时,可能会发生错误,包括重复或错误分类。这些错误极大地影响了算法的准确性。值得注意的是,数据清理和组织可能会消耗数据科学家 80% 的时间,这凸显了其在数据管道中的关键作用。

数据清理示例

下面是数据清理如何修复数据集中的错误的三个示例。

数据格式化

数据格式设置涉及将数据转换为特定格式或修改数据集的结构。确保一致性和结构良好的数据集对于避免数据分析过程中的错误至关重要。因此,在清洁过程中采用各种技术是必要的,以保证准确的数据格式。这可能包括将分类数据转换为数值,并将多个数据源合并为一个统一的数据集。

空值/缺失值

数据清理技术在解决数据问题(如缺失值或空值)方面起着至关重要的作用。这些技术涉及使用相关信息估计和填补数据集中的空白。

例如,考虑位置字段。如果字段为空,科学家可以使用数据集或类似数据集中的平均位置数据填充该字段。虽然不是完美无缺的,但拥有最可能的位置比根本没有位置信息更可取。这种方法可确保提高数据质量并增强数据集的整体可靠性。

识别异常值

在数据集中,某些数据点可能与其他数据点缺乏任何实质性联系(例如,在价值或行为方面)。因此,在数据分析过程中,这些异常值具有显着扭曲结果的能力,导致误导的预测和有缺陷的决策。但是,通过实施各种数据清理技术,可以识别和消除这些异常值,最终确保数据集的完整性和相关性。

数据清理在数据科学中的重要性


数据清理的好处

数据清理提供了一系列好处,这些好处对数据的准确性、相关性、可用性和分析有重大影响。

  • 准确性 - 使用数据清理工具和技术可显著减少数据集中包含的错误和不准确性。这对于数据分析非常重要,有助于创建做出准确预测的模型。
  • 可用性 - 一旦清理并正确格式化,数据就可以应用于许多用例,使其更易于访问,因此可以在一系列项目类型中使用。
  • 分析 - 干净的数据使分析阶段更加有效,使分析师能够获得更深入的见解并提供更可靠的结果。
  • 高效的数据存储 - 通过删除不必要和重复的数据,存储成本得以降低,因为只需要保留相关的、有价值的数据,无论是在现场服务器还是云数据仓库上。
  • 治理 - 数据清理可以帮助组织遵守严格的法规和数据治理,保护个人隐私并避免任何处罚。最近几个月颁布了更多的数据合规法律。一个例子是最近的德克萨斯州消费者隐私法(TDPSA),该法禁止某些数据做法,例如收集出于收集目的而不合理必要的个人客户数据。

数据清理过程:8 个步骤

数据管道的数据清理阶段由八个常见步骤组成:

  • 删除重复项
  • 删除不相关的数据
  • 资本化的标准化
  • 数据类型转换
  • 异常值的处理
  • 错误的修复
  • 语言翻译
  • 任何缺失值的处理

1. 删除重复项

利用多个数据源的大型数据集极有可能出现错误,包括重复项,尤其是在新条目未经过质量检查时。重复数据是冗余的,会占用不必要的存储空间,因此需要进行数据清理以提高效率。重复数据的常见实例包括重复的电子邮件地址和电话号码。

2. 删除不相关的数据

要优化数据集,删除不相关的数据字段至关重要。这将导致更快的模型处理,并实现更集中的方法来实现特定目标。在数据清理阶段,任何与项目范围不一致的数据都将被删除,仅保留完成任务所需的必要信息。

3. 资本化的标准化

标准化数据集中的文本对于确保一致性和促进轻松分析至关重要。更正大小写尤其重要,因为它可以防止创建可能导致混乱和混乱数据的虚假类别。

4. 数据类型转换

当使用Python处理CSV数据时,分析师通常依赖Pandas,这是首选的数据分析库。但是,在某些情况下,Pandas 在有效处理数据类型方面存在不足。为了保证准确的数据转换,分析人员采用清洁技术。这可确保在应用于实际项目时可以轻松识别正确的数据。

5. 异常值的处理

异常值是与其他点缺乏相关性的数据点,与数据集的整体上下文有很大偏差。虽然异常值偶尔可以提供有趣的见解,但它们通常被视为应删除的错误。

6. 错误的修复

确保模型的有效性至关重要,在数据分析阶段之前纠正错误至关重要。此类错误通常是由于没有适当检查程序的手动数据输入造成的。示例包括数字不正确的电话号码、没有“@”符号的电子邮件地址或未标点的用户反馈。

7. 语言翻译

数据集可以从以不同语言编写的各种来源收集。但是,当使用此类数据进行机器翻译时,评估工具通常依赖于单语自然语言处理(NLP)模型,该模型一次只能处理一种语言。值得庆幸的是,在数据清理阶段,人工智能工具可以通过将所有数据转换为统一的语言来拯救。这确保了整个翻译过程中更大的一致性和兼容性。

8. 任何缺失值的处理

数据清理的最后步骤之一是解决缺失值。这可以通过删除具有缺失值的记录或采用统计技术来填补空白来实现。全面了解数据集对于做出这些决策至关重要。

总结

数据清理在数据科学中的重要性永远不能被低估,因为它可以显着影响数据模型的准确性和整体成功。通过彻底的数据清理,数据分析阶段可能会输出有缺陷的结果和不正确的预测。

在数据清理阶段需要纠正的常见错误是重复数据、缺失值、不相关的数据、异常值以及将多种数据类型或语言转换为单一形式。

原文链接:数据清理在数据科学中的重要性 (mvrlink.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/32276.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

web集群学习:源码安装nginx配置启动服务脚本、IP、端口、域名的虚拟主机

目录 1、源码安装nginx,并提供服务脚本。 2、配置基于ip地址的虚拟主机 3、配置基于端口的虚拟主机 4、配置基于域名的虚拟主机 1、源码安装nginx,并提供服务脚本。 1、源码安装会有一些软件依赖 (1)检查并安装 Nginx 基础依赖…

数据结构刷题训练——链表篇(二)

目录 前言 1.题目一:链表分割 1.1 思路 1.2 分析 1.3 题解 2. 题目二:相交链表 2.1 思路 2.2 分析 2.3 题解 3. 题目三:环形链表 3.1 思路 3.2 分析 3.3 题解 总结 前言 本期继续分享链表相关的OJ题目,在这个专栏博客…

【论文阅读】EULER:通过可扩展时间链接预测检测网络横向移动(NDSS-2022)

作者:乔治华盛顿大学-Isaiah J. King、H. Howie Huang 引用:King I J, Huang H H. Euler: Detecting Network Lateral Movement via Scalable Temporal Graph Link Prediction [C]. Proceedings 2022 Network and Distributed System Security Symposium…

UDP通信实验、广播与组播、本地套接字

文章目录 流程函数应用广播应用 组播(多播)本地套接字应用 流程 函数 返回值: 成功,返回成功发送的数据长度 失败,-1 返回值: 成功,返回成功接收数据长度 失败,-1 应用 广播 应用 …

MongoDB文档-进阶使用-MongoDB索引-createindex()与dropindex()-在MongoDB中使用正则表达式来查找

阿丹: 之前研究了MongoDB的基础增删改查。在学会基础的数据库增删改查肯定是不够的。这个时候就涉及到了数据库搜索的时候的效率。需要提高数据的搜索效率。 MongoDB索引 在所以数据库中如果没有数据索引的时候。如果需要查找到一些数据。都会去主动扫描所有可能存…

mybatis-plus的逻辑删除的坑

一旦在逻辑字段上加了TableLogic逻辑删除的配置,并且使用mybatis-plus自带的方法时(如果自己用xml写SQL不会出现下面的情况) 查询、修改时会自动排除逻辑删除的数据 当使用mybatis-plus自带的查询方法时,就不用每次查询的时候跟…

Blazor 简单组件(1):B_Icon开发

文章目录 前言ICON开发使用 前言 Blazor 简单组件(0)&#xff1a;简单介绍 ICON开发 <i class"Type" style"font-size:(Size)px;color:Color;"></i>code {/// <summary>/// icon类型/// </summary>[Parameter]public string Typ…

nginx 以及nginx优化

目录 nginx功能介绍 静态文件服务 反向代理 动态内容处理 SSL/TLS 加密支持 虚拟主机支持 URL 重写和重定向 缓存机制 日志记录 可扩展性和灵活性 nginx的主要应用场景 nginx常用命令 nginx另外一种安装方式 nginx常用的信号符&#xff1a; nginx配置文件详解 n…

Nginx复现

docker复现Nginx配置漏洞 2.1CRLF(carriage return/line feed)注入漏洞 这个漏洞产生的原因是请求重定向的错误配置&#xff0c;导致在url中输入回车换行符可以控制http响应头部 比如&#xff1a;location / { return 302 https://$host$uri; } 原本的目的是为了让http的…

【JavaEE基础学习打卡02】是时候了解JavaEE了

目录 前言一、为什么要学习JavaEE二、JavaEE规范介绍1.什么是规范&#xff1f;2.什么是JavaEE规范&#xff1f;3.JavaEE版本 三、JavaEE应用程序模型1.模型前置说明2.模型具体说明 总结 前言 &#x1f4dc; 本系列教程适用于JavaWeb初学者、爱好者&#xff0c;小白白。我们的天…

c#在设计时调试自定义 Windows 窗体控件

private string demoStringValue null; [Browsable(true)] public string DemoString {get{return this.demoStringValue;}set{demoStringValue value;} } 参考链接 在设计时调试自定义控件 - Windows Forms .NET Framework | Microsoft Learnhttps://learn.microsoft.com/z…

生信豆芽菜——配对型的复杂箱线图使用说明

网站&#xff1a;http://www.sxdyc.com/visualsBoxHalfPlot 一、配对型的复杂箱线图简介 配对型的复杂箱线图原理与箱线图相同&#xff0c;常见于配对样本的数据分析中&#xff0c;在日常研究中&#xff0c;我们会碰到配对资料&#xff0c;例如同一病人治疗前后的变化&#xff…

数据结构: 线性表(带头双向循环链表实现)

之前一章学习了单链表的相关操作, 但是单链表的限制却很多, 比如不能倒序扫描链表, 解决方法是在数据结构上附加一个域, 使它包含指向前一个单元的指针即可. 那么怎么定义数据结构呢? 首先我们先了解以下链表的分类 1. 链表的分类 链表的结构非常多样, 以下情况组合起来就有…

LVS集群

目录 1、lvs简介&#xff1a; 2、lvs架构图&#xff1a; 3、 lvs的工作模式&#xff1a; 1&#xff09; VS/NAT&#xff1a; 即&#xff08;Virtual Server via Network Address Translation&#xff09; 2&#xff09;VS/TUN &#xff1a;即&#xff08;Virtual Server v…

7.2 手撕VGG11模型 使用Fashion_mnist数据训练VGG

VGG首先引入块的思想将模型通用模板化 VGG模型的特点 与AlexNet&#xff0c;LeNet一样&#xff0c;VGG网络可以分为两部分&#xff0c;第一部分主要由卷积层和汇聚层组成&#xff0c;第二部分由全连接层组成。 VGG有5个卷积块&#xff0c;前两个块包含一个卷积层&#xff0c…

MySQL_SQL性能分析

SQL执行频次 语法&#xff1a; SHOW GLOBAL STATUS LIKE COM_类型; COM_insert; 插入次数 com_delete; 删除次数 com_update; 更新次数 com_select; 查询次数 com_______; 注意&#xff1a;通过语法&#xff0c;可以查询到数据库的实际状态&#xff0c;就可以知道数据库是以增删…

TDesign中后台管理系统-用户登录

目录 1 创建用户表2 开发后端接口3 测试接口4 修改登录页面调用后端接口最终效果总结 中后台系统第一个要实现的功能就是登录了&#xff0c;我们通常的逻辑是让用户在登录页面输入用户名和密码&#xff0c;调用后端接口去验证用户的合法性&#xff0c;然后根据接口返回的结果进…

【T3】金蝶kis凭证数据转换到畅捷通T3软件中。

【问题需求】 将金蝶软件中的账套转换到畅捷通T3软件中。 由于金蝶老版本使用的是非sql server数据库。 进而需要将其数据导入到sql中,在转换到T3。 【转换环境】 金蝶中数据:凭证;科目无项目核算。 1、金蝶的数据文件后缀为.AIS; 2、安装office2003全版软件; 3、安装sq…

【算法】双指针——leetcode盛最多水的容器、剑指Offer57和为s的两个数字

盛水最多的容器 &#xff08;1&#xff09;暴力解法 算法思路&#xff1a;我们枚举出所有的容器大小&#xff0c;取最大值即可。 容器容积的计算方式&#xff1a; 设两指针 i , j &#xff0c;分别指向水槽板的最左端以及最右端&#xff0c;此时容器的宽度为 j - i 。由于容器…

【CDH集群】无法发出查询:Host Monitor未运行

无法发出查询:Host Monitor未运行 【CDH集群】无法发出查询:Host Monitor未运行同事的解决方案解决方法&#xff1a;删除原uuid重启agent查看新uuid修改scm数据库中HOSTS表中的agent的uuid 【CDH集群】无法发出查询:Host Monitor未运行 起初是impala报错&#xff0c;连接不上&…