自我价值感缺失的表现_不同类型的缺失价值观和应对方法

自我价值感缺失的表现

Before handling the missing values, we must know what all possible types of it exists in the data science world. Basically there are 3 types to be found everywhere on the web, but in some of the core research papers there is one more type of it. Let me introduce you with all of them very briefly-

在处理缺失值之前,我们必须知道数据科学世界中存在所有可能的类型。 基本上,在网络上到处都可以找到3种类型,但是在一些核心研究论文中,还有另外一种类型。 让我简单地向大家介绍一下-

  1. Structurally Missing Data- Let me tell you an example where we have the results of the students of a university of a particular semester and out of the entire data, some of the result values were missing. This may happen when either of the students have dropped out before exams or maybe were absent. So, this is a structurally missing value. In this case, the best possible solution is to deduce by inserting 0 at those missing places.

    结构上缺失的数据-让我告诉你一个例子,其中我们有特定学期大学学生的成绩,而在全部数据中,有些结果值丢失了。 当任何一个学生在考试前辍学或缺席时,可能会发生这种情况。 因此,这是结构上缺失的值。 在这种情况下,最好的解决方案是在那些丢失的位置插入0来推断。

  2. MCAR (Missing Completely at Random)- When missing values are randomly distributed over entire dataset, MCAR occurs in instances where missing data is not related to the scores on the variables in the question and is not related to the scores on any other variables under analysis. For example, when data are missing for respondents for which their questionnaire was lost. Say you have complete data of 15 questions and incomplete data of 10. In this case, we compare these two datasets by some testing say t-test and if we don’t find any difference in means between the two samples of data, we can assume the data to be MCAR.

    MCAR(完全随机缺失)-当缺失值随机分布在整个数据集中时,MCAR发生在以下情况下:缺失数据与问题中变量的分数无关,并且与分析中任何其他变量的分数均无关。 例如,当丢失了问卷的受访者的数据丢失时。 假设您有15个问题的完整数据,有10个问题的不完整数据。在这种情况下,我们通过一些测试(例如t检验)比较了这两个数据集,如果我们发现两个数据样本之间的均值没有任何差异,我们可以假设数据为MCAR。

  3. MAR (Missing at Random)- Data is not missing randomly across entire dataset but is missing randomly only within sub samples of data. When the probability of missing data on a variable is related to some other measured variable in the model, but not to the value of the variable with missing value itself is MAR. For example, in an IQ dataset, only older people have missing value. Thus, the probability of missing data on IQ is related to age. Also, to assume this as MAR is difficult because there is no way of testing it.

    MAR(随机丢失)-数据在整个数据集中并不是随机丢失的,而是仅在子数据样本内随机丢失的。 当变量上缺失数据的概率与模型中其他一些测量变量相关,而与缺失值本身无关的变量值则为MAR。 例如,在IQ数据集中,只有老年人的价值缺失。 因此,丢失智商数据的可能性与年龄有关。 而且,很难将其假定为MAR,因为没有办法对其进行测试。

  4. NMAR (Not Missing at Random)- When the missing data has no structure to it, we can’t treat it as missing at random. It may be the case where we can’t make conclusions to the missing value.

    NMAR(随机丢失)-当丢失的数据没有结构时,我们不能将其视为随机丢失。 在某些情况下,我们无法得出缺失值的结论。

Some Common Approaches to deal with such type of missing data:

处理此类丢失数据的一些常用方法

  1. Simple one: Drop the corresponding Column/ Row-

    简单一:删除相应的Column / Row-

pd.Dataframe.isnull().dropna() 

If your data size is large and corresponding count of missing values in column/rows are comparatively quite low, then we use this approach.

如果您的数据量很大,并且列/行中缺失值的相应计数相对较低,那么我们可以使用这种方法。

2. Imputation- It fills the missing value with some number. The imputed value won’t be exactly right in most cases, but it usually leads to more accurate models than you would get from dropping the column/row entirely. We can name some of the imputation techniques as below:

2.插补-用一些数字填充缺失值。 在大多数情况下,推算的值并不完全正确,但是与完全删除列/行相比,推导的值通常会导致更准确的模型。 我们可以将一些插补技术命名为:

a) Mean/Median Imputation: As the name suggests, in this we replace missing values by mean or median of the total. We use this approach when the number of missing observations is low.

a)均值/中位数插补:顾名思义,在此我们将缺失值替换为总数的均值或中位数。 当缺少的观察次数很少时,我们使用这种方法。

b) Multivariate Imputation by Chained Equations (MICE): It assumes that the missing data are Missing at Random (MAR). It imputes data on a variable-by-variable basis by specifying an imputation model per variable. It uses all the variables in the data for predictions.

b)链式方程多元估计(MICE):它假定丢失的数据是随机丢失(MAR)。 通过为每个变量指定插补模型,它可以逐变量插补数据。 它使用数据中的所有变量进行预测。

3. Random Forest- Yes, it is also a non-parametric imputation method that works well with both data missing at random and not missing at random. It uses multiple decision trees to estimate missing values and outputs OOB (out of bag) imputation error estimates.

3.随机森林-是的,它也是一种非参数插补方法,可以很好地处理随机丢失的数据和随机丢失的数据。 它使用多个决策树来估计缺失值,并输出OOB(袋外)估算误差估计。

However, there are various other efficient methods to handle the missing values as per the given scenario and the type of data. I have discussed here the most common ones with you. Hope it was helpful, thanks for reading! Good luck!! Be safe!!

但是,根据给定方案和数据类型,还有各种其他有效的方法来处理缺失值。 我在这里与您讨论了最常见的问题。 希望对您有所帮助,感谢您的阅读! 祝好运!! 注意安全!!

翻译自: https://medium.com/analytics-vidhya/different-types-of-missing-values-approaches-to-deal-with-them-1f67c617374c

自我价值感缺失的表现

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/392087.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[收藏转载]C# GDI+ 简单绘图(一)

最近对GDI这个东西接触的比较多,也做了些简单的实例,比如绘图板,仿QQ截图等. 废话不多说了,我们先来认识一下这个GDI,看看它到底长什么样. GDI:Graphics Device Interface Plus也就是图形设备接…

mybaties总结+hibernate总结

一、对原生态jdbc程序中问题总结 1.1 jdbc程序 需求:使用jdbc查询mysql数据库中用户表的记录 statement:向数据库中发送一个sql语句 预编译statement:好处:提高数据库性能。 预编译statement向数据库中发送一个sql语句,数据库编译…

客户旅程_我如何充分利用freeCodeCamp的旅程

客户旅程by Catherine Vassant (aka Codingk8)由凯瑟琳瓦森(Catherine Vassant)(又名Codingk8) 我如何充分利用freeCodeCamp的旅程 (How I made the most out of my freeCodeCamp journey) 我的路线图? ️超越课程范围的reeCodeCamp (My road map ?️ to freeCode…

Python14 函数

函数 面向对象编程: 类----class 面向过程编程:过程---def 函数式编程:函数---def def test(x):描述x 1return x#def是定义函数的关键字#test是函数名称#(x)是参数#x1是 函数体,是一段逻辑代码#return 定义…

学习sql注入:猜测数据库_面向数据科学家SQL:学习简单方法

学习sql注入:猜测数据库We don’t pick a hammer and look for nails — that would be an unusual way of solving problems. The usual way of doing business is to identify the problem first, then look for appropriate tools.我们不用锤子找钉子,那是解决问…

android 百度地图3.0,android 百度地图3.0

一:为地图设置事件注意新版本中要有一个getMapmMapView.getMap().setOnMapStatusChangeListener(listener);OnMapStatusChangeListener listener newOnMapStatusChangeListener() {/*** 手势操作地图,设置地图状态等操作导致地图状态开始改变。* param s…

(摘录)sockaddr与sockaddr_in,sockaddr_un结构体详细讲解

struct sockaddr { unsigned short sa_family; /* address family, AF_xxx */ char sa_data[14]; /* 14 bytes of protocol address */ }; sa_family是地址家族,一般都是“AF_xxx”的形式。好像通常大多用的是都是AF_INET。 sa_data是14字节协议…

数据挖掘—K-中心点聚类算法(Java实现)

K-中心点聚类算法 (1)任意选择k个对象作为初始的簇中心点 (2)指派每个剩余对象给离他最近的中心点所表示的簇 (3)选择一个未被选择的中心点直到所有的中心点都被选择过 (4)选择一个…

使用akka构建高并发程序_如何使用Akka Cluster创建简单的应用程序

使用akka构建高并发程序If you read my previous story about Scalachain, you probably noticed that it is far from being a distributed system. It lacks all the features to properly work with other nodes. Add to it that a blockchain composed by a single node is…

pandas之数值计算与统计

数值计算与统计 对于DataFrame来说,求和、最大、最小、平均等统计方法,默认是按列进行统计,即axis 0,如果添加参数axis 1则会按照行进行统计。 如果存在空值,在统计时默认会忽略空值,如果添加参数skipna …

python自动化数据报告_如何:使用Python将实时数据自动化到您的网站

python自动化数据报告This tutorial will be helpful for people who have a website that hosts live data on a cloud service but are unsure how to completely automate the updating of the live data so the website becomes hassle free. For example: I host a websit…

一颗站在技术边缘的土豆

2012年开始上专业课,2013年打了一年游戏,年底专业课忘光了,但是蒙混过关没挂科,2014年7月份毕业,对这个社会充满向往。2014年9月份——方正代理商做网络安全公司。2015年3月份跳槽到一家vmware代理商公司。2016年6月&a…

leetcode 839. 相似字符串组(并查集)

如果交换字符串 X 中的两个不同位置的字母,使得它和字符串 Y 相等,那么称 X 和 Y 两个字符串相似。如果这两个字符串本身是相等的,那它们也是相似的。 例如,“tars” 和 “rats” 是相似的 (交换 0 与 2 的位置); “r…

android intent参数是上次的结果,【Android】7.0 Intent向下一个活动传递数据、返回数据给上一个活动...

1.0 可以利用Intent吧数据传递给上一个活动,新建一个叫“hellotest01”的项目。新建活动FirstActivity,勾选“Generate Layout File”和“Launcher Activity”。image修改AndroidMainifest.xml中的内容:android:name".FirstActivity&quo…

实习一年算工作一年吗?_经过一年的努力,我如何找到软件工程工作

实习一年算工作一年吗?by Andrew Ngo通过安德鲁恩戈 经过一年的努力,我如何找到软件工程工作 (How I landed a software engineering job after a year of hard work) Many of us think the path to becoming a software engineer requires years of education an…

学习深度学习需要哪些知识_您想了解的有关深度学习的所有知识

学习深度学习需要哪些知识有关深层学习的FAU讲义 (FAU LECTURE NOTES ON DEEP LEARNING) Corona was a huge challenge for many of us and affected our lives in a variety of ways. I have been teaching a class on Deep Learning at Friedrich-Alexander-University Erlan…

参加开发竞赛遇到的问题【总结】

等比赛完就写。 转载于:https://www.cnblogs.com/jiangyuanjia/p/11261978.html

html5--3.16 button元素

html5--3.16 button元素 学习要点 掌握button元素的使用button元素 用来建立一个按钮从功能上来说,与input元素建立的按钮相同button元素是双标签,其内部可以配置图片与文字,进行更复杂的样式设计不仅可以在表单中使用,还可以在其…

如何注册鸿蒙id,鸿蒙系统真机调试证书 和 设备ID获取

鸿蒙系统真机调试创建项目创建项目创建应用创建鸿蒙应用(注意,测试阶段需要发邮件申请即可)关联应用项目进入关联 添加引用准备调试使用的 p12 和证书请求 csr使用以下命令// 别名"test"可以修改,但必须前后一致,密码请自行修改key…

Java—实现 IOC 功能的简单 Spring 框架

编写一个实现 IOC 功能的简单 Spring 框架,包含对象注册、对象管理、及暴 露给外部获取对象的功能,并编写测试程序。扩展注册器的方式,要求采用 XML 和 txt 文件。 源代码 package myspring;import java.lang.reflect.Method; import java.…