图像离群值_什么是离群值?

图像离群值

你是! (You are!)

Actually not. This is not a text about you.

其实并不是。 这不是关于您的文字。

But, as Gladwell puts it in Outliers, if you find yourself being that type of outlier, you’re quite lucky. And rare.

但是,正如Gladwell在“ 离群值”中所说的那样,如果您发现自己属于这种离群值,那么您很幸运。 和罕见。

实际上是什么离群值? (What is actually an outlier?)

Image for post
Photo by Daniel Reche from Pexels
Pexels的Daniel Reche 摄

According to Meriam-Webster, an outlier is:

根据Meriam-Webster的估计,离群值是:

“a statistical observation that is markedly different in value from the others of the sample”

“统计观察值与样本中其他值明显不同”

But you’re not here for that, are you?

但是,您不是在这里吗?

Let’s simply explain when a data point is considered an outlier, why that might happen, and what you can do about it.

让我们简单地解释一下何时将数据点视为异常值,为什么会发生这种异常以及您可以采取什么措施。

什么时候? (When?)

There are multiple ways with which we can identify and highlight outliers but our goal here is to keep it short and simple, so let’s discuss the easiest way. You can find other ways here.

我们可以使用多种方法来识别和突出显示离群值,但是我们的目标是使其简短而简单,因此让我们讨论最简单的方法。 您可以在这里找到其他方法。

Any observed value is considered an outlier if it falls beyond the range of 1stQuartile-1.5 x IQR to 3rdQuartile + 1.5 x IQR.

如果任何观测值超出1stQuartile-1.5 x IQR到3rdQuartile + 1.5 x IQR的范围,则将其视为异常值。

Image for post
Source: giphy.com
资料来源:giphy.com

Stay here!

留在这儿!

I promised it will be easy, so it will. We just have to fix what this IQR (inter-quartile-range) means.

我保证这会很容易,所以会。 我们只需要解决此IQR(四分位间距)的含义即可。

Let’s consider you’re meeting your highschool colleagues, 9 people. All coming in cars. For the purpose of this explanation, let’s image we collect data on the horsepower of all your cars in ascending order.

让我们考虑一下您正在与9位高中生见面。 都进来的车。 为了便于说明,让我们想象一下,我们以升序收集有关您所有汽车的马力的数据。

105 | 133 | 146 | 183 | 190 | 195 | 210 | 220 | 510 ← values collected

105 | 133 | 146 | 183 | 190 | 195 | 210 | 220 | 510←收集的值

Now if you know a bit of statistics, we have what is called quartiles. If you don’t remember please look here and then come back.

现在,如果您知道一些统计信息,我们就有所谓的四分位数。 如果您不记得了,请看这里然后再回来。

IQR = 3rdQuartile - 1stQuartile = 215–139.5 = 75.5

IQR =第三四分位数-1stQuartile = 215–139.5 = 75.5

Now, coming back to what is considered an outlier in our example, we need to calculate Q1-1.5 x IQR and Q3+1.5 x IQR.

现在,回到示例中被认为是异常值的地方,我们需要计算Q1-1.5 x IQR和Q3 + 1.5 x IQR。

  • Q1 - 1.5 x IQR = 139.5–75.5 = 64 (Q1 — first quartile)

    Q1-1.5 x IQR = 139.5–75.5 = 64 ( Q1- 第一个四分位数)

  • Q3 + 1.5 x IQR = 215 + 75.5 = 290.5 (Q3 — third quartile)

    Q3 + 1.5 x IQR = 215 + 75.5 = 290.5 (Q3-第三四分位数)

We’re very close. STAY HERE!

我们非常接近。 留在这里

As mentioned before starting the calculation, any observed value that is outside the interval [64;290.5] is considered an outlier. An extreme value compared to the collected data. Question is, are there any values outside the interval in our data? That’s right, 510 is. (Let’s assume that’s you, you have a new BMW M5).

如开始计算之前所述,在间隔[64; 290.5]之外的任何观测值都被视为异常值。 与收集的数据相比的极值。 问题是,我们的数据间隔之外是否还有其他值? 是的, 510是。 (假设您是您,您有新的BMW M5)。

And here we are, that is the very easy way of calculating outliers out of a set of simple collected data.

这就是从一组简单的收集数据中计算离群值的非常简单的方法。

为什么? (Why?)

There are multiple reasons outliers might end up in a set of data. Both good and bad.

有多种原因可能导致离群值出现在一组数据中。 好与坏。

Data entry errors → instead of 510 you wanted to type 210 and thus the value became an outlier;

数据输入错误 →您想输入210而不是510,因此该值成为异常值;

Measurement errors → you’ve measured your car’s power at a service center that is well known for inflating the numbers. That 510 is not real;

测量误差 →您已经在服务中心测量了汽车的功率,该服务中心以数字夸大而闻名。 那510不是真实的;

Experimental errors → one of your colleagues, the one with 105 told you the value in kw not in horsepower, the misunderstanding is an experimental error;

实验错误→您的一位同事,有105个告诉您以kw表示的值而不是马力,误解是实验错误;

Intentional → you’re putting your colleagues to the test and tell them a value that is not real;

故意 →您正在对同事进行测试,并告诉他们一个不真实的价值;

Natural → and that is where we are, you’re really a hustler and your M5 power is not experimental measurement BS, you really are an outlier.

自然→这就是我们的位置,您真的是骗子,您的M5功率不是实验测量BS,您确实是一个异常值。

什么? (What?)

Now that you know what they are, how you find them, and what may cause them, what can be done to make use or get rid of them?

现在,您知道它们是什么,如何找到它们以及可能导致它们的原因,可以采取哪些措施来利用或摆脱它们?

  1. If you want to brag about how great the average of hp in your class is, keep the values. Consider that the average is not representative as it is influenced by the outlier. You.

    如果您要吹嘘班级中的平均功率是多少, 请保留这些值 。 考虑到平均值没有代表性,因为它受到异常值的影响。 您。

  2. If you think your car is very different and you’re an exception to the other cars, take your value out.

    如果您认为自己的汽车与众不同,并且是其他汽车的例外,那么请充分利用自己的价值。

  3. If you feel like there are other highschool colleagues with powerful cars but did not show up, make another meeting and treat your group as a different one.

    如果您觉得还有其他高中生有高功率汽车,但没有露面,请举行另一次会议并将您的小组视为另一小组

That was it.

就是这样

Image for post
Source: giphy.com
资料来源:giphy.com

This is, as always, an oversimplistic and humoristic approach to explaining rather complex statistical concepts.

与往常一样,这是一种过于简单和幽默的方法,用于解释相当复杂的统计概念。

If you like my work, consider reading other posts of mine, I try to publish weekly:

如果您喜欢我的作品,请考虑阅读我的其他文章,我尝试每周发布一次:

翻译自: https://towardsdatascience.com/what-is-an-outlier-26888fd9870d

图像离群值

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/388965.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

混合模型和EM---混合高斯

2019独角兽企业重金招聘Python工程师标准>>> 混合高斯 最大似然 用于高斯混合模型的EM 转载于:https://my.oschina.net/liyangke/blog/2986520

Python学习---django知识补充之CBV

Django知识补充之CBV Django: url --> def函数 FBV[function based view] 用函数和URL进行匹配 url --> 类 CBV[function based view] 用类和URL进行匹配 POSTMAN插件 http://blog.csdn.net/zzy1078689276/article/details/77528249 基于CBV的登…

蓝图解锁怎么用_[UE4蓝图][Materials]虚幻4中可互动的雪地材质完整实现(一)

不说废话,先上个演示图最终成果(脚印,雪地可慢慢恢复,地形可控制)主要原理(白话文):假如你头上是块白色并且可以透视的平地,来了个非洲兄弟踩上面,你拿起单反…

数据预处理工具_数据预处理

数据预处理工具As the title states this is the last project from Udacity Nanodegree. The goal of this project is to analyze demographics data for customers of a mail-order sales company in Germany.如标题所示,这是Udacity Nanodegree的最后一个项目。…

自考数据结构和数据结构导论_我跳过大学自学数据科学

自考数据结构和数据结构导论A few months back, I decided I wanted to learn data science. In order to do this, I skipped an entire semester of my data science major.几个月前,我决定要学习数据科学。 为此, 我跳过了数据科学专业的整个学期。 …

十三、原生爬虫实战

一、简单实例 1、需求:爬取熊猫直播某类主播人气排行 2、了解网站结构 分类——英雄联盟——"观看人数" 3、找到有用的信息 二、整理爬虫常规思路 1、使用工具chrome——F12——element——箭头——定位目标元素 目标元素:主播名字&#xff0c…

归一化 均值归一化_归一化折现累积收益

归一化 均值归一化Do you remember the awkward moment when someone you had a good conversation with forgets your name? In this day and age we have a new standard, an expectation. And when the expectation is not met the feeling is not far off being asked “w…

sqlserver垮库查询_Oracle和SQLServer中实现跨库查询

一、在SQLServer中连接另一个SQLServer库数据在SQL中,要想在本地库中查询另一个数据库中的数据表时,可以创建一个链接服务器:EXEC master.dbo.sp_addlinkedserver server N别名, srvproductN库名,providerNSQLOLEDB, datasrcN服务器地址EXEC…

机器学习实践三---神经网络学习

Neural Networks 在这个练习中,将实现神经网络BP算法,练习的内容是手写数字识别。Visualizing the data 这次数据还是5000个样本,每个样本是一张20*20的灰度图片fig, ax_array plt.subplots(nrows10, ncols10, figsize(6, 4))for row in range(10):fo…

机器学习实践四--正则化线性回归 和 偏差vs方差

这次实践的前半部分是,用水库水位的变化,来预测大坝的出水量。 给数据集拟合一条直线,可能得到一个逻辑回归拟合,但它并不能很好地拟合数据,这是高偏差(high bias)的情况,也称为“欠…

深度学习 推理 训练_使用关系推理的自我监督学习进行训练而无需标记数据

深度学习 推理 训练背景与挑战📋 (Background and challenges 📋) In a modern deep learning algorithm, the dependence on manual annotation of unlabeled data is one of the major limitations. To train a good model, usually, we have to prepa…

CentOS 7 使用 ACL 设置文件权限

Linux 系统标准的 ugo/rwx 集合并不允许为不同的用户配置不同的权限,所以 ACL 便被引入了进来,为的是为文件和目录定义更加详细的访问权限,而不仅仅是这些特别指定的特定权限。 ACL 可以为每个用户,每个组或不在文件所属组中的用…

机器学习实践五---支持向量机(SVM)

之前已经学到了很多监督学习算法, 今天的监督学习算法是支持向量机,与逻辑回归和神经网络算法相比,它在学习复杂的非线性方程时提供了一种更为清晰,更强大的方式。 Support Vector Machines SVM hypothesis Example Dataset 1…

服务器安装mysql_阿里云服务器上安装MySQL

关闭防火墙和selinuxCentOS7以下:service iptables stopsetenforce 0CentOS7.xsystemctl stop firewalldsystemctl disable firewalldsystemctl status firewalldvi /etc/selinux/config把SELINUXenforcing 改成 SELINUXdisabled一、安装依赖库yum -y install make …

在PyTorch中转换数据

In continuation of my previous post ,we will keep on deep diving into basic fundamentals of PyTorch. In this post we will discuss about ways to transform data in PyTorch.延续我以前的 发布后 ,我们将继续深入研究PyTorch的基本原理。 在这篇文章中&a…

机器学习实践六---K-means聚类算法 和 主成分分析(PCA)

在这次练习中将实现K-means 聚类算法并应用它压缩图片,第二部分,将使用主成分分析算法去找到一个脸部图片的低维描述。 K-means Clustering Implementing K-means K-means算法是一种自动将相似的数据样本聚在一起的方法,K-means背后的直观是一个迭代过…

打包 压缩 命令tar zip

2019独角兽企业重金招聘Python工程师标准>>> 打包 压缩 命令tar zip tar语法 #压缩 tar -czvf ***.tar.gz tar -cjvf ***.tar.bz2 #解压缩 tar -xzvf ***.tar.gz tar -xjvf ***.tar.bz2 tar [主选项辅选项] 文件或目录 主选项是必须要有的,它告诉tar要做…

mysql免安装5.7.17_mysql免安装5.7.17数据库配置

首先要有 mysql-5.7.10-winx64环境: mysql-5.7.10-winx64 win10(64位)配置环境变量:1、把mysql-5.7.10-winx64放到D盘,进入D\mysql-5.7.10-winx64\bin目录,复制路径,配置环境变量,在path后面添加D\mysql-5.7.10-winx6…

tidb数据库_异构数据库复制到TiDB

tidb数据库This article is based on a talk given by Tianshuang Qin at TiDB DevCon 2020.本文基于Tianshuang Qin在 TiDB DevCon 2020 上的演讲 。 When we convert from a standalone system to a distributed one, one of the challenges is migrating the database. We’…

机器学习实践七----异常检测和推荐系统

Anomaly detection 异常检测是机器学习中比较常见的应用,它主要用于非监督学习问题,从某些角度看, 它又类似于一些监督学习问题。 什么是异常检测?来看几个例子: 例1. 假设是飞机引擎制造商, 要对引擎进行…