如何选择合适的损失函数,请看......

640?wx_fmt=gif


640?wx_fmt=png


机器学习中的所有算法都依赖于最小化或最大化某一个函数,我们称之为“目标函数”。最小化的这组函数被称为“损失函数”。损失函数是衡量预测模型预测期望结果表现的指标。寻找函数最小值的最常用方法是“梯度下降”。把损失函数想象成起伏的山脉,梯度下降就像从山顶滑下,目的是到达山脉的最低点。


没有一个损失函数可以适用于所有类型的数据。损失函数的选择取决于许多因素,包括是否有离群点,机器学习算法的选择,运行梯度下降的时间效率,是否易于找到函数的导数,以及预测结果的置信度。这个博客的目的是帮助你了解不同的损失函数。


损失函数可以大致分为两类:分类损失(Classification Loss)和回归损失(Regression Loss)。下面这篇博文,就将重点介绍5种回归损失。


640?wx_fmt=png

回归函数预测实数值,分类函数预测标签


回归损失


1、均方误差,二次损失,L2损失(Mean Square Error, Quadratic Loss, L2 Loss)


均方误差(MSE)是最常用的回归损失函数。MSE是目标变量与预测值之间距离平方之和。


640?wx_fmt=png


下面是一个MSE函数的图,其中真实目标值为100,预测值在-10,000至10,000之间。预测值(X轴)= 100时,MSE损失(Y轴)达到其最小值。损失范围为0至∞。


640?wx_fmt=png

MSE损失(Y轴)与预测值(X轴)关系图


2、平均绝对误差,L1损失(Mean Absolute Error, L1 Loss)


平均绝对误差(MAE)是另一种用于回归模型的损失函数。MAE是目标变量和预测变量之间差异绝对值之和。因此,它在一组预测中衡量误差的平均大小,而不考虑误差的方向。(如果我们也考虑方向,那将被称为平均偏差(Mean Bias Error, MBE),它是残差或误差之和)。损失范围也是0到∞。


640?wx_fmt=png


640?wx_fmt=png

MAE损失(Y轴)与预测值(X轴)关系图


3、MSE vs MAE (L2损失 vs L1损失)


简而言之, 使用平方误差更容易求解,但使用绝对误差对离群点更加鲁棒。但是,知其然更要知其所以然!


每当我们训练机器学习模型时,我们的目标就是找到最小化损失函数的点。当然,当预测值正好等于真实值时,这两个损失函数都达到最小值。


下面让我们快速过一遍两个损失函数的Python代码。我们可以编写自己的函数或使用sklearn的内置度量函数:



#true:真正的目标变量数组

#pred:预测数组


def mse(true, pred):

   return np.sum(((true – pred)**2))

   

def mae(true, pred):

   return np.sum(np.abs(true – pred))


#也可以在sklearn中使用


from sklearn.metrics import mean_squared_error

from sklearn.metrics import mean_absolute_error



让我们来看看两个例子的MAE值和RMSE值(RMSE,Root Mean Square Error,均方根误差,它只是MSE的平方根,使其与MAE的数值范围相同)。在第一个例子中,预测值接近真实值,观测值之间误差的方差较小。第二个例子中,有一个异常观测值,误差很高。


640?wx_fmt=png

左:误差彼此接近  右:有一个误差和其他误差相差很远


我们从中观察到什么?我们该如何选择使用哪种损失函数?



由于MSE对误差(e)进行平方操作(y - y_predicted = e),如果e> 1,误差的值会增加很多。如果我们的数据中有一个离群点,e的值将会很高,将会远远大于|e|。这将使得和以MAE为损失的模型相比,以MSE为损失的模型会赋予更高的权重给离群点。在上面的第二个例子中,以RMSE为损失的模型将被调整以最小化这个离群数据点,但是却是以牺牲其他正常数据点的预测效果为代价,这最终会降低模型的整体性能。


MAE损失适用于训练数据被离群点损坏的时候(即,在训练数据而非测试数据中,我们错误地获得了不切实际的过大正值或负值)。


直观来说,我们可以像这样考虑:对所有的观测数据,如果我们只给一个预测结果来最小化MSE,那么该预测值应该是所有目标值的均值。但是如果我们试图最小化MAE,那么这个预测就是所有目标值的中位数。我们知道中位数对于离群点比平均值更鲁棒,这使得MAE比MSE更加鲁棒。


使用MAE损失(特别是对于神经网络)的一个大问题是它的梯度始终是相同的,这意味着即使对于小的损失值,其梯度也是大的。这对模型的学习可不好。为了解决这个问题,我们可以使用随着接近最小值而减小的动态学习率。MSE在这种情况下的表现很好,即使采用固定的学习率也会收敛。MSE损失的梯度在损失值较高时会比较大,随着损失接近0时而下降,从而使其在训练结束时更加精确(参见下图)。


640?wx_fmt=png


决定使用哪种损失函数?


如果离群点是会影响业务、而且是应该被检测到的异常值,那么我们应该使用MSE。另一方面,如果我们认为离群点仅仅代表数据损坏,那么我们应该选择MAE作为损失。


我建议阅读下面这篇文章,其中有一项很好的研究,比较了在存在和不存在离群点的情况下使用L1损失和L2损失的回归模型的性能。请记住,L1和L2损失分别是MAE和MSE的另一个名称而已。


地址:

http://rishy.github.io/ml/2015/07/28/l1-vs-l2-loss/


L1损失对异常值更加稳健,但其导数并不连续,因此求解效率很低。L2损失对异常值敏感,但给出了更稳定的闭式解(closed form solution)(通过将其导数设置为0)


两种损失函数的问题:可能会出现这样的情况,即任何一种损失函数都不能给出理想的预测。例如,如果我们数据中90%的观测数据的真实目标值是150,其余10%的真实目标值在0-30之间。那么,一个以MAE为损失的模型可能对所有观测数据都预测为150,而忽略10%的离群情况,因为它会尝试去接近中值。同样地,以MSE为损失的模型会给出许多范围在0到30的预测,因为它被离群点弄糊涂了。这两种结果在许多业务中都是不可取的。


在这种情况下怎么做?一个简单的解决办法是转换目标变量。另一种方法是尝试不同的损失函数。这是我们的第三个损失函数——Huber Loss——被提出的动机。


3、Huber Loss,平滑的平均绝对误差


Huber Loss对数据离群点的敏感度低于平方误差损失。它在0处也可导。基本上它是绝对误差,当误差很小时,误差是二次形式的。误差何时需要变成二次形式取决于一个超参数,(delta),该超参数可以进行微调。当  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/303350.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OxyPlot.SkiaSharp中文显示乱码的问题

oxyplot 图表控件功能强大,使用很广泛。最近考虑到性能使用OxyPlot.SkiaSharp替代OxyPlot.WPF,曲线图表初步测试,性能提升近10倍左右。基于SkiaSharp图形引擎的一些控件常遇见中文乱码的问题,所以改用OxyPlot.SkiaSharp时也有心里…

想入门平均月薪2.58w人工智能领域?看看BAT的工程师在学什么

在这个贩卖焦虑的时代,职场人士和新晋父母成为了重点呵护对象,前有“摩拜同龄人”超越你,后有“月薪 3 万支撑不起的暑假班”等着你,而人工智能,又威胁要彻底抢走你的饭碗。京东无人分拣中心曝光,华尔街顶级…

.NET 6 Preview 3 发布

前言2021/4/8 .NET 6 Preview 3 发布,这个版本的改进大多来自于底层,一起来看看都有什么新特性和改进吧。库改进新增值类型作为字典值时更快的处理方法.NET 6 Preview 3 引入了新的 unsafe API CollectionsMarshal.GetValueRef,这个 API 允许…

数据挖掘在生活上的应用

随着信息科技的进步,数据的收集变得十分便利。各式各样(手机、信用卡、浏览网页及部落格等)的信息,从不同的数据源,涌入我们预先设计好的数据仓储。这些信息透过数据挖掘的技术组合在一起,就可快速地勾勒出每个人对生活的品味、特…

Asp.Net Core 5 REST API 使用 JWT 身份验证 - Step by Step(二)

翻译自 Mohamad Lawand 2021年1月22日的文章 《Asp Net Core 5 Rest API Authentication with JWT Step by Step》 [1]在本文中,我将向您展示如何向我们的 Asp.Net Core REST API 添加 JWT 身份验证。我们将介绍的主题包含注册、登录功能以及如何使用 JWT (Json Web…

掌握这四点核心思想,统计学才算入门

在日常生活中,统计无处不在,比如最常见的问卷调查。实际上,统计学作为一门研究数据收集、整理与分析的学科,是能够帮助我们实现数据运用的终极目标(终极目标:洞悉本质、确定规律、预测未来)。但…

NET问答: Log4Net 无法将日志写入到 log 文件的求助.....

咨询区 john84&#xff1a;我在一个小项目中用上了 Log4Net&#xff0c;程序跑起来后没有任何日志写入到 log 文件&#xff0c;可能是我的 log appender 配的有问题&#xff0c;尴尬????&#xff0c;大家看看我这样配的有问题吗&#xff1f;web.config 完整的配置如下。<…

centos php.ini redis,CentOS下安装Redis及Redis的PHP扩展

1、安装Redis1.1 如果没有安装wget&#xff0c;安装wgetyum install wgetwget http://download.redis.io/releases/redis-3.2.0.tar.gz1.3 解压&#xff0c;并进入解压目录进行编译。编译成功后会在redis-3.2.0目录下生成相关文件$ tar xzf redis-3.2.0.tar.gz$ cd redis-3.2.0…

荐书 | 从启蒙到进阶,值得推荐的五本少儿编程

据小木对身边的人了解&#xff0c;好像码农们都有这么一个愿望&#xff1a;等我有孩子了&#xff0c;我一定教我的孩子学编程。玩游戏玩自己设计的才酷&#xff01;看着一个个码农爸爸憧憬着美好的愿景&#xff0c;小木恨不得马上帮他们实现这个愿望。这不~在了解了许多本儿童编…

ASP.NET Core 5.0 Web API 自动集成Swashbuckle

ASP.NET Core 5.0 Web API与开放源代码项目 Swashbuckle.AspNetCore 的维护人员合作&#xff0c;ASP.NET Core API 模板包含对 Swashbuckle 的 NuGet 依赖关系。Swashbuckle 是一个常用的开放源代码 NuGet 包&#xff0c;可动态发出 OpenAPI 文档。Swashbuckle 通过 API 控制器…

卷积神经网络「失陷」,CoordConv来填坑

卷积神经网络拥有权重共享、局部连接和平移等变性等非常优秀的属性&#xff0c;使其在多种视觉任务上取得了极大成功。但在涉及坐标建模的任务上&#xff08;如目标检测、图像生成等&#xff09;&#xff0c;其优势反而成为了缺陷&#xff0c;并潜在影响了最终的模型性能。Uber…

WPF 对控件截图

突然需要一个Logo,找又找不到&#xff0c;就自己做喽&#xff0c;首先想到的是ps,简单方便&#xff0c;转念一想&#xff0c;wpf搞这个不是很简单么&#xff1f;直接弄做好&#xff0c;截图一下不就行了。。。开工了&#xff0c;先在iconfont上找了个图标&#xff1a;是这样的然…

福利来袭,送你105例C语言实战

前几周&#xff0c;TIOBE 编程语言社区最新发布了 2018 年 6 月排行榜&#xff0c;和5月份相比&#xff0c;C语言的增长率达到8.09%&#xff0c;是排行前20编程语言中增长率最大的&#xff0c;可见学C语言的人越来越多。小编一直有意识地收集了一些编程语言的实战例子&#xff…

关于c/c++/obj-c的混合使用 (2010-06-22 10:05:33)

关于c/c/obj-c的混合使用 (2010-06-22 10:05:33)转载标签&#xff1a; 杂谈分类&#xff1a; iPhone开发1&#xff09;obj-c的编译器处理后缀为m的文件时&#xff0c;可以识别obj-c和c的代码&#xff0c;处理mm文件可以识别obj-c,c,c代码&#xff0c;但cpp文件必须只能用 c/c代…

你知道WPF这三大模板实例运用吗?

1、介绍对于Windows桌面端应用开发来讲&#xff0c;WPF以其界面渲染的特殊性&#xff0c;灵活的界面布局而让人津津乐道&#xff0c;因为它能为用户提供更好的交互体验。如何利用WPF开发出让人赏心悦目的界面与功能呢&#xff1f;这里不仅仅只是布局的功劳&#xff0c;很大一部…

如何判断程序员是在装逼还是有真本事?

程序员是一个十分特殊的群体&#xff0c;他们十分内敛、腼腆&#xff0c;但是只要一开口就能判断出来&#xff0c;到底是在装逼还是有真本事&#xff0c;不信咱们往下看&#xff01;1、这个功能是小case&#xff0c;分分钟搞定一般情况下&#xff0c;程序员在拿到一个新的功能需…

怎样借助Python爬虫给宝宝起个好名字

Beginning每个人一生中都会遇到一件事情&#xff0c;在事情出现之前不会关心&#xff0c;但是事情一旦来临就发现它极其重要&#xff0c;并且需要在很短的时间内做出重大决定&#xff0c;那就是给自己的新生宝宝起个名字。因为要在孩子出生后两周内起个名字&#xff08;需要办理…

CAP-分布式事务的解决方案

CAP 是一个基于 .NET Standard 的 C# 库&#xff0c;它是一种处理分布式事务的解决方案&#xff0c;同样具有 EventBus 的功能&#xff0c;它具有轻量级、易使用、高性能等特点。https://github.com/dotnetcore/CAP在我们构建 SOA 或者 微服务系统的过程中&#xff0c;我们通常…

我是怎么用机器学习技术找到女票的

机器学习在我们生活中的用处有多大&#xff0c;就不用我们多说了&#xff0c;大到医疗诊断&#xff0c;小到手机应用&#xff0c;机器学习都应用的风风火火。但是用机器学习帮自己在学校找对象&#xff0c;你听说过吗?最近滑铁卢大学一位叫 Bai Li 的留学生(李白?应是中国同胞…

php 重定向数据不丢失,PHP重定向如何实现数据不丢失?

PHP重定向如何实现数据不丢失&#xff1f;首先获取要保存的数据&#xff1b;$data [username > guanhuicoder,redirect_url > ./index.phpemail > guanhuicodercode.com];然后将数据转为JSON字符串&#xff0c;并将其储存在Session中&#xff1b;$data [username &g…