损失函数的意义和作用_损失函数的可视化:浅论模型的参数空间与正则

点击蓝字

 关注我们

7d7ec7930cc650a616644e90a36f2232.gif

作者丨土豆@知乎来源丨https://zhuanlan.zhihu.com/p/158857128本文已获授权,不得二次转载

前言

在深度学习中,我们总是不可避免会碰到各种各样的损失函数。通常来说,损失函数都是高维的函数,难以可视化为人类可以分辨的二维或者三维形式,因此这里介绍一种通过在高维空间中切片的损失函数可视化手段,并且讨论下模型的参数空间

模型的参数空间

我们知道,在机器学习,特别是深度学习中,整个模型有着数以万计,百万计的参数,包括有权值,偏置等,这些参数通常来说都是实数,如果用表示模型的所有参数,既是,其中就可以表示模型的参数量。我们可以知道,的每个分量都是可以自由取值的,当每个分量遍历了所有可能的取值时,我们不妨把模型的所有可能参数取值看成一个空间,名为参数空间(parameter space),用符号表示。也就是说,我们模型中的每一个可能的参数组合,都有。为了方便起见,我们接下来的讨论将设为3,也就是说我们下面讨论的模型只有三个参数。其参数空间绘制出来如下所示:

0fd7c7bdc0d8efe630e7fdca47a7ad62.png

因为这个空间中的每个点(元素)都代表着一个可能的参数组合,因此都可以看成一个假设相同的模型。我们如下图可以发现,不同参数组合之间可以自由移动,比如从当前的移动到,这个就是模型参数的更新过程。

8834ce0dab526b647f7c81ad37fb1c48.png

其实我们也可以简单地发现,空间其实是一个线性空间,因为无论是数乘还是加法在这个空间都是封闭的,同时,我认为这个空间不是内积空间,因为在参数空间定义内积似乎没有意义,不确定是否是赋范空间,希望有了解的朋友指出。不管怎么说,因为这个参数空间是一个线性空间,我们可以用空间的非线性相关基底表示空间中的任意一个点了。特别的,我们考虑这个空间中的一个平面,这个平面可以由初始点和两个非线性相关的空间向量, 组成,既是,画出图如下所示:

5392cea1b0c52a864a6ee1470e5b371f.png

其实我们可以发现,这个时候,本来是可以在整个3维空间中进行参数搜索的,通过限制,或者说正则化手段,将其限制在了只能在一个平面上进行参数搜索。

这个行为正是正则的作用,通过引入一些假设或者说偏好,将模型过大的参数空间限制在一个偏好空间中,从而实现更好的泛化和搜索。当然我这里为了可视化方便举的是3维的例子,其实扩展到维也是一样的。我们接下来考察在维参数空间中,利用刚才讨论的参数空间的线性特质进行损失函数的可视化。

损失函数的二维可视化

在模型中因为参数数以万计甚至数以百万计,而且我们的损失函数是关于参数的一个函数,因此损失函数也是个极其高高维的函数,难以可视化,但是,通过切片的手段,我们可以可视化出损失函数的一个切片出来,定性观察其局部特性。我们看下如何进行切片。

考虑一个损失函数,假设其映射为,也就是将每一个权值函数都映射到了一个相应的损失值(当然中间需要通过模型函数的作用,这里省略了),假设我们的初始参数为,那么假设两个方向的基底,分别为和,那么在这个由和为基底的平面中,每一个新的参数都可以表示为,也就说我们的损失函数可以从初始的更新到,这个过程,只要当初始值和基底和决定了(其实初始值可以随机选),就完全由两个值决定了,因此可以将其画成一个平面图,如下所示[2]:

0256f4a83ccbcb9ae3f9be0dd7ba026b.png

进一步分析我们可以知道,这个过程其实相当于对损失函数进行了一个切片的操作,如下图所示:

fdbfd192ef9ed616145c1ee18bb05141.png

因此,这个由组成的等高线图可以表示整个高维度损失函数的一个切面,提供损失函数的局部信息,当然不能描述整个损失函数,但是不失为一个提供参考的好方法。下图是SVM损失函数依据此方法的可视化结果[1],左图具有正则约束,而右图没有:

eae2396061c578dea8945c60edca403d.png

总结来说,这种方法通过用两个维度代表了整个高维度的损失函数,达到了可视化的目的。

正则化

正则,常常在统计学和机器学习中提及,其本质是引入一些先验的知识,数据额外的知识解决一些病态(ill-posed)的问题,以缓解过拟合的现象[4]。这个过程中,给参数空间提供了偏好,减小了参数空间的大小,我们以后有机会再继续细谈不同正则的假设的解决的问题,我们这里主要考虑的是,怎么提供正则?我们观察下面图:

5a2bfc7d85814f0668473a49da775d8f.png

我们容易发现,其实参数空间中的每一个点都映射到了损失函数上,其参数空间上的平移相当于损失函数上的“上坡”或者“下坡”,因此损失函数的最小化体现在参数空间上就是参数在寻找一个最优值。那么我们不难推理出,其实参数空间和损失函数是相关的,我们对参数空间进行正则也就是进行偏好假设,在损失函数上,其实就相当于加上一个正则项,控制损失函数的形状罢了。对于在考虑损失函数的情况下加上正则,可以考虑在损失函数中添加正则项,对于考虑参数空间的正则,可以考虑不同的特殊网络结构,这两种方法都是常见的添加正则的方法。

我们以后文章中将会看到,诸如dropout, L2 weight decay, L1 sparse, stochastic depth, weight sharing, sparse connection等等无一不是在我提到的这两种方法中考虑的。

参考资料

[1] 最优化基础:损失函数可视化、折页损失函数 & 梯度计算

[2] Li H, Xu Z, Taylor G, et al. Visualizing the loss landscape of neural nets[J]. arXiv preprint arXiv:1712.09913, 2017.

[3] Dinh L, Pascanu R, Bengio S, et al. Sharp minima can generalize for deep nets[J]. arXiv preprint arXiv:1703.04933, 2017.

[4] Regularization (mathematics)

如有谬误请联系指出,联系方式:E-mail: FesianXu@163.comQQ: 973926198Github: https://github.com/FesianXu推荐阅读
  • 图像分割损失函数最详细总结,含代码

  • 深度学习常用损失函数总览:基本形式、原理、特点

  • 最全的损失函数汇总

fc7917e4dbe53731e70025010850d18d.png

添加极市小助手微信(ID : cv-mart),备注:姓名-学校/公司-研究方向-城市(如:小极-北大-目标检测-深圳),即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR等技术交流群,更有每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、行业技术交流,一起来让思想之光照的更远吧~f8e80f73b14e9ffb03fbd4a260da7b51.png△长按添加极市小助手693f10aaab9f3246d4be7f16c63ba81b.png△长按关注极市平台,获取最新CV干货觉得有用麻烦给个在看啦~  78fe028e046da90e8da5d4f46ef40812.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/551433.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

postgres 把一个表的值转成另一个表的字段名_用LUT来做一个可动态配置的卷积核...

引言由于卷积核数据在计算过程中保持不变,更新较慢。这样就可以利用LUT来存储权重并同时进行乘法运算。LUT乘法器的实现很早就已经研究过,本论文正是在此基础上,提出了用于实现可配置的卷积实现方法。基于LUT的乘法器不会受到FPGA中DSP资源的…

mysql储存过程把集合并_MySQL 多日志表结果集合拼接存储过程

通常MySQL单天的日志 只记录当天的日志信息,如果需要查看一月内的日志信息需要对每天的日志表结果集合进行拼接,通常用到 union通常MySQL单天的日志 只记录当天的日志信息,如果需要查看一月内的日志信息需要对每天的日志表结果集合进行拼接,通常用到 uni…

split函数python统计英文单词_统计一篇英文文章单词个数,取出出现频次前10的单词(Python实现)...

题目: 用python实现统计一篇英文文章内每个单词的出现频率,并返回出现频率最高的前10个单词及其出现次数。常规解法怎么判定单词?1 不是字母的特殊字符作为分隔符分割字符串 (避免特殊字符的处理不便,全部替换成"")2 正则分割3 遍…

superset mysql数据源配置_superset 性能优化1-已经使用中的superset更改默认数据源sqlite到mysql...

已经使用中的superset更改默认数据源sqlite到mysql1.提取sqlite db(由于当前使用 docker 需要到宿主)docker cp CONTAINER_NAME:/var/lib/superset/superset.db /opt2.数据导出然后使用 navicat 数据库工具打开sqlite文件选择导出向导csv数据保存到一个文件夹3.创建mysql数据库…

对于一个指针可以多次使用delete_【C++札记】new和delete

malloc,free和new,delete区别:a.malloc,free是C/C的标准库函数。new,delete是c的操作符。b.malloc申请的是内存,严格意义不是“对象”,new申请的可以理解为“对象”,new 时会调用构造函数,返回指向该对象的指针。c.对于…

java循环队列_Java 循环队列的实现

队列概念队列(Queue)是限定只能在一端插入、另一端删除的线性表。允许删除的一端叫做队头(front),允许插入的一端叫做队尾(rear),没有元素的队列称为“空队列”。队列具有先进先出(FIFO)的特性。普通顺序队列存在的问题在普通顺序队列中,入队的操作就是先将尾指针re…

python大数据开发平台_python示例

### 结合使用 GET 和 Authorization 标头 (Python)以下示例说明如何使用 [根据方案编号获取内容列表](http://open.gsdata.cn/article/info?id1) API 发出请求。该请求发出 GET 请求,并使用 Authorization 标头将身份验证信息发送到 GSDATA。~~~#!/usr/bin/python#…

java 遍历hashmap key_Java5种遍历HashMap数据的写法

本文介绍了最好的Java5种遍历HashMap数据的写法&#xff0c;分享给大家&#xff0c;也给自己留一个笔记&#xff0c;具体如下&#xff1a;通过EntrySet的迭代器遍历Iterator < Entry < Integer, String >> iterator coursesMap.entrySet().iterator();while (iter…

python不能卸载原因_linux上python卸载不了是什么原因?

linux下卸载python&#xff1a;1.首先查看自己电脑的python版本在root下&#xff0c;python3 --version python3.5.3python --version python 2.7.132.说实话&#xff0c;对于这点我不太喜欢&#xff0c;可能是系统自带的&#xff0c;无自己没事就瞎折腾一下&#xff0c;也就是…

java new 多线程_Java多线程实现(四种方法)

1.继承Thread类&#xff0c;重写run方法(其实Thread类本身也实现了Runnable接口)2.实现Runnable接口&#xff0c;重写run方法3.实现Callable接口&#xff0c;重写call方法(有返回值)4.使用线程池(有返回值)1.继承Thread类&#xff0c;重写run方法每次创建一个新的线程&#xff…

oracle删除唯一索引sql语句_高级SQL之在选择语句中使用更新和删除

点击蓝字关注我吧【本文详细介绍了数据库中在选择语句中使用更新和删除的方法&#xff0c;欢迎读者朋友们阅读、转发和收藏&#xff01;】1 基本概念1.1 SQL UPDATE 语句Update 语句Update 语句用于修改表中的数据。语法&#xff1a;UPDATE 表名称 SET 列名称 新值 WHERE 列名…

java 读 jar外文件_读取Jar包外面的配置文件

比较常用的方法是将properties文件直接打入JAR包中&#xff0c;然后使用Properties类进行读取。有时候也需要读取在JAR外面的配置文件。废话不多说&#xff0c;直接上代码&#xff1a;import java.io.BufferedInputStream;import java.io.FileInputStream;import java.io.IOExc…

python随机生成车牌_Python实现随机生成任意数量车牌号

之前做课设的时候舍友遇到了需要生成500w量级车牌号的问题&#xff0c;于是我便写了一个随机生成车牌号的程序&#xff0c;希望各位采纳。注&#xff1a;Python实现import randomdef chepaihao(len6):char0京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽赣粤青藏川宁琼char…

java 多层异常_Java多层嵌套异常处理的基本流程

异常是程序中的一些错误&#xff0c;但并不是所有的错误都是异常&#xff0c;错误有时候是可以避免的。异常的对象有两个来源&#xff0c;一是Java运行时环境自动抛出系统生成的异常&#xff0c;而不管你是否愿意捕获和处理&#xff0c;它总要被抛出&#xff01;比如除数为0的异…

python刷屏代码_python 刷屏

{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台&…

linux java no x11_在linux下运行javaMail程序报No X11 DISPLAY variable was...

收藏java.awt.HeadlessException:No X11 DISPLAY variable was set, but this program performed an operation which requires it.at java.awt.GraphicsEnvironment.checkHeadless(GraphicsEnvironment.java:159)at java.awt.List.(List.java:216)at java.awt.List.(List.java…

python四级考试时间_四级英语考试如何准备呢?

英语怎样才能过四级&#xff1f;对于那些准备了很久就等这次考试拿个好成绩的同学&#xff0c;一定要认真看&#xff0c;绝对能帮到你们&#xff01;(一)阅读阅读是四六级的分数大户。1、养成先看题目&#xff0c;再看阅读原文的习惯&#xff0c;掌握相关的阅读技巧。2、通常问…

python的selenium模块_Python中Selenium模块的使用

目录Selenium的介绍、配置和调用Selenium(浏览器自动化测试框架) 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中&#xff0c;就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11)&#xff0c;Firefox&#xff0c;Safari&#xff0c;Google Chr…

django使用mysql事务处理_Django中MySQL事务的使用

Django中事物的使用from django.db import transactiontransaction.atomic通过transaction的transaction.atomic装饰器来开启事务&#xff0c;在视图逻辑涉及数据库操作的地方添加事物保存点&#xff0c;在操作不满足时进行事物回滚&#xff0c;在操作满足是进行事物提交# 前端…

python学习笔记全过程_Python学习过程笔记整理(一)

编码方式-Utf8编码方式&#xff1a;# -*- coding: utf-8 -*-注释-行注释 #-块注释 ...或"""..."""基础语法-print()输出默认换行&#xff0c;不换行需要末尾加end""1 print("A",end"")2 print("B")-inp…