triplet loss后面不收敛_你的神经网络真的收敛了么?

1、为什么小模型的作为backbone效果会差?
在深度学习目标检测(图像分割)领域,我们发现当我们使用层数越深,并且在imagenet上表现越好的分类网络作为backbone时,它的检测和分割效果越好效果越好。比如我们使用resnet101作为backbone时候,faster_rcnn在coco2017检测数据集上的mAP可以达到40.1,而使用resnet50作为backbone时候,mAP只达到37.1。而ssd使用resnet50作为backbone时候,mAP达到30.6,使用mobilenet作为backbone只达到21.7。参看gluoncv公布的训练结果。

Detection - gluoncv 0.5.0 documentation​gluon-cv.mxnet.io
e3eb23d25c8d4b4e36a726c08cc86c6f.png

那为什么使用mobilenet这种小网络会比resnet101这种大网络效果差这么多呢?主流的想法是小网络的容量小、表现效果差,等等。

那到底是那么原因呢?我们可以观察gluoncv官网的ssd_mobilenet[1]和ssd_resnet50[2]在coco上的训练log。我们发现ssd_resnet50[2]的CrossEntropy和SmoothL1最终收敛到2.14+,和1.22+左右,而ssdmobilenet 的CrossEntropy和SmoothL1最终收敛到2.84+,和3.29+左右。同样我们可以去观察gluoncv官网的faster_rcnn分别在resnet50和在resnet101上的训练loss,我们可以发现loss收敛的越小模型在coco 2017的验证集上的mAP越高。并且当backbone使用fpn的方法增大了模型的体积,模型的loss会将的更低,相应的mAP也越高。由此我个人认为使用小模型的作为backbone的迁移学习任务(尤其是目标检测任务)效果差的真正原因是模型欠拟合。

2、你的神经网络真的收敛了么?

既然知道小网络作为backbone效果差的真正原因是模型欠拟合,那如果我们要提高小网络的效果,最主要的任务就是降低小网络的loss(当然大网络的loss如果被进一步降低效果自然越好,比如可以观看faster_rcnn+fpn+resnet101就比faster_rcnn+resnet101的loss低一点点,当然效果也就提升一点点)。

而我们不妨假设如果小网络最终”收敛“的loss如果可以达到大网络收敛的loss,那小网络能否达到大网络的效果呢?可能由于小网络的容量小,参数少,很难收敛到大网络的最终收敛的loss。当然方法是人想的,不然怎么能发paper。

我个人认为降低小网络的loss主要有两种方式:

1、提高效果的模型体积,如FPN,DLA,shortcut,concat 等等。不过当模型体积增大到一定程度,他所能得到的收益也越小,比如可以观看gluoncv官网的log。faster_rcnn+fpn+resnet101就比faster_rcnn+resnet101的loss低一点点,当然效果也就提升一点点。而faster_rcnn+fpn+resnet50就比faster_rcnn+resnet50的loss低很多,当然效果也就提升也高了很多。

2、改变训练方式,比如很早提出的知识蒸馏,2018年的cascade rcnn和snip,以及2019年的各种anchor free,都是改变训练方式,虽然他们的动机各不相同,但是我觉得大部分都是进一步降低loss,提高模型的效果。

第一种方式对于个人觉得对于做模型压缩的人来说不太可取,而第二种方式才是主要考虑方向。对于改变训练方式的方法,读者可以参看我的上一篇文章,对抗蒸馏,使用对抗生成网络和cosine attention的机制,将大网络的知识迁移到小网络,进一步降低小网络最终的收敛loss。目前开放的使用ssd_resnet50作为teacher net ssd_mobilenet作为student net在voc数据集上将ssd_mobilenetCrossEntropySmoothL1最终收敛到1.388+ 0.659+,mAP达到78.2+,而原始ssd_mobilenet在voc上的CrossEntropySmoothL1最终收敛到1.962+ 0.944+,mAP达到75.4,由于gpu资源限制目前在coco上还没训练完。

疯狂三角肌:GAN-KD for one-stage object-detection​zhuanlan.zhihu.com

训练log地址为,记得给star啊。

p517332051/GAN-Knowledge-Distillation-SSD​github.com
8c1ab21eafee1dfc88e4ac5681f95b73.png

通过这种方法,我发现小网络并非不是不可以继续收敛,而是训练方式得到改善自然可以继续降低他的loss,而随之loss降低,网络的效果可以进一步提升。期望我的方法能起到抛砖引玉的效果,能推动学术界和工业界神经网络压缩的工作的进展。

参考

  1. ^https://raw.githubusercontent.com/dmlc/web-data/master/gluoncv/logs/detection/ssd_512_mobilenet1_0_coco_train.log
  2. ^abhttps://raw.githubusercontent.com/dmlc/web-data/master/gluoncv/logs/detection/ssd_512_resnet50_v1_coco_train.log

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/335424.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

php文件上传漏洞waf,文件上传绕过WAF

文件上传文件上传实质上还是客户端的POST请求,消息主体是一些上传信息。前端上传页面需要指定enctype为multipart/from-data才能正常上传文件。此处不讲各种中间件解析漏洞只列举集几种safe_dog对脚本文件上传拦截的绕过靶机环境:win2003safe_dog4.0.239…

java性能监视_Java 9和应用程序性能监视的激动人心之处

java性能监视通过AppDynamics解决应用程序问题的速度提高了10倍–以最小的开销在代码级深度监视生产应用程序。 开始免费试用! 在当今的现代计算时代,软件创新的不断增强使我们更接近软件革命的时代。 也许在遥远的未来,这可能是对21世纪记忆…

C# 监控字段_有哪些好的C#开源项目推荐?

作者:码云 Gitee链接:https://www.zhihu.com/question/27993498/answer/1014561869

并行流 线程池_使用自定义线程池处理并行数据库流

并行流 线程池并行数据库流 在上一篇文章中 ,我写了关于使用并行流和Speedment并行处理数据库内容的文章。 在许多情况下,并行流可能比通常的顺序数据库流快得多。 线程池 Speedment是一个开源的Stream ORM Java工具包和Runtime Java工具,它…

hibernate框架 最新_java框架,使用最频繁的9个程序!

Java在多年的发展历程中,已证明自己是为软件开发而生的顶级通用编程语言。Java 广泛用于科学和教育,金融,法律和政府等许多行业。Java 是开源和面向对象的,其开发目的是使应用程序开发人员可以编写一次然后在任何地方运行。编译后…

twilio_15分钟内使用Twilio和Stormpath在Spring Boot中进行身份管理

twilio建筑物身份管理,包括身份验证和授权? 尝试Stormpath! 我们的REST API和强大的Java SDK支持可以消除您的安全风险,并且可以在几分钟内实现。 注册 ,再也不会建立auth了! 今天,不到30秒左右…

unity webgl读写txt文件_python Files文件读写操作

今天学习python的Files文件读写操作,并记录学习过程欢迎大家一起交流分享。首先新建一个文本文件test.txt,内容如下:hello worldhello youhello mehello pythonhello universe然后新建一个python文件命名为py3_file.py,在这个文件中进行操作代…

垃圾收集 java_Java的内置垃圾收集如何使您的生活更美好(大部分时间)

垃圾收集 java通过从您的应用程序学习企业APM产品,发现更快,更有效的性能监控。 参加AppDynamics APM导览! “无需为用户编写将寄存器返回到自由存储列表的程序。” 这条线(以及随后的十几条线)被埋在约翰麦卡锡&…

python函数的使用方法_百度资讯搜索_python函数的使用方法

金生水起程序猿 2020年11月22日 11:23函数语法格式及调用参数:默认值、元组和字典可变参数的使用全局变量和局部变量作用域,局部变量如何升级为全局变量函数是可重复使用的,实现单一功能的代码块。可以把项...百度快照金生水起程序猿 2020年11月22日 12:13函数类型定义:python中…

red hat 4.1.2_安装Red Hat Container Development Kit 2.2版本

red hat 4.1.2当应用程序开发人员或架构师负责探索容器化应用程序提供的可能性时,没有比“红帽容器开发套件”(CDK)容易的了。 Red Hat CDK具有本地OSX,Linux或Windows环境所需的所有Cloud工具,并且已预先配置了一些容…

高斯背景建模 matlab,高斯背景建模整理 – 要饭的

OpenCV 中高斯背景建模相关论文BackgroundSubtractorMOG:Paper : An Improved Adaptive Background Mixture Model for Real-time Tracking with Shadow DetectionWebsite : http://personal.ee.surrey.ac.uk/Personal/R.Bowden/publications/avbs01/avbs01.pdf创新点 &#x…

apache ignite_使用Apache Storm和Apache Ignite进行复杂事件处理(CEP)

apache ignite在本文中, “使用Apache Ignite进行高性能内存计算”一书的作者将讨论使用Apache Strom和Apache Ignite进行复杂的事件处理。 本文的一部分摘自 书 。 术语“复杂事件处理”或CEP没有广泛或高度接受的定义。 Wikipedia的以下引用可以简要描述什么是复…

tpm php,TPM系列

近来一直在整理资料,刚好看到有比较详细的介绍,就发扬一下“拿来主义”吧:)顺便鄙视一下某安全网站转载我的博客很乱:(1、安装环境准备1.1内核Linux内核2.6.12版本及以上,提供了对tpm芯片的支持,下载地址&a…

zookeeper 日志查看_每天使用的注册中心zookeeper,流量暴涨怎么办?

通过本文能学习什么?初步了解zookeeper监控如何运用tcpdump Wireshark抓包分析Dubbo在zookeeper上节点设计如何查看zookeeper节点快照背景zookeeper作为dubbo的注册中心,承载着服务的基础信息(方法名,分组,版本等),服…

javaone_JavaOne 2016 Essentials:您不应该错过的7个事件和会话

javaone参加JavaOne吗? 确保您不会错过这些活动 又到了每年的这个时候。 旧金山一年一度的Java假期即将来临,全市各地举行了超过400场会议和活动。 随着所有这些丰富的内容和新体验同时发生,很容易就无法跟踪正在发生的事情。 在这篇文章中…

python比较两张图片是否一样_opencv_判断两张图片是否相同

python金融风控评分卡模型和数据分析微专业课(博主亲自录制视频):http://dwz.date/b9vv本文为原创,转载请注明,作者 231469242qq.com OpenCV介绍 OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉库&a…

bat 存储过程返回值_为什么不推荐使用存储过程?

之所以有这个题目,我既不是故意吸引眼球,也不想在本文对存储过程进行教科书般论述。最近项目中遇到的存储过程问题,让我想起了去年在武汉出差时一位同事的发问:我觉得存储过程挺好用的,为什么你不建议用?当…

Mac下载JDK/安装JDK/卸载JDK

文章目录下载JDK安装JDK配置环境变量卸载JDK下载JDK 访问这个地址:https://www.oracle.com/java/technologies/downloads/#java18 进入下载JDK的界面后,下拉界面到下图所示的位置: 或者访问这个地址:https://www.oracle.com/cn/…

kettle 只有一个输入记录期待设置变量并且至少已经收到2个变量._OPNET学习笔记2...

双击主机网络打开对应的节点模型,从图中可以看到网络的分层:应用层,传输层,网络层,链路层;其中在传输层中我们用到的主要是UDP(对实时性要求比较高),网络层又包括IP封装层…

python tkinter控件_Python3 tkinter基础 Label pack 设置控件在窗体中的位置

? python : 3.7.0 OS : Ubuntu 18.04.1 LTS IDE : PyCharm 2018.2.4 conda : 4.5.11 type setting : Markdown ? 普通布局 code """ Author : 行初心 Date : 18-10-1 Blog : www.cnblogs.com/xingchuxin GitHub : github.com/GratefulHeartCoder ""…