听说读论文也有trick?这篇文章告诉你深度学习论文阅读最佳姿势

2020年的今天,我们的专业是deep learning,但是我们要keep learning,每天早上一睁眼,arxiv每天更新上百篇的论文,著名微博博主@爱可可-爱生活保持也在推送最新的deep learning资讯和论文。

我们不缺少计算机视觉论文,我们缺少的是鉴别哪些应该读。无论是泛读还是精度,海量论文总是让我们迷失双眼,Github搜索awesome有成百上千个repo,但是缺少比较和注解。我们应该去哪里找值得读的论文,我们打开pdf论文的姿势正确吗?

论文应该怎么读

海量论文看不够,自己萌发了分门别类写阅读笔记的习惯。好记性不如烂笔头,更何况计算机视觉方向众多,对自己不熟悉的领域,每次都从头阅读,感觉很费劲。当我分门别类阅读计算机视觉的科研论文,查询和检索如此简单。比如对于目标检测领域,有综述,人脸检测,目标检测,样本不平衡问题,one-stage 检测,每片论文都有阅读等级,解决的主要问题,创新点,可能存在的问题,TODO等,随时随地和查询过去的知识点。复习某一领域的知识,只要一根绳子就串起来

个人阅读计算机视觉论文,会横向和纵向发散,考虑更多的问题:

要点一

每篇论文都不会说自己的缺点,只会放大优点。但是引用别人的论文时,却总放大别人工作的缺点。当你对比阅读时,形成一个知识串,才会对某个问题有更清晰的认识。

要点二

论文为了出成果,一般只会选择对自己模型有力的数据集验证对某一领域数据集特征了解,再也不会被作者蒙蔽双眼了。比如NAS(Neural Architecture Search),很多论文喜欢在CIFAR-10/ CIFAR-100/SVHN等小数据集比实验结果,ImageNet性能表现避重就轻避而不谈;很多论文写state-of-art的性能,对实时性不谈;论文没有说的没有做的可能是个大坑。

要点三

论文因为要投稿和发表顶会,故意会云里雾里引入很多概念和公式,当对比代码,关键trick,才能返璞归真Code+paper,才是论文最佳的阅读方式。

要点四

对于自己关注的领域,可能每篇有影响的,实验结果不是state-of-art也要关注,因为工作可能会撞车。对横向领域的论文,要关注state-of-art,说不定很多trick可以直接迁移到自己的工作。

要点五

重点关注数著名实验室/老师/三大顶会(CVPR,ICCV,ECCV)的连续剧。2020年的CVPR投稿量都破万,各种水文鱼目混杂,实在是难以鉴别,个人倾向于paper+code模式。敢于开源code的论文,真金不怕火炼,作者有底气。没有code的论文,也许是商业或者其他授权暂时没有发布,但是发布了一两年还在遮遮掩掩,这些论文不看也罢。

要点六

最重要一点拒绝二手知识。阅读一篇论文,google搜索题目可能有1000+篇的阅读笔记,阅读笔记的数量比论文的引用量都多;包括我在内的很多博客/笔记也喜欢摘抄,google翻译+复制粘贴造就阅读笔记的虚假繁荣。有些问答还是具有参考意义,比如知乎中常见的“如何评价Google Brain团队最新检测论文SpineNet?”,在这些如何评价的思想碰撞中,还是有些很好的火花。个人感觉不管是做科研学术工业界做项目,要摒弃完全重二手知识中学习,直接从原文阅读思考、和作者邮箱联系寻找答案

最新最全的state-of-art论文

自己也在github找论文,有些repo推荐的论文对自己帮助很大。我发现这些repo只是论文的堆砌,可能发布awesome的人也没有完全读过这些论文。基于自己对论文的理解,和每年看一篇论文的目标,于是将每天的阅读笔记发布在https://github.com/ahong007007/awesomeCV。包含检测识别、分割、图像增强、AutoML、GCN、压缩剪枝、优化训练、点云、视频分析、自动驾驶等方向:

每篇论文都有相应的阅读笔记:

以下节选部分内容:

1 检测识别(包含综述/人脸检测/目标检测/不平衡/loss/one stage/tricks)

  • 综述

◎香港中文大学,商汤等联合提出的MMDetection,包括检测模型,实体分割等state-of-art模型框架源码,属业界良心。

[2019.06]MMDetection: Open MMLab Detection Toolbox and Benchmark

https://arxiv.org/pdf/1906.07155.pdf

  • 人脸检测

◎主要针对移动端设计(backbone MobileNet v2)在高通845上达到140fps的实时性。

[2019.02][PFLD:A Practical Facial Landmark Detector]

https://arxiv.org/pdf/1902.10859.pdf

  • 目标检测

◎北京大学等提出的一种改善型backbone,论文最强指标Cascade Mask R-CNN +Triple-ResNeXt152在COCO数据集实现53.3AP,性能上是数据榜首。

[2019.09][CBNet: A Novel Composite Backbone Network Architecture for Object Detection]

https://arxiv.org/pdf/1909.03625.pdf

......

2 分割(包含综述/语义分割/实例分割/全景分割)

  • 综述

◎[2020][Image Segmentation Using Deep Learning:A Survey]

https://arxiv.org/pdf/2001.05566.pdf

  • 语义分割

◎[DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation]

https://share.weiyun.com/5NgHbWH

......

3 图像处理(包含综述/超分辨率/图像去噪/图像增强)

◎Blind Deblurring综述

[2019.07][Blind Deblurring using Deep Learning: A Survey]

https://arxiv.org/pdf/1907.10128.pdf

◎Image inpainting综述

[2019.09][Image inpainting: A review]

https://arxiv.org/pdf/1909.06399.pdf

◎图像去除雨滴算法综述

[2019.09][A Survey on Rain Removal from Video and Single Image]

https://arxiv.org/pdf/1909.08326.pdf

◎图像去噪综述。

[2019][Deep Learning on Image Denoising: An overview]

https://arxiv.org/pdf/1912.13171.pdf

  • 超分辨率

◎CVPR2019论文,中科大,自动化所,旷视等联合提出Meta-SR, 单一模型解决任意尺度的 super-resolution。

[Meta-SR: A Magnification-Arbitrary Network for Super-Resolution]

https://arxiv.org/pdf/1903.00875.pdf

  • 图像增强

◎CVPR2019论文,香港中文大学等提出。论文假设自然图像的光照图有着相对简单的先验,让网络模型去学习image-to-illumination mapping,实现retinex的图像增强。

[Underexposed Photo Enhancement using Deep Illumination Estimation]

http://jiaya.me/papers/photoenhance_cvpr19.pdf

......

每天一坑,很少间断,不要怕repo烂尾。只要作者还在计算机视觉领域,就会不断更新自己的私房菜。

图 目标是日更,还是有偷懒的几天啊!

不要忘记star和pull requests,让我们红尘作伴。

安利一个论文阅读查找

安利一个机器学习(包含计算机视觉的)网站(已经被Facebook收购),将ArXiv上的最新机器学习论文与GitHub上的代码(TensorFlow/PyTorch/MXNet /等)对应起来。据网站开发者介绍,里面包含了 966 个机器学习任务、515 个评估排行榜(以及当前最优结果)、8625 篇论文(带源码)、704 个数据集。

paperwithcode网站广泛涉及了各类机器学习任务,包括计算机视觉、自然语言处理、医疗、方法(Methodology)、语音、游戏、图、时序、音频、机器人、音乐、推理、计算机代码、知识库、对抗等方面的内容。

感受一下网站风格,再也不怕找不到最好看的论文,加上ahong007007的awesomeCV,三个月一个疗程,计算机视觉从入门到入坑,三个疗程,可以治愈计算机视觉脸盲的问题。网站地址:https://paperswithcode.com

awesomeCV什么时候能被Facebook和paperwithcode网站收购那,让我们拭目以待。

阅读论文书籍,探讨读书意义

写到这里有跑题之嫌,但是我觉得阅读计算机视觉的专业文献,和读书有些共同之处

我每天阅读一篇专业论文,也在坐地铁时间打卡微信阅读。在豆瓣写了5年的书评,在微信阅读打卡280小时。

理工科读paper读专业书籍,都有一把尺子——各种实验数据集,能衡量理解的对不对,每天都有可能推翻之前的state-of-art,经典书籍可能10年100年不过时;论文会用实验数据表明我的工作好不好,有Related Work横向和纵向比较谁更好,书没有答案,没有学科综述,全靠你去总结。一般经典书籍不会说别人对不对,但是每个观点都能自圆其说

但是对于人文学科的思想和精神财富,没有评价标准和答案,只有根据个人的阅历,读懂引起心灵共振的段落。当阅读时候,一定要有自己的思考,延伸,才会让血肉之躯留下更多的精华。当我再拿起书,我会知道我应该辩证去看,这篇文章的有没有abstract在哪里,introduction该怎么说,有没有Related work可比较一下,backbone是干嘛的,method做了没,Experiments该怎么做,看完书应该得出什么conclusion。

读一篇论文,会第一时间看看Experiments做的好不好;读书,也要第一时间翻到最后,作者写的虎头蛇尾,说明作者才华不足以完整整个工作,就不要花费过多的精力了。

用理工科的思维去读书,也挺有意思:理解背后的动机,原理,当过了N年,即使不记得那本书,还记得那个思想理论和背后的故事。也许会推导出以前读过的结论、也许是推翻以前的结论。

为了帮助大家更好的阅读论文,我们整理了一份硬核干货:计算机视觉顶会资源大合集,内容包含:

  • CVPR资源合集:400篇CVPR2020论文合集+解读/CVPR2019论文合集+解读+代码+大会Oral视频+分享会/CVPR2018/CVPR2017/CVPR2016

  • ICCV/ECCV资源合集:ICCV2019论文合集+解读+全部开源代码/ECCV2018 论文合集+解读/ICCV2017论文合集+解读

  • ICLR/NeurIPS/AAAI/Valse资源合集

  • ……

扫描下方二维码,回复极市平台即可获得上述资源

本文原创首发于公众号【极市平台】,一个专注计算机视觉前沿资讯和技术干货的纯粹技术号。
扫描上方二维码,回复加群,即可加入来自港科大、北大、清华、CMU、腾讯、百度的10000+开发者技术交流社群,获得大咖直播分享、技术干货、前沿资讯、算法竞赛实践、真实项目需求对接、行业技术交流机会等内容。

极市平台优质文章精选

  • 25篇最新CV领域综述性论文速递!涵盖15个方向:目标检测/图像处理/姿态估计/医学影像/人脸识别等方向

  • CV开发者自我修养 | 吴恩达教程/笔记/刷题资料最全汇总

  • 极市直播|第45期-俞刚Human pose Estimation分享回放视频(含PPT)

  • 秋招面经 | 计算机视觉汇总面经分享

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480543.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

屏幕Screen类文件编写

注意&#xff1a; inline 定义的函数必须放在 .h 文件中&#xff0c;否则编译器报错&#xff01; 其次&#xff0c;注意写全称在 .h 里&#xff0c;如 std:: screen.h 头文件 #ifndef SCREEN_H #define SCREEN_H #include<string> #include<iostream>class Scre…

机器翻译自动评估-BLEU算法详解

机器翻译自动评估-BLEU算法详解 版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/qq_31584157/article/details/77709454 </div><link rel"stylesheet" href"https://csdnimg.cn/re…

论文浅尝 | 利用Lattice LSTM的最优中文命名实体识别方法

本文转载自公众号&#xff1a;机器之心。选自arXiv作者&#xff1a;Yue Zhang、Jie Yang机器之心编译参与&#xff1a;路、王淑婷近日&#xff0c;来自新加坡科技设计大学的研究者在 arXiv 上发布了一篇论文&#xff0c;介绍了一种新型中文命名实体识别方法&#xff0c;该方法利…

最全MySQL面试60题和答案

Mysql中有哪几种锁&#xff1f; 1.表级锁&#xff1a;开销小&#xff0c;加锁快&#xff1b;不会出现死锁&#xff1b;锁定粒度大&#xff0c;发生锁冲突的概率最高&#xff0c;并发度最低。 2.行级锁&#xff1a;开销大&#xff0c;加锁慢&#xff1b;会出现死锁&#xff1b;…

中文幽默语料库构建与计算项目(幽默等级识别,幽默类型识别,隐喻类型识别,隐喻情绪识别)

ChineseHumorSentiment chinese Humor Detection or Computation based on corpus and nlp methods, 基于语料库与NLP方法的中文幽默计算与检测项目 项目地址:https://github.com/liuhuanyong/ChineseHumorSentiment 项目介绍 幽默多指令人发笑的品质或者具有发笑的能力&…

账户Account类文件编写(static成员使用)

static类成员是该类所有成员共享一份的数据&#xff0c;一处修改了&#xff0c;全部变更&#xff1b; static成员函数只能调用static成员数据&#xff1b; static const整形int&#xff0c;char&#xff0c;可以在类内声明和初始化&#xff0c;类外不必再声明&#xff08;跟编译…

百度机器阅读理解比赛赛后总结

百度机器阅读理解比赛赛后总结 <!-- 文章内容 --><div data-note-content"" class"show-content"><div class"show-content-free"><p>2018年4-5月间&#xff0c;笔者参加了百度举办的<a href"https://links.jia…

课程 | 《知识图谱》第二期重磅来袭!

参团&#xff0c;咨询&#xff0c;查看课程&#xff0c;请点击【阅读原文】↓↓

All in Linux:一个算法工程师的IDE断奶之路

一只小狐狸带你解锁 炼丹术&NLP 秘籍在合格的炼丹师面前&#xff0c;python可能被各种嫌弃前不久卖萌屋的lulu写了一篇vim的分享《算法工程师的效率神器——vim篇》&#xff0c;突然想起来自己也有一篇攒了几年灰的稿子&#xff0c;在小伙伴的怂恿下跟小夕强行翻新了一下&a…

2019 阿里Java 4轮面试题,含必考题答案参考!

Java一面 hashmap源码问题 HashMap底层结构 put操作讲一下 HashMap、HashMap如何保证线程安全、ConcurrentHashMap JVM有哪些回收算法&#xff0c;对应的收集器有哪些&#xff1f; jvm g1的内存模型讲一下&#xff0c;G1和CMS收集器的区别&#xff1f;以及G1收集器对CMS的改…

技术动态 | 自底向上构建知识图谱全过程

本文转载自公众号&#xff1a;阿里技术。“The world is not made of strings , but is made of things.”——辛格博士&#xff0c;from Google.知识图谱&#xff0c;是结构化的语义知识库&#xff0c;用于迅速描述物理世界中的概念及其相互关系&#xff0c;通过将数据粒度从d…

数据结构--单链表single linked list数据结构C++实现

2018年2月开始学习的 C Primer&#xff0c;到今天2019年3月已经整整一年了&#xff0c;非常感谢在一起交流的小伙伴&#xff0c;是你们的无私帮助和分享使得我能跨越很多技术的坑&#xff0c;感谢你们&#xff01;期待我们2019年一起拿下《数据结构与算法》以及Python入门。 …

搜索中的 Query 理解及应用

本文转载自公众号“夕小瑶的卖萌屋”&#xff0c;专业带逛互联网算法圈的神操作 -----》我是传送门 关注后&#xff0c;回复以下口令&#xff1a; 回复【789】 &#xff1a;领取深度学习全栈手册&#xff08;含NLP、CV海量综述、必刷论文解读&#xff09; 回复【入群】&#xf…

GAN原理,优缺点、应用总结

<h1 class"csdn_top" id"gan原理优缺点应用总结"><a name"t0"></a>GAN原理&#xff0c;优缺点、应用总结</h1> <br> 本文已投稿至微信公众号–机器学习算法全栈工程师&#xff0c;欢迎关注</article><p&…

java程序员进阶必读书单

以下是我推荐给Java开发者们的一些值得一看的好书&#xff0c;从java基础开始到高级&#xff0c;以及从高级进阶到架构等的书单。 基本都是经典之作&#xff0c;可以利用工作闲暇的时间&#xff0c;系统阅读。 本文作者&#xff0c;优知学院创始人 陈睿 优知学院是IT人在线进…

胡伟 | 面向多实体人机协作消解的对比表生成自动化方法

众包实体消解实体消解&#xff08;Entity Resolution&#xff0c;简称ER&#xff09;旨在发现不同知识图谱中指称真实世界相同对象的实体。众包实体消解&#xff08;Crowd ER&#xff09;在使用机器的基础上&#xff0c;还使用人来完成实体消解任务。众包实体消解的一个常见流程…

poj 1250 解题(链表法)

http://poj.org/problem?id1250 题意大意 住宿床位有限&#xff0c;按顺序入住&#xff0c;用ABC等代表单个人&#xff0c;第1次出现代表入住&#xff0c;第2次出现代表离开 输入&#xff1a; 1 ABCBCA 代表有1个床位&#xff0c; A入住&#xff0c; B入住&#xff0c;入住…

怎样高效阅读一份深度学习项目代码?

犹豫很久要不要把读代码这个事情专门挑出来写成一篇推文。毕竟读代码嘛&#xff0c;大家可能都会读。而且笔者个人读的和写的代码量也并不足以到指导大家读代码的程度。但笔者还是决定大胆地写一点&#xff1a;就当是给自己设立今后读代码的标准&#xff0c;也将一些之前未能践…

令人拍案叫绝的Wasserstein GAN

本文后续&#xff1a;Wasserstein GAN最新进展&#xff1a;从weight clipping到gradient penalty&#xff0c;更加先进的Lipschitz限制手法 在GAN的相关研究如火如荼甚至可以说是泛滥的今天&#xff0c;一篇新鲜出炉的arXiv论文《Wasserstein GAN》却在Reddit的Machine Learnin…

java架构师进阶之独孤九剑:数据结构以及书籍推荐

这是整个java架构师连载系列&#xff0c;分为9大步骤&#xff0c;我们现在还在第一个步骤&#xff1a;程序设计和开发->数据结构与算法。 “ 如果说 Java 是自动档轿车&#xff0c;C 就是手动档吉普。数据结构呢&#xff1f;是变速箱的工作原理&#xff0c; 你完全可以不…