深度学习论文精读
所有论文
包括已经精读完成和之后将要精读的论文,10年内深度学习里有影响力文章(必读文章),或者近期比较有意思的文章。
感谢沐神!
总论文数 67,阅读完成数 32
计算机视觉 - CNN
已阅读 年份 名字 简介 博文链接 ✅ 2012 AlexNet 深度学习热潮的奠基作 2014 VGG 使用 3x3 卷积构造更深的网络 2014 GoogleNet 使用并行架构构造更深的网络 ✅ 2015 ResNet 构建深层网络都要有的残差连接。 2017 MobileNet 适合终端设备的小CNN 2019 EfficientNet 通过架构搜索得到的CNN 2021 Non-deep networks 让不深的网络也能在ImageNet刷到SOTA
计算机视觉 - Transformer
已阅读 年份 名字 简介 博文链接 ✅ 2020 ViT Transformer杀入CV界 ✅ 2021 Swin Transformer 多层次的Vision Transformer 2021 MLP-Mixer 使用MLP替换self-attention ✅ 2021 MAE BERT的CV版
生成模型
已阅读 年份 名字 简介 博文链接 ✅ 2014 GAN 生成模型的开创工作 2015 DCGAN 使用CNN的GAN 2016 pix2pix 2016 SRGAN 图片超分辨率 2017 WGAN 训练更加容易 2017 CycleGAN 2018 StyleGAN 2019 StyleGAN2 2020 DDPM Diffusion Models 2021 Improved DDPM 改进的 DDPM 2021 Guided Diffusion Models 号称超越 GAN 2021 StyleGAN3 ✅ 2022 DALL.E 2 CLIP + Diffusion models,文本生成图像新高度
计算机视觉 - Object Detection
已阅读 年份 名字 简介 博文链接 2014 R-CNN Two-stage 2015 Fast R-CNN 2015 Faster R-CNN 2016 SSD Single stage 2016 YOLO 2017 Mask R-CNN 2017 YOLOv2 2018 YOLOv3 2019 CenterNet Anchor free ✅ 2020 DETR Transformer
计算机视觉 - 对比学习
已阅读 年份 名字 简介 博文链接 ✅ 2018 InstDisc 提出实例判别和memory bank做对比学习 ✅ 2018 CPC 对比预测编码,图像语音文本强化学习全都能做 ✅ 2019 InvaSpread 一个编码器的端到端对比学习 ✅ 2019 CMC 多视角下的对比学习 ✅ 2019 MoCov1 无监督训练效果也很好 ✅ 2020 SimCLRv1 简单的对比学习 (数据增强 + MLP head + 大batch训练久) ✅ 2020 MoCov2 MoCov1 + improvements from SimCLRv1 ✅ 2020 SimCLRv2 大的自监督预训练模型很适合做半监督学习 ✅ 2020 BYOL 不需要负样本的对比学习 ✅ 2020 SWaV 聚类对比学习 ✅ 2020 SimSiam 化繁为简的孪生表征学习 ✅ 2021 MoCov3 如何更稳定的自监督训练ViT ✅ 2021 DINO transformer加自监督在视觉也很香
计算机视觉 - 视频理解
已阅读 年份 名字 简介 博文链接 ✅ 2014 DeepVideo 提出sports1M数据集,用深度学习做视频理解 ✅ 2014 Two-stream 引入光流做时序建模,神经网络首次超越手工特征 ✅ 2014 C3D 比较深的3D-CNN做视频理解 ✅ 2015 Beyond-short-snippets 尝试使用LSTM ✅ 2016 Convolutional fusion 做early fusion来加强时空间建模 ✅ 2016 TSN 超级有效的视频分段建模,bag of tricks in video ✅ 2017 I3D 提出Kinetics数据集,膨胀2D网络到3D,开启3D-CNN时代 ✅ 2017 R2+1D 拆分3D卷积核,使3D网络容易优化 ✅ 2017 Non-local 引入自注意力做视觉问题 ✅ 2018 SlowFast 快慢两支提升效率 ✅ 2021 TimeSformer 视频中第一个引入transformer,开启video transformer时代
多模态学习
已阅读 年份 名字 简介 博文链接 ✅ 2021 CLIP 图片和文本之间的对比学习 ✅ 2021 ViLT 第一个摆脱了目标检测的视觉文本模型 ✅ 2021 ViLD CLIP蒸馏帮助开集目标检测 ✅ 2021 GLIP 联合目标检测和文本定位 ✅ 2021 CLIP4Clip 拿CLIP直接做视频文本retrieval ✅ 2021 ActionCLIP 用多模态对比学习有监督的做视频动作分类 ✅ 2021 PointCLIP 3D变2D,巧妙利用CLIP做点云 ✅ 2022 LSeg 有监督的开集分割 ✅ 2022 GroupViT 只用图像文本对也能无监督做分割 ✅ 2022 CLIPasso CLIP跨界生成简笔画 ✅ 2022 DepthCLIP 用文本跨界估计深度
自然语言处理 - Transformer
已阅读 年份 名字 简介 博文链接 ✅ 2017 Transformer 继MLP、CNN、RNN后的第四大类架构 ✅ 2018 GPT 使用 Transformer 解码器来做预训练 ✅ 2018 BERT Transformer一统NLP的开始 ✅ 2019 GPT-2 更大的 GPT 模型,朝着zero-shot learning迈了一大步 ✅ 2020 GPT-3 100倍更大的 GPT-2,few-shot learning效果显著
系统
已阅读 年份 名字 简介 博文链接 ✅ 2014 参数服务器 支持千亿参数的传统机器学习模型 ✅ 2018 GPipe 流水线(Pipeline)并行 ✅ 2019 Megatron-LM 张量(Tensor)并行 ✅ 2019 Zero 参数分片 ✅ 2022 Pathways 将Jax拓展到上千TPU核上
图神经网络
已阅读 年份 名字 简介 博文链接 ✅ 2021 图神经网络介绍 GNN的可视化介绍
优化算法
已阅读 年份 名字 简介 博文链接 2014 Adam 深度学习里最常用的优化算法之一 2016 为什么超大的模型泛化性不错 2017 为什么Momentum有效 Distill的可视化介绍
新领域应用
已阅读 年份 名字 简介 博文链接 2016 AlphaGo 强化学习出圈 2020 AlphaFold 赢得比赛的的蛋白质3D结构预测 ✅ 2021 AlphaFold 2 原子级别精度的蛋白质3D结构预测 ✅ 2021 Codex 使用注释生成代码 ✅ 2021 指导数学直觉 分析不同数学物体之前的联系来帮助发现新定理 ✅ 2022 AlphaCode 媲美一般程序员的编程解题水平