深度学习领域，你心目中 idea 最惊艳的论文是哪篇？

深度学习发展至今，共经历了三次浪潮，20 世纪40年代到60年代深度学习的雏形出现在控制论(cybernetics)中，20 世纪 80 年代到 90 年代深度学习表现为 联结主义(connectionism)，直到 2006 年，才真正以深度学习之名复兴。我们目下正在经历的正是第三次浪潮，大数据+大算力+炼丹术的改进，使得以NN为代表的深度学习技术开始大规模的在学术界和工业界得到研究和应用，相关的各种智能产品逐渐走向寻常百姓家。所以，是时候来回顾一下深度学习历史上那些惊艳的成果了。

惊艳的思想：GAN、对比学习、注意力机制、自监督、自编码、知识蒸馏、记忆机制、门控机制。

大道至简的技术：BP算法，残差/跳跃连接，dropout、batch norm、MLM、softmax及其温度系数、relu。

惊艳的模型/论文：GAN、AlexNet、ResNet、word2vec、transformer、bert、GPT-3、SimCSE。

还有个骚东西：deepfake，潘多拉的魔盒；最新的MyStyle，可看做一个非常强大的 deepfake。

下面分领域简单说两句：

梦开始的地方：

万能近似定理：无论我们试图学习什么函数，我们知道一个大的 MLP 一定能够表示这个函数。

贪心逐层无监督预训练：深度学习的复兴始于 2006 年，源于Hinton等人发现这种贪心学习过程能够为多层联合训练过程找到一个好的初始值，甚至可以成功训练全连接的结构。虽然现在基本用不上了，但这是第一个成功训练全连接深度结构的方法，极大的鼓舞了大家对深度学习的信心。

通用技术：

Xavier初始化：参数初始化的艺术！

ReLU：解决深度学习梯度消失问题的关键技术，为神经网络的深度发展奠定了基础，很多SOTA级别的模型依然在使用ReLU及其变体。

BatchNorm：参数规范化之道！

attention机制：attention真的很符合生物直觉，普通的attention、self-attention等各种attention为很多领域带来了颠覆性的改变，真attention is all you need!

残差连接：防止梯度消失的终南捷径，几乎已经成为了DNN的标配。

Adam：优化算法的集大成者

记忆机制：神经网络擅长存储隐性知识，但是很难记住事实，也很难实现长期记忆能力。神经图灵机与记忆网络的出现为在NN中引入记忆机制提供了思路。具体的，Google DeepMind团队在Alex Graves2014提出Neural Turing Machines，第一次提出用external memory来提高神经网络的记忆能力；随后在Neural Turing Machines提出仅仅五天后，Facebook研究员Jason Weston发表了Memory Networks；之后又出现了多篇关于Memory Networks的论文，目前记忆机制已经在问答等领域得到了比较广泛的应用。

基础理论：

深度双波谷，事情好像和我们想象的不太一样；

彩票假说，发现稀疏可训练的神经网络，网络的有效性源自子网络买彩票中奖？

AdderNet: Do we really need multiplications in deep learning?题目相当吸引眼球。

信息瓶颈理论：网络像把信息从一个瓶颈中挤压出去一般，去除掉那些含有无关细节的噪音输入数据，只保留与通用概念（general concept）最相关的特征。学习最重要的部分实际上是忘记？不明觉厉~

CV：

GAN：魔高一尺，道高一丈，万物在相生相克中成长；后面陆续又发展出了WGAN、DCGAN、StyleGAN、CycleGAN等一系列的模型，GAN当年的火热一如今年大火的扩散模型。

VAE：变分自编码器，与普通自编码器的损失的差别在于在重建loss的基础上多了一个KL散度的正则项，该正则项可以让后验分布q(z|x)与先验分布p(z)尽可能接近，一般p(z)假设为均值为0，方差为1的高斯分布。这个假设的先验分布也是VAE与GAN的最大不同之处。

AlexNet：CNN经典之作，当时很多硬件技术还不太行，平地起高楼是真无敌，作为首个在imagenet挑战赛上大放异彩的CNN，对整个机器学习社区产生了深远的影响。

ResNet：何凯明大神出品，CNN的集大成之作，残差连接简单有效，从此成为DNN的基本组件之一。

EfficientNet：重新思考CNN模型的缩放之道。

SimCLR：A simple framework for contrastive learning of visual representations.

MAE：MLM在视觉领域依然简单有效。

GIRAFFE：GAN+NeRF，效果真的让人眼前一亮，可以移动图片里的东西！不过NeRF这个真的是知识盲区了。

扩散模型：生成领域的新贵，比如OpenAI的DALL·E 2和Google的Imagen，引领文本生成图像领域的新风向，效果令人惊艳，甚至引发了AI绘画与画师之争！

NLP：

word2vec：词嵌入领域的经典之作，思想简单（由中心词预测上下文或者由上下文预测中心词），效果很好，两个训练的优化算法也很有启发。

transformer：颠覆性的提出了transformer架构，迅速席卷NLP、CV等领域，一跃成为可与老牌的RNN、CNN并列的经典架构，并且大有取而代之之势。

bert：NLP预训练技术的划时代作品，从此在NLP领域掀起了预训练的热潮，并且迅速席卷CV等相关领域。

GPT-3：大力出奇迹，大模型之路还没有尽头！可惜没有开源，好在后面META开源了可与之媲美的OPT。

dropout两次：SimCSE中采用对比学习将sentence embedding推向新SOTA，SE领域突然就卷起来了；其中提出的将dropout用作数据增强的想法很有意思，简单实用，应该会有更广泛的用途。

No Language Left Behind: Scaling Human-Centered Machine Translation. 一个模型以最先进的质量翻译200多种语言。

ChatGPT：OpenAI最新对话模型，基于强大的GPT3.5和RLHF（基于人类反馈的强化学习）带来了对话生成的惊艳效果！文本生成的里程碑！先有扩散模型带来了AI绘画的实用化，再有ChatGPT引发了AI对话、写作的热潮，2022或许真的是AIGC元年！

推荐系统：

YouTube那篇深度学习推荐论文。

知识蒸馏：

hinton那篇知识蒸馏的开山之作。

搜索：

最后说一嘴搜索领域的惊艳之作，不过多为传统的东西，可能有些跑题了。

倒排索引：优雅！

PageRank，当时还在搞物理，买了数学之美看着玩儿，被这个经典算法狠狠的惊艳到了，简洁优雅，据说是Google早期崛起的大功臣。

TF-IDF：简洁优雅，字符检索的不朽经典。

双塔架构：为了性能，基本很少有别的选择。

ANN向量检索里的乘积量化。

多模态：

clip：通过对比学习连接图文，迎接多模态的热潮吧！

Make-a-scene: Scene-based text-to-image generation with human priors. 以文本和草图为条件的图像生成，创意表达，不止文字！

强化学习：

DQN：深度强化学习！

AlphaGo/Go Zero：人机大战，震惊世界！

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。