深度学习领域,你心目中 idea 最惊艳的论文是哪篇?

深度学习发展至今,共经历了三次浪潮,20 世纪40年代到60年代深度学习的雏形出现在控制论(cybernetics)中,20 世纪 80 年代 到 90 年代深度学习表现为 联结主义(connectionism),直到 2006 年,才真正以深度学习之名复兴。我们目下正在经历的正是第三次浪潮,大数据+大算力+炼丹术的改进,使得以NN为代表的深度学习技术开始大规模的在学术界和工业界得到研究和应用,相关的各种智能产品逐渐走向寻常百姓家。所以,是时候来回顾一下深度学习历史上那些惊艳的成果了。

惊艳的思想GAN对比学习注意力机制、自监督、自编码、知识蒸馏、记忆机制、门控机制。

大道至简的技术BP算法残差/跳跃连接dropout、batch norm、MLM、softmax及其温度系数、relu

惊艳的模型/论文GAN、AlexNet、ResNetword2vectransformerbert、GPT-3、SimCSE。

还有个骚东西:deepfake,潘多拉的魔盒;最新的MyStyle,可看做一个非常强大的 deepfake。

下面分领域简单说两句:

梦开始的地方:

万能近似定理:无论我们试图学习什么函数,我们知道一个大的 MLP 一定能够表示这个函数。

 

贪心逐层无监督预训练:深度学习的复兴始于 2006 年,源于Hinton等人发现这种贪心学习过程能够为多层联合训练过程找到一个好的初始值,甚至可以成功训练全连接的结构。虽然现在基本用不上了,但这是第一个成功训练全连接深度结构的方法,极大的鼓舞了大家对深度学习的信心。

通用技术

Xavier初始化:参数初始化的艺术!

ReLU:解决深度学习梯度消失问题的关键技术,为神经网络的深度发展奠定了基础,很多SOTA级别的模型依然在使用ReLU及其变体。

BatchNorm:参数规范化之道!

attention机制:attention真的很符合生物直觉,普通的attention、self-attention等各种attention为很多领域带来了颠覆性的改变,真attention is all you need!

残差连接:防止梯度消失的终南捷径,几乎已经成为了DNN的标配。

Adam:优化算法的集大成者

记忆机制神经网络擅长存储隐性知识,但是很难记住事实,也很难实现长期记忆能力。神经图灵机与记忆网络的出现为在NN中引入记忆机制提供了思路。具体的,Google DeepMind团队在Alex Graves2014提出Neural Turing Machines,第一次提出用external memory来提高神经网络的记忆能力;随后在Neural Turing Machines提出仅仅五天后,Facebook研究员Jason Weston发表了Memory Networks;之后又出现了多篇关于Memory Networks的论文,目前记忆机制已经在问答等领域得到了比较广泛的应用。

基础理论:

深度双波谷,事情好像和我们想象的不太一样;

彩票假说,发现稀疏可训练的神经网络,网络的有效性源自子网络买彩票中奖?

AdderNet: Do we really need multiplications in deep learning?题目相当吸引眼球。

信息瓶颈理论:网络像把信息从一个瓶颈中挤压出去一般,去除掉那些含有无关细节的噪音输入数据,只保留与通用概念(general concept)最相关的特征。学习最重要的部分实际上是忘记?不明觉厉~

CV

GAN:魔高一尺,道高一丈,万物在相生相克中成长;后面陆续又发展出了WGAN、DCGAN、StyleGAN、CycleGAN等一系列的模型,GAN当年的火热一如今年大火的扩散模型。

VAE:变分自编码器,与普通自编码器的损失的差别在于在重建loss的基础上多了一个KL散度的正则项,该正则项可以让后验分布q(z|x)与先验分布p(z)尽可能接近,一般p(z)假设为均值为0,方差为1的高斯分布。这个假设的先验分布也是VAE与GAN的最大不同之处。

AlexNet:CNN经典之作,当时很多硬件技术还不太行,平地起高楼是真无敌,作为首个在imagenet挑战赛上大放异彩的CNN,对整个机器学习社区产生了深远的影响。

ResNet:何凯明大神出品,CNN的集大成之作,残差连接简单有效,从此成为DNN的基本组件之一。

EfficientNet:重新思考CNN模型的缩放之道。

SimCLR:A simple framework for contrastive learning of visual representations.

MAE:MLM在视觉领域依然简单有效。

GIRAFFE:GAN+NeRF,效果真的让人眼前一亮,可以移动图片里的东西!不过NeRF这个真的是知识盲区了。

扩散模型:生成领域的新贵,比如OpenAI的DALL·E 2和Google的Imagen,引领文本生成图像领域的新风向,效果令人惊艳,甚至引发了AI绘画与画师之争!

NLP

word2vec:词嵌入领域的经典之作,思想简单(由中心词预测上下文或者由上下文预测中心词),效果很好,两个训练的优化算法也很有启发。

transformer:颠覆性的提出了transformer架构,迅速席卷NLP、CV等领域,一跃成为可与老牌的RNN、CNN并列的经典架构,并且大有取而代之之势。

bert:NLP预训练技术的划时代作品,从此在NLP领域掀起了预训练的热潮,并且迅速席卷CV等相关领域。

GPT-3:大力出奇迹,大模型之路还没有尽头!可惜没有开源,好在后面META开源了可与之媲美的OPT。

dropout两次:SimCSE中采用对比学习将sentence embedding推向新SOTA,SE领域突然就卷起来了;其中提出的将dropout用作数据增强的想法很有意思,简单实用,应该会有更广泛的用途。

No Language Left Behind: Scaling Human-Centered Machine Translation. 一个模型以最先进的质量翻译200多种语言。

ChatGPT:OpenAI最新对话模型,基于强大的GPT3.5和RLHF(基于人类反馈的强化学习)带来了对话生成的惊艳效果!文本生成的里程碑!先有扩散模型带来了AI绘画的实用化,再有ChatGPT引发了AI对话、写作的热潮,2022或许真的是AIGC元年!

推荐系统

YouTube那篇深度学习推荐论文。

知识蒸馏

hinton那篇知识蒸馏的开山之作。

搜索

最后说一嘴搜索领域的惊艳之作,不过多为传统的东西,可能有些跑题了。

倒排索引:优雅!

PageRank,当时还在搞物理,买了数学之美看着玩儿,被这个经典算法狠狠的惊艳到了,简洁优雅,据说是Google早期崛起的大功臣。

TF-IDF:简洁优雅,字符检索的不朽经典。

双塔架构:为了性能,基本很少有别的选择。

ANN向量检索里的乘积量化。

多模态

clip:通过对比学习连接图文,迎接多模态的热潮吧!

Make-a-scene: Scene-based text-to-image generation with human priors. 以文本和草图为条件的图像生成,创意表达,不止文字!

强化学习

DQN:深度强化学习!

AlphaGo/Go Zero:人机大战,震惊世界!

 

 如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。


👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。


1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/56765.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电气学习知识点

文章目录 NPN和PNP输出 NPN和PNP输出 NPN和PNP(两种不同类型的三极管)都是集电极输出。(集电极开路输出) 下图b:基极、c集电极、e发射极 NPN示意图(集电极连接负载 — 正方形) NPN的电流流向是从集电极…

电子物证的数字化时代:龙信科技引领取证技术革新

文章关键词:电子物证、手机取证、云取证、介质取证、电子数据取证 在信息技术飞速发展的今天,电子物证在司法领域扮演着越来越重要的角色。电子物证是指以存储于介质载体中的电磁记录或光电记录对案件事实起证明作用的电子信息数据及其附属物。与传统物…

《云计算网络技术与应用》实训6-1:配置KVM虚拟机使用NAT网络

任务1、计算节点基础环境准备 1. 使用VMware安装CentOS 7虚拟机,安装时记得开启CPU虚拟化,命名为“KVMC6”。 2. (网卡配置和之前的一样,都用100网段)网关设置为192.168.100.1,地址段为192.168.100.10-25…

LeetCode 3200.三角形的最大高度:枚举

【LetMeFly】3200.三角形的最大高度:枚举 力扣题目链接:https://leetcode.cn/problems/maximum-height-of-a-triangle/ 给你两个整数 red 和 blue,分别表示红色球和蓝色球的数量。你需要使用这些球来组成一个三角形,满足第 1 行…

Linux下内核空间和用户空间内存映射图详解

目录 一、简介二、内存空间定义三、内存权限四、内存空间映射图4.1 32位系统4.2 64位系统4.3 映射空间解析 五、其他相关链接1、关于linux下内存管理内容总结2、Linux内核中kzalloc分配内存时用的参数GFP_KERNEL详解3、Linux下stream内存带宽测试参数和示例详解附源码总结 一、…

HTTP cookie 与 session

一种关于登录的场景演示 - B 站登录和未登录 问题:B 站是如何认识我这个登录用户的?问题:HTTP 是无状态,无连接的,怎么能够记住我? 一、引入 HTTP Cookie 定义 HTTP Cookie(也称为 Web Cooki…

如何区分不同类型的光源

" 声明:此文档中的大部分内容来源于网络,经校对和整理后分享给大家,仅供学习参考使用。" 1、问题背景 之前调试的项目中,客户提供的客观验收标准中要求用到TL83光源,用来测试图像的颜色误差及白平衡。 TL83光…

用Java爬虫API,轻松获取taobao商品SKU信息

在电子商务的世界里,SKU(Stock Keeping Unit,库存单位)是商品管理的基础。对于商家来说,SKU的详细信息对于库存管理、价格策略制定、市场分析等都有着重要作用。taobao作为中国最大的电子商务平台之一,提供…

windows下载配置CAS单点登录

下载 github下载 云盘瞎子啊 版本对应jdk,根据自身环境下载对应版本的cas。 安装 下载完成之后解压 按照.md文档执行打包命令 build.bat package配置 如果不用https,需要进行以下配置: 修改配置文件application.properties 在最后一行…

【远程监控新体验】OpenObserve结合内网穿透无公网IP远程访问全攻略

文章目录 前言1. 安装Docker2. Docker镜像源添加方法3. 创建并启动OpenObserve容器4. 本地访问测试5. 公网访问本地部署的OpenObserve5.1 内网穿透工具安装5.2 创建公网地址6. 配置固定公网地址前言 本文主要介绍如何在Linux系统使用Docker快速本地化部署OpenObserve云原生可观…

Ajax处理错误信息(处理响应报文)

<!DOCTYPE html> <html><head><meta charset"utf-8" /><title></title></head><body><form action""><div>用户名<input type"text" class"username"></div>…

时间序列神器Prophet教程2-饱和预测

公众号&#xff1a;尤而小屋编辑&#xff1a;Peter作者&#xff1a;Peter 大家好&#xff0c;我是Peter~ 本文是时间序列预测神器Prophet的第二篇&#xff1a;使用Prophet如何实现饱和预测 饱和预测增长-Saturating Forecasts 默认情况下&#xff0c;Prophet 使用线性模型来…

【C++】string类(2)

&#x1f973;个人主页: 起名字真南 &#x1f973;个人专栏:【数据结构初阶】 【C语言】 【C】 目录 引言1 模拟实现string类基本框架2 实现string类中的主要成员函数2.1 Push_Back 函数2.2 reserve 函数2.3 append 函数2.4 c_str 函数2.5 begin ,end 函数2.5 operator 函数2.6…

VScode写Java项目的教程

VScode写Java项目的教程 1.首先必选先安装Java解释器2.安装插件Java Extension Pack3.创建项目创建项目结构选择项目类型 4.测试结果源码内容 今天用一台老式笔记本写代码&#xff0c;IDEA跑不动就准备用VScode突然间就蒙了&#xff0c;怎么创建项目啊&#xff1f;于是就有了这…

自动驾驶系列—加速自动驾驶系统开发:多型号SoC快速适配的最佳实践

&#x1f31f;&#x1f31f; 欢迎来到我的技术小筑&#xff0c;一个专为技术探索者打造的交流空间。在这里&#xff0c;我们不仅分享代码的智慧&#xff0c;还探讨技术的深度与广度。无论您是资深开发者还是技术新手&#xff0c;这里都有一片属于您的天空。让我们在知识的海洋中…

Python编程探索:从基础语法到循环结构实践(下)

文章目录 前言&#x1f377;四、 字符串拼接&#xff1a;连接多个字符串&#x1f378;4.1 使用 操作符进行字符串拼接&#x1f378;4.2 使用 join() 方法进行字符串拼接&#x1f378;4.3 使用 format() 方法进行格式化拼接&#x1f378;4.4 使用 f-string&#xff08;格式化字…

OpenWRT 和 Padavan 路由器配置网络打印机 实现远程打印

本文首发于只抄博客&#xff0c;欢迎点击原文链接了解更多内容。 前言 之前有给大家介绍过 Armbian 安装 CUPS 作为打印服务器&#xff0c;像是 N1 盒子、玩客云&#xff0c;甚至是随身 WiFi 都可以通过 CUPS 来进行打印。但是有些朋友不想专门为打印机添置一个设备&#xff0…

每天5分钟玩转C#/.NET之C#语言详细介绍

C#语言介绍 C# 语言是适用于 .NET 平台&#xff08;免费的跨平台开源开发环境&#xff09;的最流行语言。 C# 程序可以在许多不同的设备上运行&#xff0c;从物联网 (IoT) 设备到云以及介于两者之间的任何设备。 可为手机、台式机、笔记本电脑和服务器编写应用。C# 是一种跨平…

iba Data Export 导出面板选项

时间线选择真实时间“Absolute date / time” 时间间隔选择0.5Sec.&#xff08;最小为0.01Sec.&#xff09; 右侧数据根据需要选择

数学建模算法与应用 第15章 预测方法

目录 15.1 微分方程模型 Matlab代码示例&#xff1a;求解简单的微分方程 15.2 灰色预测模型&#xff08;GM&#xff09; Matlab代码示例&#xff1a;灰色预测模型 15.3 自回归模型&#xff08;AR&#xff09; Matlab代码示例&#xff1a;AR模型的预测 15.4 指数平滑法 M…