深度学习基本概念笔记

注意力机制(Attention Mechanism):

注意力机制受到人类视觉注意力机制的启发,即关注图像特定部分的能力。即当神经网络发现输入数据的关键信息后,通过学习,在后继的预测阶段对其予以重点关注。
Attention Mechanism可以帮助模型对输入的X每个部分赋予不同的权重,抽取出更加关键及重要的信息,使模型做出更加准确的判断,同时不会对模型的计算和存储带来更大的开销,这也是Attention Mechanism应用如此广泛的原因。
对nlp领域,Attention Mechanism的目的是要把一个句子中,对句子的含义最重要,贡献最大的词语找出来。

反向传播

一种有效计算神经网络中梯度的算法,更一般地说,是一种前馈计算图。可以把它归结为从网络输出开始应用差异化的链规则并向后传播梯度。

降维

作用是减少数据量和成本,维度越大需要的数据量越多,成本就越高。

Dropout

是神经网络的正则化技术,可防止过度拟合。它通过在每次训练迭代中将它们的一部分随机设置为0来防止神经元过度适应。可以以各种方式解释丢失,例如从指数数量的不同网络中随机采样。

感受野(Receptive Field):

卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图片上映射的区域大小。再通俗点的解释是,特征图上的一个点对应输入图上的区域。

LSTM

一种时间循环神经网络,是为了解决一般的RNN存在的长期依赖问题而专门设计出来的。

激活函数:

为了向网络中加入非线性因素,加强网络的表示能力,解决线性模型无法解决的问题。常见的有阶跃函数、sigmoid函数、ReLU函数。输出层所用的激活函数:一般回归问题使用恒等函数,二元分类问题使用sigmoid函数(包括双曲正切函数等等),多元分类问题可以使用softmax函数。

Adagrad:

一种自适应学习速率算法,它可以跟随时间变化,并自动调整每个参数的学习速率。它可以代替vanilla SGD使用,并且对稀疏数据特别有用,它可以为不经常更新的参数分配更高的学习率。

Affine layer(仿射层):

一种神经网络中的完全连接层。仿射意味着前一层中的每个神经元都连接到当前层中的每个神经元。在许多情况下,这是神经网络的“标准”层。在进行最终预测之前,通常会在卷积神经网络或递归神经网络的输出之上添加仿射层。仿射层通常形式的y=f(Wx+b),其中x是该层的输入,W参数,b偏置向量,f是非线性激活函数。

Adadelta:

一种基于梯度下降的学习算法,可以随时间调整每个参数的学习速率。它被认为是对Adagrad的改进,因为Adagrad对超参数很敏感,并且可能过于快速的降低学习速度。Adadelta类似于rmsprop,可以用来代替朴素SGD。

Adam:

一种类似于rmsprop的自适应学习速率算法,但是使用梯度的第一和第二时刻的运行平均值直接估计更新,并且还包括偏差校正项。

patch:

在CNN学习训练过程中,不是一次来处理一整张图片,而是先将图片划分为多个小的块,卷积核每次只查看图像的一个小块,这一小块就称为patch,然后通过卷积核移动到图像的另一个patch。

损失函数:

为了让神经网络能自动的学习,一般使用梯度下降法寻找损失函数最小的值,从而寻找到最优参数(权重和偏置)。

BatchNorm()函数:

一般在cnn的卷积层之后添加,主要是对数据进行归一化处理,这使得数据在进行Relu之前不会因为数据过大而导致网络性能的不稳定。

输出层的softmax函数:

将全连接层的输出结果正规化(将输出值的和调整为1)后再输出。

mini-batch学习:

由于训练数据太多,在所有数据中选一批一批进行学习。

深度学习

深度学习过程也叫端到端的训练过程。
end-to-end(端到端)的方法,一端输入我的原始数据,一端输出我想得到的结果。只关心输入和输出,中间的步骤全部都不管。

归一化(normalization):

对于一维数据有(Xi-Xmin)/(Xmax-Xmin),使数据在相同尺寸,缩放仅仅跟最大、最小值的差别有关。输出范围在0-1之间.数据归一化会使得最优解的寻优过程会变得平缓,更容易正确的收敛到最优解。

标准化(standardization):

对于一维数据有(Xi-u)/σ,缩放和每个点都有关系,通过方差体现出来。与归一化对比,标准化中所有数据点都有贡献。输出范围是负无穷到正无穷。

归一化和标准化:

两者本质上都是一种线性变换。如果对输出结果范围有要求,用归一化。如果数据较为稳定(图像或是视频的数据值处于固定区间),不存在极端的最大最小值,用归一化。如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响。

Batch_size:

每次喂给模型的样本数量。

Epoch_size

是训练所有样本总的次数。Epoch:当一个完整的数据集通过了神经网络一次并且返回了一次,这个过程称为一次epoch。训练时使用多个Epoch可以理解为背诵了词典多少次。背多了,就记牢了。背得次数太多就过拟合了。

Batch Norm

以进行学习时的mini-batch为单位按mini-batch进行正规化。

张量(Tensor):

是PyTorch里面基础的运算单位,与Numpy的ndarray相同都表示的是一个多维的矩阵。 与ndarray的最大区别就是,PyTorch的Tensor可以在 GPU 上运行,而 numpy 的 ndarray 只能在CPU上运行,在GPU上运行大大加快了运算速度。

嵌入

将输入(例如单词或句子)映射到向量中。有一种流行的嵌入类型是word嵌入,例如word2vec或GloVe。它们可以嵌入句子,段落或图像。

网络退化问题:

在神经网络可以收敛的前提下,随着网络深度增加,网络的表现先是逐渐增加至饱和,然后迅速下降。

残差网络:

进行跳层连接,残差单元可以以跳层连接的形式实现,很好地解决了深度神经网络的退化问题。

Seq2Seq模型(序列到序列的模型)

属于Encoder-Decoder模型的一种,是输出的长度不确定时采用的模型,RNN一个重要的变种:N vs M,原始的N vs N要求序列等长,然而我们遇到的大部分问题序列都是不等长的。

感知机

是二分类的线性分类模型。

多层感知机

是一种人工神经网络,设定权重的工作需要由人工来进行,又叫全连接前馈神经网络。

神经网络

为了解决多层感知机需要人工设定权重的问题出现的,能够自动地从数据中学习到合适的权重(一般采用梯度下降法来进行反向传播设置权重),这是和多层感知机最大的区别。

卷积神经网络

是含有卷积层池化层全连接层的神经网络。

GAN模型系列

生成对抗模型(GAN)

2014年提出的一种深度学习模型。

卷积神经网络模型系列

LeNet:

CNN元祖,1998年首次提出,进行手写数字识别的网络。

Alexnet:

2012年提出,引发深度学习热潮的导火线,网络结构和LeNet没有太大的不同,但是围绕它们的环境和计算机技术有了很大的进步。

NiN:

AlexNet问世不久后提出的,可以显著减小模型参数尺寸,从而缓解过拟合。然而该设计有时会造成获得有效模型的训练时间的增加。

GoogLeNet:

2014年提出,Inception采用了模块化的结构,从另一种角度来提升训练结果:能更高效地利用计算资源,在相同的计算量下能提取到更多的特征,从而提升训练结果。

VGG:

2014年提出,结构整洁,拓展性很强,迁移到其他图片数据上的泛化性非常好。

ResNet:

2015年提出,由于网络的加深会造成梯度爆炸和梯度消失的问题,为了让更深的网络也能训练出好的效果而提出ResNet。

SqueezeNet:

2017年提出,参数少,模型文件小。

DenseNet:

DenseNet模型主要由DenseBlock和Transition组成,其中:
DenseBlock是由多层模块组成,每层的特征图大小相同,层与层之间采用密集相连的。
Transition是连接两个相邻的DenseBlock,并通过pooling使得特征图大小降低,还能起到压缩模块的作用。
DenseBlock中的非线性组合函数H()采用的是:BN+Relu+3x3Conv结构。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/333924.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java api 开发_Java开发人员应该知道的前20个库和API

java api 开发优秀且经验丰富的Java开发人员的特征之一是对API的广泛了解,包括JDK和第三方库。 我花了很多时间来学习API,尤其是在阅读了Effective Java 3rd Edition之后 ,Joshua Bloch建议在Java 3rd Edition中使用现有的API进行开发&#x…

Linux 系统的硬链接和软链接详解

文章目录什么是链接链接用来干什么的硬链接和软链接的区别硬链接和软链接的图示总结我们知道文件都有文件名与数据,这在 Linux 上被分成两个部分:用户数据 (user data) 与元数据 (metadata)。用户数据,即文件数据块 (data block),…

js如何监听元素事件是否被移除_JavaScript 监听元素是否进入/移出可视区域

JavaScript 监听元素是否进入/移出可视区域常规操作防抖节流IntersectionObserver兼容的代码常规操作通常的做法是,监听srcoll事件,根据元素的offset来判断。window.addEventListener(scroll, this.scrollHandle, true);使用getBoundingClientRec()来获取…

人工智能领域论文常见基本概念笔记

BLEU分数: 一个比较候选文本翻译与其他一个或多个参考翻译的评价分数。 AUC: 衡量学习器优劣的一种指标,Roc曲线下与坐标轴围成的面积(0.5~1),越接近1,检测方法真实性越高。 Image Caption: 一般有几种叫法:图像描述,图像标注…

okta-spring_通过Okta的单点登录保护Spring Boot Web App的安全

okta-spring“我喜欢编写身份验证和授权代码。” 〜从来没有Java开发人员。 厌倦了一次又一次地建立相同的登录屏幕? 尝试使用Okta API进行托管身份验证,授权和多因素身份验证。 您可以使用SpringBoot和Okta在不到20分钟的时间内启动具有完整用户身份和…

Mac 键盘符号整理

图标介绍⌘Command⇧Shift⇪Caps Lock⌥Option Alt⌃Control↩Enter⌫Delete⌦Fn Delete↑上箭头↓下箭头←左箭头→右箭头⇞Fn ↑ Page Up⇟Fn ↓ Page DownHomeFn ←EndFn →⇥Tab 右制表符⇤Shift Tab 左制表符⎋Esc Escape⏏电源开关键

团队的英文翻译缩写_魔兽世界各种英文/拼音/缩写的翻译/解释

大灾变缩写为CTM团队副本名称缩写:VOA(国服简称为宝库,拼音缩写为BK....):Vault of Archavon 八十年代团队副本阿尔卡冯的宝库,台服译作亞夏梵穹殿。位于冬拥湖(台服译作冬握湖)。分10人和25人难度。没有困难模式。NAXX: Naxxrama…

机器学习常见基本概念笔记

机器学习 监督学习和非监督学习: 有监督学习的方法就是识别事物,识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。比如分类和回归。 而无监督学习方法只有要分析的数据集的本身,预先没有什么标签。如果发现数据集呈现…

adf开发_在EL表达式中引用ADF Faces组件

adf开发EL表达式通常用于在页面上指定ADF Faces组件的属性值。 有趣的是,我们可以使用component关键字来引用要为其评估EL表达式的组件实例。 这是略与此类似Java中。 例如,在以下代码段中,按钮的提示被评估为按钮的文本值,并且它…

Navicat Premium for Mac 快捷键

快捷键说明Comm R运行全部语句Shift Comm R运行当前语句Comm 1显示/隐藏左侧的导航窗格Comm 2显示/隐藏右侧的信息窗格Option Comm T隐藏工具栏Comm N创建新表Comm 添加记录Comm -删除记录Comm Y新建查询,这样会打开一个标签界面,可以在这个界…

wxpython 多线程_在wxPython中使用线程连续更新GUI的好方法?

我正在开发一个使用pythonv2.7和wxpythonv3.0的GUI应用程序。我必须不断更新我的图形用户界面,其中包含许多面板。每个面板包含一个wx.StaticText。我必须不断更新这些wx.StaticTexts。我想用threads。我还使用pubsub模块与GUI通信来更新这些wx.StaticTexts。每件事…

Pytorch代码函数笔记

1.torch.squeeze(): 要对数据的维度进行压缩,去掉维数为1的的维度,比如是一行或者一列这种,一个一行三列(1,3)的数去掉第一个维数为一的维度之后就变成(3)行。 2.nn.Sequential(): 一个有序的容器,神经网络模块将按…

apache poi_将HTML转换为Apache POI的RichTextString

apache poi1.概述 在本教程中,我们将构建一个将HTML作为输入的应用程序,并使用提供HTML的RichText表示形式创建Microsoft Excel工作簿。 为了生成Microsoft Excel工作簿,我们将使用Apache POI 。 为了分析HTML,我们将使用Jericho。…

Windows 下有哪些逆天的软件?

文章目录逆天软件系列1:Everything逆天软件系列2:Total Commander逆天软件系列3:Snipaste逆天软件系列4:Microsoft To-Do逆天软件系列5:ScreenToGIF逆天软件系列6:Geek Uninstaller逆天软件系列7&#xff1…

C++中绘图工具EasyX基本操作

使用头文件 #include <graphics.h>创建和关闭图形界面 initgraph(800,600); //创建图形界面&#xff0c;参数:图形宽度&#xff0c;图形高度 closegraph(); //关闭图形界面画图形形状 //画圆&#xff0c;参数&#xff1a;圆心点x坐标&#xff0c;圆心点y坐标,半径mm c…

oracle adf_Fn函数来构建Oracle ADF应用程序

oracle adf在我之前的一篇文章中&#xff0c;我描述了如何创建一个Docker容器作为ADF应用程序的构建器。 在这里&#xff0c;我将展示如何将此容器用作 在FN平台的功能 。 首先&#xff0c;让我们更新容器&#xff0c;使其符合功能要求&#xff0c;这意味着可以将其作为接受某…

Sublime Text 4.0 4102 安装插件的问题

文章目录安装包控件&#xff08;Package Control&#xff09;如何安装插件打开 Install Package 面板搜索和安装插件无法打开 Install Package 面板的问题故障排除安装包控件&#xff08;Package Control&#xff09; 要安装插件&#xff0c;必须先安装 Package Control&#…

系统制成docker镜像_docker 制作自己的镜像

查看 docker的服务状态systemctl status docker如果没有启动的话&#xff0c;要先启动 docker 服务systemctl start docker制作自己的镜像1.从远程仓库拉取一个纯净的 centos 系统镜像查询 centos 相关的镜像docker search centos下载镜像到本地docker pull 镜像名查看本地镜像…

Pytorch机器学习/深度学习代码笔记

代码步骤笔记导入模块设置参数数据预处理定义数据集1.Dataset2.ImageFolder加载数据集DataLoadertorchvision--数据预处理要使用的库torchvision.datasetstorchvision.modelstorchvision.transforms训练网络参数训练前的准备设置指定的训练设备(GPU、CPU)定义损失函数定义优化器…

maven安装教程安装教程_Maven教程之春

maven安装教程安装教程1.简介 在这篇文章中&#xff0c;我们将演示如何针对非常特定的用例对Spring使用Maven依赖项。 我们使用的所有库的最新版本都可以在Maven Central上找到。 对于一个有效的构建周期来说&#xff0c;了解Maven依赖项的工作方式以及如何对其进行管理很重要…