1.6.丢弃法

丢弃法

动机:一个好的模型需要对输入数据的扰动足够健壮,丢弃法就是在层之间加入噪音。也可以在数据中使用噪音,等价与Tikhonov正则

无偏差的加入噪音

​ 对于数据 x x x,加入噪音后的 x ′ x' x的期望值是不变的, E [ x ′ ] = x E[x']=x E[x]=x

​ 则我们可以构造出一个简单的期望运算 E [ x ′ ] = p ⋅ 0 + ( 1 − p ) ⋅ x i 1 − p = x i E[x']=p\cdot 0+(1-p)\cdot\frac{x_i}{1-p} =x_i E[x]=p0+(1p)1pxi=xi

​ 那么可以这样处理元素:

在这里插入图片描述

​ 其中丢弃概率是超参数。常用在多层感知机的隐藏层输出上。

通常将丢弃法作用在隐藏全连接层的输出上:
h = σ ( W 1 x + b 1 ) h ′ = d r o p o u t ( h ) o = W 2 h ′ + b 2 y = s o f t m a x ( o ) h=\sigma(W_1x+b_1)\\ h' = dropout(h)\\ o = W_2h' +b_2\\ y=softmax(o) h=σ(W1x+b1)h=dropout(h)o=W2h+b2y=softmax(o)
在这里插入图片描述

​ 如图本来有5个隐藏层,但丢弃函数可能取到0,那么可能会直接消失,剩下的3个隐藏层变大。

​ 丢弃项其实是正则项,只在训练中使用,他们影响模型参数的更新。

​ 在推理过程中,丢弃法直接返回输入 h = d r o p o u t ( h ) h = dropout(h) h=dropout(h),也可以保证确定性的输出

​ 实际上丢弃法的实质是每次训练中使用一个神经网络的子集来做训练, 则多次训练后得到的是多个神经网络的平均,效果自然要好一些。

​ 现在普遍将丢弃项认为是正则项,效果和正则项基本相同。

​ 在输入数据比较简单,但神经网络比较大时,dropout可能会比较有用。

​ dropout1=0.2,dropout2=0.5:

在这里插入图片描述

​ dropout1=0.dropout2=0"

在这里插入图片描述

​ 效果出乎意料的好,说明这个模型本身就没过拟合,这时候使用dropout可能效果不好。一般的小技巧是模型设大一点,然后使用dropout来进行调整。

代码实现

import torch
from torch import nn
from d2l import torch as d2ldef dropout_layer(X, dropout):assert 0 <= dropout <= 1  # 丢弃概率必须在0到1之间if dropout == 1:return torch.zeros_like(X)  # 全0则全部丢弃if dropout == 0:return X  # 0则不丢弃mask = (torch.rand(X.shape) > dropout).float()  # rand生成0到1之间的随机数return mask * X / (1.0 - dropout)num_inputs, num_outputs, num_hiddens1, num_hiddens2 = 784, 10, 256, 256# dropout1, dropout2 = 0.2, 0.5
dropout1, dropout2 = 0., 0.# 定义具有两个隐藏层的多层感知机,每个隐藏层包含256个单元,有三个线性层,最后一个是输出层
class Net(nn.Module):def __init__(self, num_inputs, num_outputs, num_hiddens1, num_hiddens2,is_training=True):super(Net, self).__init__()self.num_inputs = num_inputsself.training = is_trainingself.lin1 = nn.Linear(num_inputs, num_hiddens1)self.lin2 = nn.Linear(num_hiddens1, num_hiddens2)self.lin3 = nn.Linear(num_hiddens2, num_outputs)self.relu = nn.ReLU()def forward(self, X):H1 = self.relu(self.lin1(X.reshape((-1, self.num_inputs))))# 只有在训练模型时才使用dropoutif self.training == True:# 在第一个全连接层之后添加一个dropout层H1 = dropout_layer(H1, dropout1)H2 = self.relu(self.lin2(H1))if self.training == True:# 在第二个全连接层之后添加一个dropout层H2 = dropout_layer(H2, dropout2)out = self.lin3(H2)return outnet = Net(num_inputs, num_outputs, num_hiddens1, num_hiddens2)num_epochs, lr, batch_size = 10, 0.5, 256
loss = nn.CrossEntropyLoss(reduction='none')
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
trainer = torch.optim.SGD(net.parameters(), lr=lr)
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)
d2l.plt.show()'''简洁实现'''net = nn.Sequential(nn.Flatten(),nn.Linear(784, 256),nn.ReLU(),# 在第一个全连接层之后添加一个dropout层nn.Dropout(dropout1),nn.Linear(256, 256),nn.ReLU(),# 在第二个全连接层之后添加一个dropout层nn.Dropout(dropout2),nn.Linear(256, 10))def init_weights(m):if type(m) == nn.Linear:nn.init.normal_(m.weight, std=0.01)net.apply(init_weights);

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/47591.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity如何查找两个transform最近的公共parent

查找两个子对象最近的父对象 一、问题背景二、解决方案思路核心算法代码 三、总结 一、问题背景 最近看到个关于Unity的问题&#xff1a;在Hierarchy面板中的游戏对象&#xff0c;给定两个子物体transform对象&#xff0c;如何查找这两个transform最近的公共父级parent。感觉挺…

【前端】ikun-qrcode:极简的二维码生成组件,使用view而非canvas避免层级问题

文章目录 背景ikun-qrcode界面效果如何发布一款自己的插件到uniapp市场。&#xff08;5分钟搞定&#xff09; 背景 之前在uniapp上100行搞定二维码生成&#xff0c; 现在封装为vue组件分享出来&#xff1a; 下载地址&#xff1a; https://ext.dcloud.net.cn/plugin?id19351 …

C语言 | Leetcode C语言题解之第239题滑动窗口最大值

题目&#xff1a; 题解&#xff1a; int* maxSlidingWindow(int* nums, int numsSize, int k, int* returnSize) {int prefixMax[numsSize], suffixMax[numsSize];for (int i 0; i < numsSize; i) {if (i % k 0) {prefixMax[i] nums[i];} else {prefixMax[i] fmax(pref…

PHP + Swoole 与 Go 技术选型对比调研报告

1. 引言 在高并发场景下&#xff0c;选择合适的技术栈至关重要。PHP Swoole 和 Go 都是当前流行的技术选型&#xff0c;但它们在性能、开发效率、易用性等方面各有优劣。本报告将从多个维度对比这两种技术&#xff0c;帮助开发者做出更合适的选择。 2. 技术概述 PHP Swool…

linux 修改hostname

在 Linux 系统中修改主机名&#xff08;hostname&#xff09;要遵循以下几步全面的操作流程&#xff1a; 1. 临时修改主机名 你可以立即但临时地更改主机名&#xff0c;这个更改在重启后不会保留。执行以下命令&#xff1a; hostname 新主机名例如&#xff1a; hostname my…

编程世界的对决:JavaScript vs Java

在编程领域&#xff0c;Java和JavaScript这两门语言各有千秋。它们不仅在语法上有着明显的区别&#xff0c;在编程理念、表现力、类型转换以及代码的易读性和复杂性方面也有着巨大的差异。本文将深入探讨JavaScript相较于Java的优势&#xff0c;以及两者在代码风格和开发体验上…

抖音视频素材去哪里找啊?视频素材网站库分享

在这个视觉盛宴的抖音平台上&#xff0c;高质量和有趣的视频素材常常是吸引观众的重要钥匙。如果你也正在寻找那些能让你的视频作品更加出色的资源&#xff0c;那么恭喜你&#xff0c;今天我将为你介绍10个超实用的视频素材网站&#xff0c;让你的抖音视频创作充满创意和效率。…

【ROS2】高级:解锁 Fast DDS 中间件的潜力 [社区贡献]

目标&#xff1a;本教程将展示如何在 ROS 2 中使用 Fast DDS 的扩展配置功能。 教程级别&#xff1a;高级 时间&#xff1a;20 分钟 目录 背景 先决条件在同一个节点中混合同步和异步发布 创建具有发布者的节点创建包含配置文件的 XML 文件执行发布者节点创建一个包含订阅者的节…

单例模式->饿汉模式->懒汉模式->阻塞队列->模拟实现阻塞队列->生产者消费者模型

单例模式->是一种固定套路,类似于"棋谱",按照套路来,可以避免一些问题 单例模式的特点->能够保证在某个类中只存在一个实例,不会创建多个实例 饿汉模式(线程安全):最基础的单例模式,类加载的同时就会创建实例,是线程安全的 public class Singleton {// 在类加…

Flutter应用开发:掌握StatefulWidget的实用技巧

前言 随着移动应用的日益复杂&#xff0c;状态管理成为了 Flutter 应用开发中的一项重要挑战。 状态&#xff0c;即应用中的可变数据&#xff0c;它驱动着用户界面的渲染和交互。 在 Flutter 这样的声明式 UI 框架中&#xff0c;如何高效、可维护地管理状态&#xff0c;对于…

cuda中的cooperative_groups

背景 最近看到一个代码cooperative_groups.this_grid().sync()很好奇&#xff0c;这里好好梳理一下 分析 以前block内部的同步是用syncthreads(), block之间没有提供同步的接口&#xff0c;这样是合理的&#xff0c;假如有block间同步API的话&#xff0c;如果block太多&…

vue程序中如何设置调用springboot服务的url

在Vue程序中调用Spring Boot服务的URL&#xff0c;可以通过以下步骤实现&#xff1a; 安装Axios: Axios是一个基于Promise的HTTP库&#xff0c;可以用于浏览器和Node.js。可以使用npm或yarn安装Axios。 npm install axios # or yarn add axios创建Axios实例: 为了方便管理和复用…

Python--循环控制语句:continue 和 break

在Python编程中&#xff0c;continue 和 break 是两个非常有用的循环控制语句&#xff0c;它们允许我们以不同的方式控制循环的执行流程。 continue 语句 continue 用于中断当前循环的剩余部分&#xff0c;直接进入下一次循环的开始。它的作用是跳过当前循环中剩余的代码&…

GuLi商城-商品服务-API-属性分组-分组修改级联选择器回显

前端代码:略 后端回显接口: 递归方法: @Override publi

算法模板之单调栈【java】

算法模板之单调栈【java】 单调栈&#xff1a;在一维数组中找第一个满足某种条件的数找到数组中每个数【左侧】第一个【大于】它的数找到数组中每个数【左侧】第一个【大于或等于】它的数找到数组中每个数【左侧】第一个【小于】它的数找到数组中每个数【左侧】第一个【小于或等…

C# 反射详解

本文主要是对反射进行详细介绍&#xff0c;具体可以参照微软官方文档 首先我们来定义一个类型 public class Calculator {private int _number1 10;private int _number2 20;public int Number1 { get > _number1; set > _number1 value; }public int Number2 { get…

jquery中pdf在页面的显示和导出

jquery中pdf在页面的显示和导出 01 显示pdf01 .pdf结尾在线接口显示到页面 &#xff08;pdf.js库怎么安装及使用&#xff09;&#xff1a;只显示一页02 如何用PDF.JS显示整个PDF (而不仅仅是一页)&#xff1f;03 jQuery实现在线预览PDF文件(通过a标签链接跳转)&#xff1a; 02 …

RocketMq源码解析十二:消息消费负载

RocketMQ消息队列重新分配是由RebalancService线程来实现,一个MQClientinstance持有一个RebalanceService的实现,并随着MQClientInstance的启动而启动。我们看下下面的代码 位置:MQClientInstance:start方法 public void start() throws MQClientException {synchronized (…

‍我想我大抵是疯了,我喜欢上了写单元测试

前言 大家好我是聪。相信有不少的小伙伴喜欢写代码&#xff0c;但是对于单元测试这些反而觉得多此一举&#xff0c;想着我都在接口文档测过了&#xff01;还要写什么单元测试&#xff01;写不了一点&#xff01;&#xff01; 由于本人也是一个小小程序猿&#x1f649;&#xf…

关于HDFS、Hive和Iceberg

HDFS & Hive 如果我们将Hive比喻为储藏室&#xff0c;那么HDFS&#xff08;Hadoop Distributed File System&#xff09;就可以比作是储藏室所在的建筑物的地基和结构。 HDFS是一个分布式文件系统&#xff0c;它的设计目标是存储和管理海量数据。在我们的类比中&#xff…