深度学习神经网络中的优化器的使用

深度学习:神经网络中的优化器的使用

在深度学习中,优化器是用于更新和调整模型参数(例如权重和偏置)的算法,目的是减小模型在训练数据上的损失函数值。优化器的核心目标是通过适当的算法快速有效地找到损失函数的最小值或近似最小值。这一过程涉及计算损失函数相对于模型参数的梯度,并使用这些梯度来更新参数。

基本原理

优化过程基于以下步骤进行:

  1. 梯度计算:在每次迭代中,首先计算损失函数关于当前参数的梯度。这些梯度指示了损失函数在参数空间中增加最快的方向。

  2. 参数更新:使用计算得到的梯度,按照特定的规则更新模型参数,以减少损失。更新规则由优化算法定义。

  3. 重复迭代:重复执行梯度计算和参数更新步骤,直到满足某些停止条件,如达到最大迭代次数、损失下降到某个阈值,或梯度接近零等。

常用的优化算法

  1. 随机梯度下降(SGD)

    • 原理:SGD是最简单的优化方法,它使用每个样本或小批量样本来近似整个数据集的梯度。每次更新都使用当前批次计算的梯度:
      [
      w ← w − η ⋅ ∇ w L w \leftarrow w - \eta \cdot \nabla_w L wwηwL
      ]
      其中 ( w w w) 是参数,( η \eta η) 是学习率,( ∇ w L \nabla_w L wL) 是损失函数关于参数 ( w w w) 的梯度。

    • 缺点:可能会导致更新过程高度波动,使得学习过程不稳定。

  2. 带动量的SGD(Momentum)

    • 原理:引入动量项,以减少更新中的波动,并加速学习过程。更新规则为:
      [
      v ← α v − η ∇ w L , w ← w + v v \leftarrow \alpha v - \eta \nabla_w L, \quad w \leftarrow w + v vαvηwL,ww+v
      ]
      其中 (v) 是累积的梯度(动量),(\alpha) 通常设置为0.9或接近该值。

    • 优点:能够在相关方向上加速学习,在非相关方向上抑制波动。

  3. 自适应学习率优化算法(如Adam)

    • 原理:Adam结合了动量和自适应学习率的优点。它维护每个参数的学习率,使之适应参数的最近梯度的幅度:
      [
      m ← β 1 m + ( 1 − β 1 ) ∇ w L m \leftarrow \beta_1 m + (1 - \beta_1) \nabla_w L mβ1m+(1β1)wL
      ]
      [
      v ← β 2 v + ( 1 − β 2 ) ( ∇ w L ) 2 v \leftarrow \beta_2 v + (1 - \beta_2) (\nabla_w L)^2 vβ2v+(1β2)(wL)2
      ]
      [
      m ^ = m 1 − β 1 t , v ^ = v 1 − β 2 t \hat{m} = \frac{m}{1 - \beta_1^t}, \quad \hat{v} = \frac{v}{1 - \beta_2^t} m^=1β1tm,v^=1β2tv
      ]
      [
      w ← w − η v ^ + ϵ m ^ w \leftarrow w - \frac{\eta}{\sqrt{\hat{v}} + \epsilon} \hat{m} wwv^ +ϵηm^
      ]
      其中 (m) 和 (v) 分别是一阶和二阶矩估计,( β 1 \beta_1 β1)、( β 2 \beta_2 β2) 是衰减率,通常接近1。

    • 优点:在不同的参数维度上可以有不同的自适应学习率,适用于处理非平稳目标和非常大规模的数据集。

示例:使用PyTorch实现Adam优化器

假设我们有一个简单的神经网络模型,用于解决二分类问题。以下代码展示了如何在PyTorch中定义模型、损失函数以及如何使用Adam优化器进行训练:

import torch
import torch.nn as nn
import torch.optim as optim# 定义模型
class SimpleModel(nn.Module):def __init__(self):super(SimpleModel, self).__init__()self.fc1 = nn.Linear(10, 50)self.relu = nn.ReLU()self.fc2 = nn.Linear(50, 1)def forward(self, x):x = self.fc1(x)x = self.relu(x)x = self.fc2(x)return x# 初始化模型、损失函数和优化器
model = SimpleModel()
criterion = nn.BCEWithLogitsLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)# 假设有一批数据
inputs = torch.randn(32, 10)
targets = torch.rand(32, 1)# 训练步骤
outputs = model(inputs)
loss = criterion(outputs, targets)
optimizer.zero_grad()
loss.backward()
optimizer.step()print("Loss:", loss.item())

此示例中,我们构建了一个包含输入层、隐藏层和输出层的简单全连接神经网络。使用BCEWithLogitsLoss作为损失函数来处理二分类任务,并通过Adam优化器更新权重,从而在迭代过程中逐步减小模型的损失。这种训练方式是典型的深度学习训练流程,适用于各种复杂的机器学习任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/61294.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis基本的全局命令

在学习redis基本的全局命令之前呢,我们必须先进入redis-cli客户端才行。 如图: get和set get和set是redis两个最核心的命令。 get:根据key来获取value。 set:把key和value存储进去。 如set命令如图: 对于上述图中&…

嵌入式开发人员如何选择合适的开源前端框架进行Web开发

在嵌入式系统的Web开发中,前端框架的选择对于项目的成败有着决定性的影响。一个合适的框架不仅能提高开发效率,还能保证系统的稳定性和可扩展性。本文将介绍几款适用于嵌入式Web开发的开源前端框架,并探讨它们的优缺点。 1. Element Plus V…

【数据结构OJ】【图论】图综合练习--拓扑排序

题目描述 已知有向图,顶点从0开始编号,求它的求拓扑有序序列。 拓扑排序算法:给出有向图邻接矩阵 1.逐列扫描矩阵,找出入度为0且编号最小的顶点v 2.输出v,并标识v已访问 3.把矩阵第v行全清0 重复上述步骤&#xff0…

XLNet——打破 BERT 局限的预训练语言模型

近年来,深度学习在自然语言处理(NLP)领域取得了革命性进展,其中 BERT 的出现标志着双向语言建模的强大能力。然而,BERT 也存在一些局限性,限制了其在生成任务中的表现。2019 年,由 Google 和 Ca…

力扣题目总结

1.游戏玩法分析IV AC: select IFNULL(round(count(distinct(Result.player_id)) / count(distinct(Activity.player_id)), 2), 0) as fraction from (select Activity.player_id as player_idfrom (select player_id, DATE_ADD(MIN(event_date), INTERVAL 1 DAY) as second_da…

量子计算来袭:如何保护未来的数字世界

目录 前言 一、量子计算安全的学习方向 1. 量子物理学基础 2. 量子计算原理与技术 3. 传统网络安全知识 4. 量子密码学 5. 量子计算安全政策与法规 二、量子计算的漏洞风险 1. 加密算法被破解风险 2. 区块链安全风险 3. 量子密钥分发风险 4. 量子计算系统自身风险 …

Elasticsearch面试内容整理-Elasticsearch 基础概念

Elasticsearch 是一个基于 Apache Lucene 的开源分布式搜索和分析引擎,提供强大的全文本搜索、实时数据分析、分布式存储等功能。以下是 Elasticsearch 的一些基础概念: 什么是 Elasticsearch? ● Elasticsearch 是一个用于全文搜索和实时分析的分布式搜索引擎。 ● 开源和可…

AJAX笔记 (速通精华版)

AJAX(Asynchronous Javascript And Xml) 此笔记来自于动力节点最美老杜 传统请求及缺点 传统的请求都有哪些? 直接在浏览器地址栏上输入URL。点击超链接提交 form 表单使用 JS 代码发送请求 window.open(url)document.location.href urlwi…

12、异常Exception:

12、异常Exception: 我们来看一段代码,了解下为什么需要异常处理: package com.jiangxian.Exception_;/*** author JiangXian~* version 1.0*/ public class Exception01 {public static void main(String[] args) {int num1 10;int num2 …

net某高校社交学习平台的设计与实现

摘 要 高校社交学习平台是一个融合了社交网络特性的在线学习交流系统,旨在促进高校学生之间的信息共享与学习互动。该平台通过提供学习资料、学习视频和学习交流等功能,支持发布学习动态、参与知识问答、并实时追踪学习进度。为学生提供一个全面且便捷的…

七、利用CSS和多媒体美化页面的习题

题目一&#xff1a; 利用CSS技术&#xff0c;结合表格和列表&#xff0c;制作并美化 “ 翡翠阁 ”页面。运行效果如下 运行效果&#xff1a; 代码 <!DOCTYPE html> <html><head><meta charset"utf-8" /><title>翡翠阁</title>&…

学习虚幻C++开发日志——委托(持续更新中)

委托 官方文档&#xff1a;Delegates and Lamba Functions in Unreal Engine | 虚幻引擎 5.5 文档 | Epic Developer Community | Epic Developer Community 简单地说&#xff0c;委托就像是一个“函数指针”&#xff0c;但它更加安全和灵活。它允许程序在运行时动态地调用不…

代替Spinnaker 的 POINTGREY工业级相机 FLIR相机 Python编程案例

SpinnakerSDK_FULL_4.0.0.116_x64 是一个用于FLIR相机的SDK&#xff0c;主要用于图像采集和处理。Spinnaker SDK主要提供C接口&#xff0c;无法直接应用在python环境。本文则基于Pycharm2019python3.7的环境下&#xff0c;调用opencv,EasySpin,PySpin,的库实现POINTGREY工业级相…

Linux:自定义Shell

本文旨在通过自己完成一个简单的Shell来帮助理解命令行Shell这个程序。 目录 一、输出“提示” 二、获取输入 三、切割字符串 四、执行指令 1.子进程替换 2.内建指令 一、输出“提示” 这个项目基于虚拟机Ubuntu22.04.5实现。 打开终端界面如图所示。 其中。 之前&#x…

在幸狐picomax SDK里面添加app

本次以onvifserver为例&#xff0c;在在幸狐picomax SDK里面添加app 具体步骤 修改编译器&#xff0c;把CCOMPILE&#xff0c; CPPCOMPILE&#xff0c; LINK 改为对应得编译器 把all 提到前面&#xff0c;保证在make得时候第一个执行得是all标签 install 分几步 创建out文件夹…

如何更改手机GPS定位

你是否曾想过更改手机GPS位置以保护隐私、玩游戏或访问受地理限制的内容&#xff1f;接下来我将向你展示如何使用 MagFone Location Changer 更改手机GPS 位置&#xff01;无论是在玩Pokmon GO游戏、发布社媒贴子&#xff0c;这种方法都快速、简单且有效。 第一步&#xff1a;下…

基于信号量与共享内存实现客户与服务器进程通信

基于信号量与共享内存实现客户与服务器进程通信 发送进程 代码 #include <stdio.h> #include <stdlib.h> #include <string.h> #include <unistd.h> #include <fcntl.h> #include <sys/mman.h> #include <semaphore.h>#define SH…

【AI大模型引领变革】探索AI如何重塑软件开发流程与未来趋势

文章目录 每日一句正能量前言流程与模式介绍【传统软件开发 VS AI参与的软件开发】一、传统软件开发流程与模式二、AI参与的软件开发流程与模式三、AI带来的不同之处 结论 AI在软件开发流程中的优势、挑战及应对策略AI在软件开发流程中的优势面临的挑战及应对策略 结论 后记 每…

机器学习的全面解析:从基础到应用

引言&#xff1a;机器学习的核心地位 机器学习&#xff08;Machine Learning, ML&#xff09;是人工智能&#xff08;AI&#xff09;的核心分支&#xff0c;它通过算法使计算机能够从数据中学习并进行预测或决策。机器学习技术在许多领域都有广泛应用&#xff0c;包括推荐系统、…

Chapter 2 - 16. Understanding Congestion in Fibre Channel Fabrics

Transforming an I/O Operation to FC frames A read or write I/O operation (Figure 2-28) between an initiator and a target undergoes a series of transformations before being transmitted on a Fibre Channel link. 启动程序和目标程序之间的读取或写入 I/O 操作(图…