【科研相关知识】梯度下降算法(Gradient Descent)

  • 梯度下降算法(Gradient Descent)
  • 梯度下降算法几种变体

梯度下降算法(Gradient Descent)

梯度下降算法是一种用于求解函数最小值的一阶优化算法。在机器学习和深度学习中,梯度下降算法被广泛用于模型训练,通过迭代的方式调整模型参数,以最小化损失函数。

在这里插入图片描述

梯度下降算法的基本思想是:在函数的梯度(或者说斜率)指向的方向上,函数值下降得最快。因此,如果我们想要找到函数的最小值,可以从函数的某个初始点出发,沿着梯度的反方向(因为我们要减小函数值)逐步迭代,最终达到函数的局部最小值点。

梯度下降算法的迭代公式通常表示为: x n e w = x o l d − α ∇ f ( x o l d ) x_{new} = x_{old} - \alpha \nabla f(x_{old}) xnew=xoldαf(xold)

其中:

  • x o l d x_{old} xold是当前迭代点的坐标。
  • α \alpha α 是学习率(步长),它决定了在梯度方向上每一步前进的距离。
  • ∇ f ( x o l d ) \nabla f(x_{old}) f(xold) 是函数 f ( x ) f(x) f(x) 在点 x o l d x_{old} xold的梯度,它是一个向量,指向函数增长最快的方向。
  • x n e w x_{new} xnew 是下一个迭代点的坐标。

梯度下降算法几种变体

假设有一个损失函数 J ( θ ) J(\theta) J(θ),其中 θ \theta θ 是模型参数,我们的目标是通过调整 θ \theta θ 来最小化损失函数。

  1. 批量梯度下降(Batch Gradient Descent)

批量梯度下降使用所有训练样本来计算梯度,然后更新参数。其更新规则可以表示为:

θ = θ − α ⋅ ∇ J ( θ ) \theta = \theta - \alpha \cdot \nabla J(\theta) θ=θαJ(θ)

其中, α \alpha α 是学习率, ∇ J ( θ ) \nabla J(\theta) J(θ) 是损失函数 J ( θ ) J(\theta) J(θ) 关于参数 θ \theta θ 的梯度。批量梯度下降的更新规则考虑了所有样本的梯度信息,因此可以保证每次更新的方向是最优的,但计算量较大。

  1. 随机梯度下降(Stochastic Gradient Descent)

随机梯度下降每次只使用一个随机样本来计算梯度,并根据该梯度更新参数。其更新规则可以表示为:

θ = θ − α ⋅ ∇ J ( θ ; x ( i ) , y ( i ) ) \theta = \theta - \alpha \cdot \nabla J(\theta; x^{(i)}, y^{(i)}) θ=θαJ(θ;x(i),y(i))

其中, ( x ( i ) , y ( i ) ) (x^{(i)}, y^{(i)}) (x(i),y(i)) 是随机选择的一个训练样本, ∇ J ( θ ; x ( i ) , y ( i ) ) \nabla J(\theta; x^{(i)}, y^{(i)}) J(θ;x(i),y(i)) 是损失函数 J ( θ ) J(\theta) J(θ) 关于参数 θ \theta θ 在样本 ( x ( i ) , y ( i ) ) (x^{(i)}, y^{(i)}) (x(i),y(i)) 处的梯度。随机梯度下降每次更新只考虑一个样本,因此更新的方向可能不是最优的,但计算量较小。

  1. 小批量梯度下降(Mini-batch Gradient Descent)

小批量梯度下降是批量梯度下降和随机梯度下降的折中,每次更新使用一小部分(批量)样本来计算梯度,并根据平均梯度更新参数。其更新规则可以表示为:
θ = θ − α ⋅ 1 ∣ B ∣ ∑ ( x ( i ) , y ( i ) ) ∈ B ∇ J ( θ ; x ( i ) , y ( i ) ) \theta = \theta - \alpha \cdot \frac{1}{|\mathcal{B}|} \sum_{(x^{(i)}, y^{(i)}) \in \mathcal{B}} \nabla J(\theta; x^{(i)}, y^{(i)}) θ=θαB1(x(i),y(i))BJ(θ;x(i),y(i))
其中, B \mathcal{B} B 是随机选择的小批量样本集合, ∣ B ∣ |\mathcal{B}| B 是批量大小, ∇ J ( θ ; x ( i ) , y ( i ) ) \nabla J(\theta; x^{(i)}, y^{(i)}) J(θ;x(i),y(i)) 是损失函数 J ( θ ) J(\theta) J(θ) 关于参数 θ \theta θ 在批量样本 ( x ( i ) , y ( i ) ) (x^{(i)}, y^{(i)}) (x(i),y(i)) 处的梯度。小批量梯度下降综合了批量梯度下降和随机梯度下降的优点,既可以保证一定的更新稳定性,又可以减少计算量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/803255.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

学籍管理

题源 map的基本操作 题目描述 您要设计一个学籍管理系统,最开始学籍数据是空的,然后该系统能够支持下面的操作(不超过 105105 条): 插入与修改,格式1 NAME SCORE:在系统中插入姓名为 NAME(由字母…

2. TypeScript 安装与环境配置指南

TypeScript 是 JavaScript 的一个超集,它为 JavaScript 增加了类型系统和对 ES6 的支持。TypeScript 不仅能够帮助开发者捕获代码中的错误,还能提供更好的编辑器支持,包括代码补全、接口提示等。本文将详细介绍如何在您的开发环境中安装和配置…

常见的mq产品和优点

常见的mq产品和优点 一、什么是mq? MQ全称 Message Queue(消息队列),是在消息的传输过程中保存消息的容器。多用于分布式系统之间进行通信,解耦。 二、常见的mq产品 RabbitMQ、RocketMQ、ActiveMQ、Kafka、ZeroMQ、MetaMq …

【学习】注意力机制(Attention)和 自注意力机制(self-Attention)

参考B站:09 Transformer 之什么是注意力机制(Attention) 1. 注意力机制(Attention) 红色的是科学家们发现,如果给你一张这个图,你眼睛的重点会聚焦在红色区域 人–》看脸 文章看标题 段落看…

弹幕功能1

今天看pure-admin的时候发现有个弹幕功能 GitHub - hellodigua/vue-danmaku: 基于 Vue 的弹幕交互组件 | A danmaku component for Vue

业主看完当场签约的神仙地产大屏,搞物业的你不来get同款么

各行各业都有可视化大屏的应用场景,不少同志曾私戳我:能不能给我XX行业的大屏示例哇,我展示的指标领导怎么都不满意哇! 于是俺在行业顾问大哥那苦苦哀求,终于给大家带来这个地产行业的“营销战图大屏”方案&#xff0…

《QT实用小工具·二十一》鼠标十字线

1、概述 源码放在文章末尾 该项目实现了界面绘制十字线并跟随鼠标移动的过程&#xff0c;下面是demo演示&#xff1a; 项目部分代码如下&#xff1a; #ifndef WIDGET_H #define WIDGET_H#include <QWidget>namespace Ui { class Widget; }class Widget : public QWidg…

springboot3 redis 实现分布式锁

分布式锁介绍 分布式锁是一种在分布式系统中用于控制不同节点上的进程或线程对共享资源进行互斥访问的技术机制。 在分布式环境中&#xff0c;多个服务可能同时访问和操作共享资源&#xff0c;如数据库、文件系统等。为了保持数据的一致性和完整性&#xff0c;需要确保在同一…

C++类与对象中(个人笔记)

类与对象中 类的6个默认成员函数1.构造函数1.1特性 2.析构函数2.1特性 3.拷贝构造函数3.1特性 4.赋值运算符重载4.1特性 5.日期类的实现6.const成员6.1const成员的几个问题 7.取地址及const取地址操作符重载 类的6个默认成员函数 如果一个类中什么成员都没有&#xff0c;简称为…

嵌入式学习51-单片机4

知识零碎&#xff1a; nop空指令 CRC校验 为了保证51单片与温度传感18b20 之间的高电平 采用一个上拉电阻改变电平的高低 温度寄存器原理

Jackson 2.x 系列【15】序列化器 JsonSerializer

有道无术&#xff0c;术尚可求&#xff0c;有术无道&#xff0c;止于术。 本系列Jackson 版本 2.17.0 源码地址&#xff1a;https://gitee.com/pearl-organization/study-jaskson-demo 文章目录 1. 概述2. 方法2.1 构造2.2 序列化2.3 其他 3. 实现类3.1 StdSerializer3.1.1 源…

vivado 设计调试

设计调试 对 FPGA 或 ACAP 设计进行调试是一个多步骤迭代式流程。与大多数复杂问题的处理方式一样 &#xff0c; 最好先将 FPGA 或 ACAP 设计调试流程细分为多个小部分 &#xff0c; 以便集中精力使设计中的每一小部分能逐一正常运行 &#xff0c; 而不是尝试一次性让整 个…

Nginx服务搭建案例

Nginx服务 安装和启动 解压源码 tar -xvf nginx-xx.xx.xx.tar.gz配置&#xff08;模块有很多&#xff0c;这里以ssl为例&#xff09; # 配置安装路径&#xff0c;指定服务运行时使用的用户&#xff0c;安装HTTP SSL模块 ./configure --prefix/usr/local/nginx --usernginx …

Python中的sort()与sorted()用法

Python中的sort()函数主要用于对列表&#xff08;list&#xff09;中的元素进行排序。它有两种形式&#xff1a;一种是列表的方法&#xff08;即直接对列表对象调用&#xff09;&#xff0c;另一种则是内置的sorted()函数&#xff0c;它返回一个新的已排序列表&#xff0c;而不…

因为使用ArrayList.removeAll(List list)导致的机器重启

背景 先说一下背景&#xff0c;博主所在的业务组有一个核心系统&#xff0c;需要同步两个不同数据源给过来的数据到redis中&#xff0c;但是每次同步之前需要过滤掉一部分数据&#xff0c;只存储剩下的数据。每次同步的数据与需要过滤掉的数据量级大概在0-100w的数据不等。 由…

代码随想录算法训练营第三十四天| 1005.K次取反后最大化的数组和、134. 加油站、 135. 分发糖果

1005 题目&#xff1a; 给你一个整数数组 nums 和一个整数 k &#xff0c;按以下方法修改该数组&#xff1a; 选择某个下标 i 并将 nums[i] 替换为 -nums[i] 。 重复这个过程恰好 k 次。可以多次选择同一个下标 i 。以这种方式修改数组后&#xff0c;返回数组 可能的最大和…

ccf201512-1数位之和

charAt&#xff0c;与字符’0’,做差值。 import java.util.Scanner;public class Main3 {public static void main(String[] args) {Scanner scanner new Scanner(System.in);String num scanner.nextLine();char[] arr num.toCharArray();int sum 0;for(char c : arr){i…

tmux 替换 nohup

替换方案 tmux 训练PyTorch模型的时候一个基本步骤&#xff1a; [terminal]: tmux new -s model-ft # 创建一个会话&#xff0c;并设置会话名:model-ft [tmux]: conda activate your_env # 在tmux会话中&#xff0c;我们激活我们要使用的conda环境 [tmux]: pyth…

JVM_垃圾收集器

GC垃圾收集器 文章目录 GC垃圾收集器GC垃圾回收算法和垃圾收集器关系GC算法主要有以下几种四种主要的垃圾收集器SerialParallelCMSG1垃圾收集器总结查看默认垃圾收集器 默认垃圾收集器有哪些各垃圾收集器的使用范围部分参数说明 新生代下的垃圾收集器并行GC(ParNew)并行回收GC&…

【C++航海王:追寻罗杰的编程之路】探寻实用的调试技巧

目录 1 -> 什么是bug&#xff1f; 2 -> 调试是什么&#xff1f;有多重要&#xff1f; 2.1 -> 调试是什么&#xff1f; 2.2 -> 调试的基本步骤 2.3 -> Debug和Release的介绍 3 -> Windows环境调试介绍 3.1 -> 调试环境的准备 3.2 -> 学会快捷键…