直观从零理解 梯度下降(Gradient descent) VS 随机梯度下降 (Stochastic gradient descent) 函数优化

首发于Data Science

直观从零理解 梯度下降(Gradient descent) VS 随机梯度下降 (Stochastic gradient descent) 函数优化

单变量微分(Differentiation)

常用基本微分有:

四则运算法则:

链式法则(Chain-rule)

极大值(maxima)与极小值(minima)

向量微分

梯度下降(Gradient descent):几何直觉

学习率(Learning Rate)的直观理解

案例:线性回归的梯度下降法

随机梯度下降 (Stochastic gradient descent)

单变量微分(Differentiation)

微分指:当 x 发生变化时, y 改变多少(或变化率)

y 对 x 的微分可以写为 dydx=df(x)dx=y′=f′(x)

图一

切线的斜率可以表示为:ΔyΔx=y2−y1x2−x1=tanθ (θ 切线与 x 轴的夹角)

当 Δx→0 时, ΔyΔx=dydx ,极限公式可以为 dydx=limΔx→0ΔyΔx

常用基本微分有:

图二

四则运算法则:

图三

链式法则(Chain-rule)

令: f(g(x))=(a−bx)2

微分有: ddxf(g(x))=dfdg∗dgdx

假定: g(x)=(a−bx)=z ,那么 f(x)=f(z)=z2 , dfdg=dfdz=2z=2(a−bx)

那么 dgdx=(a−bx)′=−b

最终: ddxf(g(x))=dfdg∗dgdx=2(a−bx)∗(−b)

极大值(maxima)与极小值(minima)

图四

  • 斜率(微分 dydx )为 0时,存在极大值或极小值
  • 一个函数中,可以有多个局部极大值或极小值,但是只能有一个 全局极大值或极小值

但是,大多数函数都不能轻易 dydx=0 计算得出,所以将使用 梯度下降 来解决优化问题

向量微分

向量的微分得到一个向量,当 x 是向量时,求微分表示为:∇xf(x)=df(x)dx

案例: f(x)=y=a→Tx→=∑i=1naixi=a1x1+a2x2+⋯+anxn

  • ai 为常数

∇xf(x)=[∂f∂x1∂f∂x2∂f∂x3⋮∂f∂xn]=[a1a2a3⋮an]=a→

  • ∂f∂xi 表示元素的偏微分

梯度下降(Gradient descent):几何直觉

迭代算法;一开始我们对解决方案进行猜测,然后通过解决方案的修正迭代地走向解决方案;

当到达最优时,斜率为零

图五

  1. 随机选一点 x0 ,在 x0 处进行微分 [dfdx]x0 ,也就等于斜率
  2. x1 就等于 x1=x0−r[dfdx]x0 , r 指的时学习率(在此为例方便理解,可以看着为常数 1)
  3. x2 就等于 x2=x1−r[dfdx]x1
  4. 重复迭代 xi+1=xi−r[dfdx]xi,如果 xi+1−xi 时非常得小,那么在 xi≈x∗ , xi 存在极小值

小结: [dfdx]x0≥[dfdx]x1≥[dfdx]x2≥⋯ ,因为斜率的逐渐变小,所以 xi 变化得距离,也会越来越小

学习率(Learning Rate)的直观理解

图六

假设 xi,xi+1 的微分(斜率)都为 2x ,学习率 r=1

  1. xi+1=xi−r[dfdx]xi=0.5−1∗(2∗0.5)=−0.5
  2. xi+2=xi+1−r[dfdx]xi+1=−0.5−1∗(2∗(−0.5))=0.5
  3. 会发现点 xi+2=xi ,又回到原来的位置,而无法继续收敛

小结:如果学习率不降低,梯度下降可以跳过最优值,那么迭代没有达到最优值;一直来回振荡没有收敛;应该减小学习率,即在每次迭代时减小学习率,以保证收敛。

案例:线性回归的梯度下降法

线性回归的损失函数有: L(w→)=∑i=1n(yi−w→Tx→i)2

损失函数微分有: ∇wL=∑i=1n2(yi−w→Tx→i)(−x→i))

  1. 随机生成一个权重向量 w→0
  2. 迭代一次: w→1=w→0−r∑i=1n2(yi−w→0Tx→i)(−x→i))
  3. 迭代二次:w→2=w→1−r∑i=1n2(yi−w→1Tx→i)(−x→i))
  4. 依次迭代 k+1次,当 w→k+1−w→k 的变化非常小(基本可以忽略),那么权重先来 w→k 存在极小值,也就是最小的损失值

小结:在此的 n 表示的时训练集的样本量的大小,所以如果把所有的元素用来进行微分计算,也就是公式: ∑i=1n2(yi−w→Tx→i)(−x→i)) ,那么计算相当的大,因此有了随机梯度下降

随机梯度下降 (Stochastic gradient descent)

在上述讨论了线性回归的损失函数,利用梯度下降算法求解最优权重向量 w→ ,那么更新公式有:

梯度下降 GD: w→j+1=w→j−r∑i=1n2(yi−w→jTx→i)(−x→i))

随机梯度下降 SGD:w→j+1=w→j−r∑i=1k2(yi−w→jTx→i)(−x→i))

  1. 将 所有样本元素n 的迭代改为 k ,计算 k 个随机点,这样的梯度下降称为随机梯度下降( 1≤k≤n )
  2. 当 k=1 时,被称为 SGD, k>1 时经常被称为 batch SGD
  3. 当 k 越大时,迭代次数越少就能找到极值
  4. 在 随机梯度 过程中,每次迭代时, k 的样本元素集,都应该随机重新选择
  5. 在梯度下降中添加了随机性,以减少运行时的时间复杂度(同时在满足迭代次数足够的情况下,SGD 与 GD 的结果一样)

求导工具:https://www.derivative-calculator.net

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/592567.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

笔记中所得(已删减)

1.交流电的一个周期内电压/电流的平均值都为0 2.电动势:电池将单位正电荷由负极搬到正极所做的功 5.额定能量:电池的额定容量乘以标称电压,以Wh为单位 6.500mAh意义是可以以500mA的电流放电1小时 7.电池容量的单位是mAh 13.实际电流源不能串联 14. 15. 16. 17. 18. 19.电…

C++ 二进制图片的读取和blob插入mysql_stmt_init—新年第一课

关于二进制图片的读取和BLOB插入一共包含五步 第一步:初始化 MYSQL_STMT* stmt mysql_stmt_init(&mysql); 第二步:预处理sql语句 mysql_stmt_prepare(stmt,sql,sqllen); 第三步:绑定字段 mysql_stmt_bind_param(stmt,bind); 第四…

车规级芯片NCV4275CDT50RKG LDO线性电压调节器 原理、参数及应用

关于车规级芯片(Automotive Grade Chip),车规级芯片是专门用于汽车行业的芯片,具有高可靠性、高稳定性和低功耗等特点,以满足汽车电子系统的严格要求。这些芯片通常用于车载电子控制单元(ECU)和…

用ChatGPT方式编程!GitHub Copilot Chat全面开放使用

全球著名开源分享平台GitHub在官网宣布,经过几个月多轮测试的GitHub Copilot Chat,全面开放使用,一个用ChatGPT方式写代码的时代来啦! 据悉,Copilot Chat是基于OpenAI的GPT-4模型,再结合其海量、优质的代码…

cJSON代码解读

1、背景 cJSON用了很久,但是对它一直不太了解。这次向添加对long long类型的支持,一直出问题。因为有以前添加两位小数float的经历,我觉得会很轻松,没想到翻车了。于是有了这边文档,阅读了部分博主对cJSON的解析&…

【计算机设计大赛作品】豆瓣电影数据挖掘可视化—信息可视化赛道获奖项目深入剖析【可视化项目案例-22】

文章目录 一.【计算机设计大赛作品】豆瓣电影数据挖掘可视化—信息可视化赛道获奖项目深入剖析【可视化项目案例-22】1.1 项目主题:豆瓣电影二.代码剖析2.1 项目效果展示2.2 服务端代码剖析2.3 数据分析2.4 数据评分三.寄语四.本案例完整源码下载一.【计算机设计大赛作品】豆瓣…

频率域图像增强之理想低通滤波器的python实现——数字图像处理

原理 理想低通滤波器(Ideal Low-Pass Filter, ILPF)是数字图像处理中一个重要的概念,尤其在频率域滤波中扮演着关键角色。 定义: 理想低通滤波器是一种在频率域内工作的滤波器,旨在通过允许低频信号通过同时阻止高频信…

时序分解 | Matlab实现贝叶斯变化点检测与时间序列分解

时序分解 | Matlab实现贝叶斯变化点检测与时间序列分解 目录 时序分解 | Matlab实现贝叶斯变化点检测与时间序列分解效果一览基本介绍程序设计参考资料 效果一览 基本介绍 Matlab实现贝叶斯变化点检测与时间序列分解 1.Matlab实现贝叶斯变化点检测与时间序列分解,完…

数据中心网络架构

参考: 一文读懂胖树 数据中心网络架构VL2详解 数据中心网络拓扑设计目标 总体目标 业务可以部署在任意的服务器上可以根据需要动态扩展或者缩小服务器规模 网络角度 均衡负载且高性能:服务器之间的性能仅受限于服务器网卡,而不是链路性能…

【Java】SpringBoot整合xxl-job学习使用详解

文章目录 介绍作用如何使用下载项目中央仓库地址环境调度中心初始化“调度数据库”配置部署“调度中心”部署项目调度中心集群(可选)其他:Docker 镜像方式搭建调度中心配置部署“执行器项目” 执行器maven依赖执行器配置执行器组件配置执行器…

【userfaultfd 条件竞争】starCTF2019 - hackme

前言 呜呜呜,这题不难,但是差不多一个多月没碰我的女朋友 kernel pwn 了,对我的 root 宝宝也是非常想念,可惜这题没有找到我的 root 宝宝,就偷了她的 flag。 哎有点生疏了,这题没看出来堆溢出&#xff0c…

Linux引导过程与服务控制

目录 一、操作系统引导过程 1. 过程图示 2. 步骤解析 2.1 bios 2.2 mbr 2.3 grup 2.4 加载内核文件 3. 过程总结 4. centos6和centos7启动区别 5. 小结 二、服务控制及切换运行级别 1. systemd核心概念 2. 运行级别 3. Systemd单元类型 4. 运行级别所对应的Syst…

基于YOLOv8深度学习的人脸面部表情识别系统【python源码+Pyqt5界面+数据集+训练代码】深度学习实战

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推…

js文件上传 分片上传/断点续传/极速秒传

(极速秒传)利用md5判断上传的文件是否存在 MD5信息摘要算法,一种被广泛使用的密码散列函数,可以产生出一个128位(16字节)的散列值(hash value),用于确保信息传输完整一致。 每一个文件都会生成…

对接第三方接口鉴权(Spring Boot+Aop+注解实现Api接口签名验证)

前言 一个web系统,从接口的使用范围也可以分为对内和对外两种,对内的接口主要限于一些我们内部系统的调用,多是通过内网进行调用,往往不用考虑太复杂的鉴权操作。但是,对于对外的接口,我们就不得不重视这个…

Elasticsearch:结合 ELSER 和 BM25 文本查询的相关搜索

Elastic Learned Spare EncodeR (ELSER) 允许你执行语义搜索以获得更相关的搜索结果。 然而,有时,将语义搜索结果与常规关键字搜索结果相结合以获得最佳结果会更有用。 问题是,如何结合文本和语义搜索结果? 首先,让我…

Java异常篇----第二篇

系列文章目录 文章目录 系列文章目录前言一、 Excption与Error包结构二、Thow与thorws区别三、Error与Exception区别?四、error和exception有什么区别前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女…

1213:八皇后问题 深度优先搜索算法

1213:八皇后问题 时间限制: 1000 ms 内存限制: 65536 KB 【题目描述】 在国际象棋棋盘上放置八个皇后,要求每两个皇后之间不能直接吃掉对方。 【输入】 (无) 【输出】 按给定顺序和格式输出所有八皇后问题的解(见样例)。 题目…

Spring源码之依赖注入(二)

书接上文 文章目录 一. Autowire底层注入逻辑1. 属性注入逻辑 一. Autowire底层注入逻辑 前面我们分析了Spring时如何找到某个目标类的所有注入点这一个核心逻辑,但还没又对核心注入方法inject进行详细分析,下面我们就来详细分析Spring拿到所有的注入点…

【CASS精品教程】CASS11计算城镇建筑密度

CASS中可以很方便计算建筑密度。 文章目录 一、建筑密度介绍二、CASS计算建筑密度1. 绘制宗地范围2. 绘制建筑物3. 计算建筑密度三、注意事项一、建筑密度介绍 建筑密度(building density;building coverage ratio),指在一定范围内,建筑物的基底面积总和与占用地面积的比…