【机器学习300问】79、Mini-Batch梯度下降法的原理是什么?

       Mini-Batch梯度下降法是一种将训练数据集分成小批次进行学习的优化方法,通过这种方式,可以有效地解决内存限制问题并加速学习过程。

一、为什么要使用Mini-Batch?

        在机器学习尤其是深度学习中,我们常常面临海量数据处理的问题。如果我们一次性将所有的数据加载进内存做训练,很可能会遇到内存不足的情况。此外,处理如此大批量的数据也会导致训练速度变慢。为了解决这个问题,Mini-Batch技术应运而生。

二、什么是批量梯度下降?

        让我们理解一下批量梯度下降(Batch Gradient Descent, BGD)的概念。这种方法在每次迭代时使用全部样本来进行梯度的更新。这样做的优点是可以确保梯度估计的无偏性,并且当目标函数为凸函数时,可以保证收敛到全局最小值。然而,当数据集非常大时,遍历所有样本需要大量的时间,这就是BGD的主要缺点。

        为了解决大数据集带来的问题,Mini-Batch梯度下降(Mini-Batch Gradient Descent, MBGD)就应运而生了。它是BGD的一种改良方法,通过将整个数据集分成若干个小批次,每次只使用一个小批次的数据来更新梯度。这样既保留了BGD的一些优点,比如更准确地朝向极值所在的方向,又显著减少了每次迭代所需的计算量。

三、Mini-Batch举例说明

        假设我们有一个包含1000个样本的训练集,我们可以选择每个批次包含64个样本,那么我们将有16个这样的批次(因为1000除以64得到15余数为40,所以还有一个批次包含剩余的40个样本)。然后我们会对这16个批次分别执行一步梯度下降法,更新我们的模型参数。

四、Mini-Batch的大小设置

(1)大小设置的三种情况 

随机梯度下降(SGD)Mini-Batch梯度下降(MBGD)批量梯度下降(BGD)
Mini-Batch Size = 1Mini-Batch Size = kMini-Batch Size = m
失去向量化的加速训练效果。

使用向量化技术加速训练;

无须等待所有数据被处理即可进行后续工作。

耗时长、迭代次数多。

         如果Mini-Batch的大小设置为1,那么Mini-Batch梯度下降实际上就变成了随机梯度下降(Stochastic Gradient Descent,SGD)。在SGD中,每次迭代只使用一个样本来计算梯度并更新模型参数。由于只用到了一个样本,所以SGD的计算速度非常快,并且可以支持在线学习,即模型可以在新数据到来时实时更新。然而,SGD的缺点在于因为每个样本都会产生一个梯度估计,这些估计值可能会有很大的变异性,导致优化过程出现很多震荡,收敛路径不够平滑。

        如果Mini-Batch的大小设置为训练集的大小m,那么Mini-Batch梯度下降实际上就变成了批量梯度下降(Batch Gradient Descent,BGD)。在BGD中,每次迭代使用整个训练集来计算梯度并更新模型参数。由于使用了全部的训练样本,所以BGD可以得到最准确的梯度估计,从而使得优化过程更加稳定。然而,BGD的缺点在于计算速度非常慢,因为需要遍历整个训练集。此外,当数据集非常大时,可能会导致内存不足的问题。

        上图是梯度下降空间。 蓝色的部分是BGD、紫色部分是SGD、绿色部分是Mini-Batch。 Mini-Batch不是每次迭代损失函数都会减少,所以看上去好像走了很多弯路。 不过整体还是朝着最优解迭代的。 而且由于Mini-Batch一个epoch就走了\frac{m}{MiniBacth_{size}}步,而BGD一个epoch只有一步。所以虽然Mini-Batch走了弯路但还是会快很多。

(2)训练速度与稳定性的权衡

mini-Batch的大小是权衡速度与稳定性的一种方式。所以Batch Size是一个超参数。

  • 当大小为1时,我们获得了最快的训练速度,但可能牺牲了一定的稳定性。而当我们增加mini-Batch的大小时,虽然单次迭代所需的时间会增加,但梯度估计会变得更加稳定,从而使得整个优化过程更加平滑。
  • 当大小为m时,我们获得了最快的训练速度和最稳定的优化过程,但可能会面临内存不足的问题。而当我们减小mini-Batch的大小时,虽然单次迭代所需的时间会增加,但可以解决内存不足的问题,并且梯度估计也会变得更加稳定,从而使得整个优化过程更加平滑。

 (3)常见的Batch Size选择

        Batch Size超参数其选择大多取决于具体的计算资源、数据集大小、模型复杂度和训练目标他并不是一个固定的数字,而是需要根据具体情况来调整。以下是一些选择Batch Size时需要考虑的因素:

  • 一般设置:2的n次方。 例如64,128,512,1024. 一般不会超过这个范围。不能太大,因为太大了会无限接近BGD的行为,速度会慢。 也不能太小,太小了以后可能算法永远不会收敛。 
  • 计算资源:较大的Batch Size需要更多的内存和计算资源。如果计算资源有限,可以选择较小的Batch Size,例如32或64。
  • 数据集大小:对于较小的数据集,选择较小的Batch Size通常更合适,以避免模型过度拟合训练数据。
  • 模型复杂度:简单模型可以使用较大的Batch Size,因为计算量相对较小。复杂模型则建议使用较小的Batch Size,以充分训练模型。
  • 训练目标:如果追求最大化训练速度,可以选择较大的Batch Size。若目标是获得更好的模型性能,则建议使用较小的Batch Size。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/836559.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

吴恩达 深度学习 神经网络 softmax adam 交叉验证

神经网络中的层:输入层(layer 0)、隐藏层、卷积层(看情况用这个)、输出层。(参考文章) 激活函数: 隐藏层一般用relu函数; 输出层根据需要,二分类用sigmoid&…

ExcelVBA在选择区域(有合并)中删除清除空行

【问题】 关于删除空行,以前是用函数来完成工作的, 今天有人提出问题,传来这个文件, 现有数据,1w多行,其中有部分列有不同合并单元格,跨行也不一样。如果要进行筛选删除空行,有一定的…

matlab使用教程(70)—修改坐标区属性

1.控制坐标轴长度比率和数据单位长度 您可以控制 x 轴、y 轴和 z 轴的相对长度(图框纵横比),也可以控制一个数据单位沿每个轴的相对长度(数据纵横比)。 1.1图框纵横比 图框纵横比是 x 轴、y 轴和 z 轴的相对长度。默认…

Python-VBA函数之旅-sum函数

目录 一、sum函数的常见应用场景 二、sum函数使用注意事项 三、如何用好sum函数? 1、sum函数: 1-1、Python: 1-2、VBA: 2、推荐阅读: 个人主页: https://myelsa1024.blog.csdn.net/ 一、sum函数的常…

CSS:盒子模型

目录 ▐ box—model概述 ▐ 盒子的组成 ▐ 内容区 ▐ 内边距 ▐ 边框 ▐ 外边距 ▐ 清除浏览器默认样式 ▐ box—model概述 • CSS处理网页时,它认为每个标签都包含在一个不可见的盒子里. • 如果把所有的标签都想象成盒子,那么我们对网…

远程桌面如何连接?

远程桌面连接是一种可以在不同地点之间共享电脑桌面的技术。通过远程桌面连接,用户可以在远程的计算机上操作另一台计算机,就像是直接坐在前者的前面一样。这种技术可以帮助用户解决在不同地点之间共享数据、协同办公、设备管理等问题。 【天联】的使用场…

浅谈@Controller注解和其他四大注解的区别

各位大佬光临寒舍,希望各位能赏脸给个三连,谢谢各位大佬了!!! 目录 1.Spring五大注解的使用约定 2.Controller注解的特别之处 3.总结 1.Spring五大注解的使用约定 Spring的五大注解(Controller&#x…

14.CAS原理

文章目录 CAS原理1.什么是CAS2.Unsafe类中的CAS方法2.1.获取UnSafe实例2.2.调用UnSafe提供的CAS方法2.3.调用Unsafe提供的偏移量相关2.4.CAS无锁编程2.4.1.使用cas进行无锁安全自增案例 CAS原理 由于JVM的synchronized重量级锁设计操作系统内核态下的互斥锁的使用,其…

二分判定+选插冒排序+归并快速堆希尔+计数排序

二分力扣题 一&#xff1a;搜索二维矩阵 74. 搜索二维矩阵 按照题意&#xff1a;直接利用二维数组转换成一维数组进行求解 方法一&#xff1a;普通等于的二分查找 class Solution { public:bool searchMatrix(vector<vector<int>>& matrix, int target) {t…

io_uring的使用示例及其解释

io_uring的使用示例及其解释 1 io_uring机制1.1 io_uring机制1.2 io_uring系统调用接口功能介绍1.2.1 io_uring_setup()&#xff1a;1.2.2 io_uring_enter()&#xff1a;1.2.3 io_uring_register()&#xff1a; 2 liburing2.1 liburing简介2.2 liburing编译2.2.1 liburing的代码…

基础ArkTS组件:导航栏组件(HarmonyOS学习第三课【3.8】)

Navigation 官方文献 Navigation 组件一般作为页面布局的根容器&#xff0c;它提供了一系列属性方法来设置页面的标题栏、工具栏以及菜单栏的各种展示样式。 Navigation 除了提供了默认的展示样式属性外&#xff0c;它还提供了 CustomBuilder 模式来自定义展示样式 说明 该…

OCR技术在历史文献数字化中的革命性作用

随着数字化技术的不断发展&#xff0c;历史文献的数字化已成为保存和传播文化遗产的重要途径。其中&#xff0c;光学字符识别&#xff08;OCR&#xff09;技术在历史文献数字化中发挥了革命性的作用&#xff0c;为研究者提供了更广阔的研究空间&#xff0c;推动了历史学研究的发…

kafka安装及收发消息

kafka需要与zookeeper配合使用&#xff0c;但是从2.8版本kafka引入kraft&#xff0c;也就是说在2.8后&#xff0c;zookeeper和kraft都可以管理kafka集群&#xff0c;这里我们依然采用zookeeper来配合kafka。 1、首先我们下载zookeeper 下载地址为 https://zookeeper.apache.org…

三. TensorRT基础入门-剖析ONNX架构并理解ProtoBuf

目录 前言0. 简述1. 执行一下我们的python程序2. ONNX是什么&#xff1f;3. onnx中的各类Proto3.1 理解onnx中的ValueInfoProto3.2 理解onnx中的TensorProto3.3 理解onnx中的NodeProto3.4 理解onnx中的AttributeProto3.5 理解onnx中的GraphProto3.6 理解onnx中的ModelProto 4. …

算法提高之单词接龙

算法提高之单词接龙 核心思想&#xff1a;dfs 预处理每两个字符串之间最短的公共部分长度 求最短公共 最终字符串是最长 dfs所有开头字符串 #include <iostream>#include <cstring>#include <algorithm>using namespace std;const int N 25;int g[N][N…

Feign 和 OpenFeign 的区别

Feign 和 OpenFeign 都是用来进行服务间调用的客户端库&#xff0c;它们旨在简化HTTP API客户端的编写过程&#xff0c;使得编写对外部服务的接口就像调用本地方法一样简单。尽管它们有相似之处&#xff0c;但也存在一些关键差异&#xff1a; 归属和演进&#xff1a; Feign 最初…

大规模 RGB LED灯控系统 Lumos:创新与智能化的融合

灯控系统&#xff1a;创新与智能化的融合 在现代照明技术不断进步的背景下&#xff0c;灯控系统的应用已经从简单的开关控制&#xff0c;发展到能够进行复杂程控操作的智能化管理。我们推出的新一代灯控解决方案&#xff0c;凭借其高度的可配置性和跨平台兼容性&#xff0c;已…

虚拟化数据恢复—误还原虚拟机快照怎么办?怎么恢复最新虚拟机数据?

虚拟化技术原理是将硬件虚拟化给不同的虚拟机使用&#xff0c;利用虚拟化技术可以在一台物理机上安装多台虚拟机。误操作或者物理机器出现故障都会导致虚拟机不可用&#xff0c;虚拟机中的数据丢失。 虚拟化数据恢复环境&#xff1a; 有一台虚拟机是由物理机迁移到ESXI上面的&a…

pikachu靶场(xss通关教程)

&#xff08;注&#xff1a;若复制注入代码攻击无效&#xff0c;请手动输入注入语句&#xff0c;在英文输入法下&#xff09; 反射型xss(get型) 1.打开网站 发现有个框&#xff0c;然后我们在框中输入一个“1”进行测试&#xff0c; 可以看到提交的数据在url处有显示&#xf…

Debian Linux 下给Nginx 1.26.0 编译增加Brotli算法支持

明月发现参考【给Nginx添加谷歌Brotli压缩算法支持】一文给出的方法&#xff0c;在Debian Linux 12.5下就一直编译失败&#xff0c;主要的错误是因为文件缺失&#xff0c;在专门又安装了apt-get install libbrotli-dev的依赖库后依然会因为文件缺失无法编译完成&#xff0c;就这…