【深度学习】机器学习基础

机器学习就是让机器具备找一个函数的能力

带有未知的参数的函数称为模型

通常一个模型的修改,往往来自于对这个问题的理解,即领域知识

损失函数

  • 平均绝对误差(Mean Absolute Error,MAE)
    在这里插入图片描述
  • 均方误差(Mean Squared Error,MSE)

加粗样式

  • 交叉熵(cross entropy):有一些任务中 y 和 ^y 都是概率分布,这个时候可能会选择交叉熵

梯度下降

解一个最优化的问题。把未知的参数找一个数值出来,看代哪一个数值进去可以让损失 L 的值最小。
梯度下降(gradient descent)是经常会使用优化的方法

假设只有一个未知参数w,怎么样找一个 w 让损失的值最小。
首先要随机选取一个初始的点 w0,计算在 w 等于 w0 的时候,参数 w 对损失L的微分在这里插入图片描述

计算在这一个点,在 w0 这个位置的误差表面的切线斜率,也就是这一条蓝色的虚线,它的斜率,如果这一条虚线的斜率是负的,代表说左边比较高,右边比较低。在这个位置附近,左边比较高,右边比较低。如果左边比较高右边比较低的话,就把 w 的值变大,就可以让损失变小。如果算出来的斜率是正的,就代表左边比较低右边比较高。左边比较低右边比较高,如果左边比较低右边比较高的话,就代表把 w 变小了,w 往左边移,可以让损失的值变小
在这里插入图片描述

w左右移动的步伐大小取决于:

  • 1、斜率,斜率大步伐就跨大一点,斜率小步伐就跨小一点
  • 2、学习率(learning rate)η 也会影响步伐大小。学习率是自己设定的,如果 η 设大一点,每次参数更新就会量大,学习可能就比较快。如果 η 设小一点,参数更新就很慢,每次只会改变一点点参数的数值。(在做机器学习,需要自己设定,不是机器自己找出来的,称为超参数(hyperparameter))

所以w的更新如下:
在这里插入图片描述

不断地移动 w 的位置,最后会停下来。往往有两种情况会停下来

  • 1、设定更新次数的超参数:上限可能会设为 100 万次,参数更新 100 万次后,就不再更新了
  • 2、当不断调整参数,调整到一个地方,它的微分的值就是这一项,算出来正好是 0 的时候,如果这一项正好算出来是 0,0 乘上学习率 η 还是 0,所以参数就不会再移动位置

局部最小值和全局最小值问题
梯度下降有一个很大的问题,没有找到真正最好的解,没有找到可以让损失最小的 w。

如果在梯度下降中,w0 是随机初始的位置,也很有可能走到 wT 这里,训练就停住了,无法再移动 w 的位置。(事实上局部最小值是一个假问题,在做梯度下降的时候,真正面对的难题不是局部最小值。)

在这里插入图片描述

对于有多个未知参数,w、b。
在这里插入图片描述

激活函数

在这里插入图片描述

线性模型,不管如何设置 w 跟 b,永远制造不出红色线,永远无法用线性模型制造红色线。显然线性模型有很大的限制,这一种来自于模型的限制称为模型的偏差,无法模拟真实的情况。

所以需要写一个更复杂的、更有灵活性的、有未知参数的函数。红色的曲线可以看作是一个常数再加上一群 Hard Sigmoid 函数。Hard Sigmoid 函数的特性是当输入的值,当 x 轴的值小于某一个阈值(某个定值)的时候,大于另外一个定值阈值的时候,中间有一个斜坡。所以它是先水平的,再斜坡,再水平的。所以红色的线可以看作是一个常数项加一大堆的蓝色函数(Hard Sigmoid)
在这里插入图片描述

假设 x 跟 y 的关系非常复杂也没关系,就想办法写一个带有未知数的函数。直接写 Hard Sigmoid 不是很容易,但是可以用一条曲线来理解它,用Sigmoid 函数来逼近 Hard Sigmoid,

Sigmoid 函数的表达式为
在这里插入图片描述
在这里插入图片描述

Hard Sigmoid 可以看作是两个修正线性单元(Rectified Linear Unit,ReLU)的加总
在这里插入图片描述

Sigmoid 和 ReLU 是最常见的激活函数

https://blog.csdn.net/caip12999203000/article/details/127067360

批量

实际使用梯度下降的时候,会把 N 笔数据随机分成一个一个的批量(batch),一组一组的。每个批量里面有 B 笔数据,所以本来有 N笔数据,现在 B 笔数据一组,一组叫做批量
本来是把所有的数据拿出来算一个损失,现在只拿一个批量里面的数据出来算一个损失
所以实现上每次会先选一个批量,用该批量来算 L1,根据 L1 来算梯度,再用梯度来更新参数,接下来再选下一个批量算出 L2,根据 L2 算出梯度,再更新参数,再取下一个批量算出 L3,根据 L3 算出梯度,再用 L3 算出来的梯度来更新参数。
在这里插入图片描述
所以并不是拿 L 来算梯度,实际上是拿一个批量算出来的 L1, L2, L3 来计算梯度。把所有的批量都看过一次,称为一个回合(epoch),每一次更新参数叫做一次更新。

举个例子,假设有 10000 笔数据,即 N 等于 10000,批量的大小是设 10,也就 B 等于 10。10000 个样本(example)形成了 1000 个批量,所以在一个回合里面更新了参数 1000 次,所以一个回合并不是更新参数一次,在这个例子里面一个回合,已经更新了参数 1000 次了。

所以做了一个回合的训练其实不知道它更新了几次参数,有可能 1000 次,也有可能 10 次,取决于它的批量大小有多大。 批量大小是超参数

深度学习

Sigmoid 或 ReLU 称为神经元(neuron),很多的神经元称为神经网络(neural network)
每一排称为一层,称为隐藏层(hidden layer),很多的隐藏层就“深”,这套技术称为深度学习
在这里插入图片描述
深度学习的训练会用到反向传播(BackPropagation,BP),其实它就是比较有效率、算梯度的方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/36384.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

全面解读OA系统:功能、价值及应用

反复沟通、来回跑腿,还易出错; 纸笔记录、excel统计,效率低耽误事; 档案、物资,查不清记录、看不了实时; 部门各做各的、各管各的,沟通配合难…… 你有没有经历过诸如上述的繁琐办公流程&am…

MSA 助力实验室测量更稳定、更准确

在汽车制造、石油化工、电子制造等行业,产品的质量和性能需要通过准确的测量来保证。但是由于测量设备的误差、操作人员的主观影响以及环境条件的干扰等因素会导致测量系统出现各种问题,且这些问题会导致测量结果不准确,从而影响产品质量。 随着工业信息化的迅速发展, 各行业对…

松下的台灯值得入手吗?书客、飞利浦热门品牌横评分享!

自从儿子步入小学,他埋首于书桌前的时光愈发冗长,很欣慰他能够认真专心学习,却也隐隐担忧他的视力健康。在了解视力健康中发现长时间在过暗或过亮的光线环境下学习,会导致瞳孔频繁地收缩与扩张,极易引发视觉疲劳。更令…

Python 基础:用 json 模块存储和读取数据

目录 一、用 json 存储数据二、用 json 读取数据 遇到看不明白的地方,欢迎在评论中留言呐,一起讨论,一起进步! 本文参考:《Python编程:从入门到实践(第2版)》 用户关闭程序时&#…

无门槛代理SSL证书入门指南

随着网络安全问题日益凸显,SSL证书作为保障网络数据传输安全的重要手段,其市场需求也在持续增长。因此,成为SSL证书代理不仅具有巨大的商业价值,更是提升网络安全保障能力的关键步骤。本文将为您介绍如何快速无门槛代理SSL证书的方…

GMSB文章六:微生物SCFA关联分析

欢迎大家关注全网生信学习者系列: WX公zhong号:生信学习者Xiao hong书:生信学习者知hu:生信学习者CDSN:生信学习者2 介绍 微生物短链脂肪酸(SCFAs)是由肠道微生物发酵膳食纤维、抗性淀粉、低…

AI写作助力:如何用AI降重工具快速提升论文原创性?

高查重率是许多毕业生的困扰。通常,高查重率源于过度引用未经修改的参考资料和格式错误。传统的降重方法,如修改文本和增添原创内容,虽必要但耗时且成效不一。 鉴于此,应用AI工具进行AIGC降重成为了一个高效的解决方案。这些工具…

抖音集成:通过MessageBox引领数字化营销新潮流

抖音集成:通过MessageBox引领数字化营销新潮流 在数字化营销的大潮中,企业需要不断探索新的方式来优化其营销策略,以抓住更多的市场机会。抖音作为一款全球知名的短视频社交平台,凭借其庞大的用户群体和高度互动的特性&#xff0…

v1.0.4优雅草超级站长工具开发进度更新·增加vip兑换功能·增加每个页面批量查询和清空功能

https://doc.youyacao.com/9/2157 v1.0.4优雅草超级站长工具开发进度更新增加vip兑换功能增加每个页面批量查询和清空功能 演示地址-可测试 https://test2.youyacao.com 介绍 本产品是一款针对站长使用的工具,针对网站域名的多维信息查询工具,本产品…

OpenAI推迟ChatGPT高级语音模式发布!谷歌将推出明星网红AI聊天机器人|AI日报

文章推荐 时序预测双飞轮,全面超越Transformer,纯MLP模型实现性能效能齐飞 OpenAI将终止对我国提供API服务,国内大模型将迎来“六小强”格局!|AI日报 推迟ChatGPT高级语音模式发布!OpenAI将计划在秋季向…

elasticsearch重置密码

0 案例背景 Elasticsearch三台集群环境,对外端口为6200,忘记elasticsearch密码,进行重置操作 注:若无特殊说明,三台服务器均需进行处理操作 1 停止es /rpa/bin/elasticsearch.sh stop 检查状态 ps -ef|grep elast…

视频监控管理平台LntonCVS智能视频监控平台系统详细介绍

安防视频监控平台LntonCVS以其卓越的灵活性和便捷的部署特性在众多同类产品中脱颖而出。它不仅支持多种主流标准协议,如国标GB28181、RTSP/Onvif、RTMP等,还兼容了海康Ehome、海大宇等厂家的私有协议和SDK接入,为用户提供了更加丰富的选择。 …

Android 简单的so层逆向

前言 最近搞了一下安卓。简单学习记录一下。 目标程序: xiao shui mian 也就是某个参数的逆向 准备环境 安卓机scrcpyadbfrida解包软件(不列举了) 这种环境安装这里就不多说了。教程也很多。 参数逆向分析 先抓包看看参数 这里我使用…

【仿真建模-anylogic】ViewArea解析

Author:赵志乾 Date:2024-06-27 Declaration:All Right Reserved!!! 1. 应用场景 view area又叫视图区域,其作用是在presentation中标记一块区域,便于动画演示过程中快速切换可视区…

海豚调度调优 | 如何解决任务被禁用出现的Bug

💡 本系列文章是 DolphinScheduler 由浅入深的教程,涵盖搭建、二开迭代、核心原理解读、运维和管理等一系列内容。适用于想对 DolphinScheduler了解或想要加深理解的读者。 祝开卷有益。 本系列教程基于 DolphinScheduler 2.0.5 做的优化。&#xff…

PTA—C语言期末复习(选择题)

1. 按照标识符的要求,(A)不能组成标识符。 A.连接符 B.下划线 C.大小写字母 D.数字字符 在大多数编程语言中,标识符通常由字母(包括大写和小写)、数字和下划线组成,但不能以数字开头&#xff0c…

JDBC以及事务

1、JDBC是什么? JDBC是Java DataBase Connectivity(Java语言链接数据库) 2、JDBC的本质 JDBC是一套接口,有调用者(java工程师)和实现者(SUN公司)(实现类被称为驱动&…

Linux OpenGrok搭建

文章目录 一、目的二、环境三、相关概念3.1 OpenGrok3.2 CTags3.3 Tomcat 四、OpenGrok搭建4.1 安装jdk4.2 安装ctags依赖4.3 安装universal-ctags4.3.1 下载universal-ctags4.3.2 编译&&安装universal-ctags 4.4 安装Tomcat4.4.1 下载&&解压Tomcat4.4.2 启动T…

继续捡钱,每天几百块!

每日操作计划: 标普信息科技(161128),溢价8.5%,限购100,一拖七,单户每天700*8.5%59元 印度基金LOF(164824),溢价2.6%,限购100,一拖七,单户每天700*2.6%18元 美元债LOF(…

为什么要本地化您的多媒体内容?

当我们访问网站、应用程序和社交媒体时,体验不再局限于陈旧的文本和静态图像。现代处理能力和连接速度提高了快速加载视频、音频和动画的可能性。 这一切都提供了更具沉浸感和互动性的用户体验。多媒体是数字营销中最有效的内容之一,因为它对用户更具吸…