Neural networks 神经网络

发展时间线

基础概念

多层神经网络结构

神经网络中一个网络层的数学表达

TensorFlow实践

创建网络层

神经网络的创建、训练与推理

推理

推理可以理解为执行一次前向传播

前向传播

前向传播直观数学表达

前向传播直观数学表达的Python实现

前向传播向量化实现

相关数学知识

向量点积(内积)示例

矩阵乘法示例

训练

相比前面TensorFlow实践中的步骤简化,这里细化了如何compile和fit模型。

TensorFlow实践

底层原理

1. 明确逻辑回归表达式及激活函数

2. 明确损失函数及成本函数

3. 开始训练,并最小化成本函数

激活函数

为什么需要激活函数

当你网络中每一层都不使用激活函数(即每一层都使用线性激活函数),根据下图的推导会发现不管你有几层最终的输出还是跟输入是线性的,因此最终实现的都是一个线性回归,而很多问题不是线性回归能够描述的。

常见激活函数

前面所有例子使用的激活函数都是sigmod,但是实际还有其他可替代的,比如下面的ReLU(Rectified Linear Unit),不需要关注全称

输出层激活函数选择

根据你要输出的性质选择,一般不存疑

隐藏层激活函数选择

现在绝大多数情况下会选择ReLU作为隐藏层的激活函数,两个原因:

1. 计算量更小

2. 只有 z < 0 时曲线的梯度(斜率)很小(为0),而sigmod函数在两侧梯度都很小,收敛更慢

多类分类:SoftMax回归

前面举的例子都是解决二分类问题,非0即1,但是实践中经常有多类分类问题,比如要识别0-9的数字

数值稳定的回归

多标签分类

跟多类分类要区分开,多类分类是指n类选命中哪1类,多标签分类是指n个标签命中其中m个标签,每个标签是二值

梯度下降优化算法:Adam算法

adaptive moment estimation(自适应矩估计),该算法是梯度下降的优化算法,效率更高,课程没有讲Adma算法的具体实现,但是实现的大致原理是:动态调整学习率α,梯度下降过程中,多次朝同一个方向下降的时候放大学习率,来回震荡时缩小学习率

神经网络层类型(layer type)

全连接层(dense layer)

每个神经元的输入是前一层所有输出(activation outputs)。

卷积层(convolutional layer)

每个神经元的输入是前一层部分输出。在某些场景会比全连接层效果更好,不过没讲分别适用的场景

为什么需要卷积层:

1. 减少计算量,加快计算速度

2. 减少训练需要的样本量,更不容易出现过拟合

反向传播

将计算损失的过程生成一个计算图,前向传播可以计算各个中间变量以及最终损失,而通过反向传播则可以通过导数的链式计算,逐步获取到J对所有参数的偏导数在该训练数据下的值

应用机器学习的建议

模型评估

数据集中圈出大部分数据用于训练并记录为训练集,留出少部分进行test并记录为测试集。可以分别对测试集和训练集计算最终模型的误差,注意计算误差的时候不再计算正则化项。

分类问题中也可以使用下图的匹配数量计算训练集和测试集的误差

训练集/交叉验证集/测试集 评估误差

偏差与方差(bias/variance)

作用

J_{train}(\vec{w}, b) 很高、J_{cv}(\vec{w}, b) \approx J_{train}(\vec{w}, b),说明高偏差,拟合度不足

J_{train}(\vec{w}, b)很低、J_{cv}(\vec{w}, b) 很高,说明高方差,过拟合

J_{train}(\vec{w}, b) 很高、J_{cv}(\vec{w}, b) \gg J_{train}(\vec{w}, b),说明高偏差、更高方差,说明在部分数据上过拟合,部分数据拟合不足

正则化对偏差/方差的影响

1. λ 接近 0 时,相当于没有正则化,会产生过拟合

2. λ 接近无穷大时,相当于w稍微有值

确定模型的基线水平

你需要将 J_{train}(\vec{w}, b)J_{cv}(\vec{w}, b) 与基线水平对比差距以判断偏差与方差,而不是根据他们的绝对值判断偏差与方差。确定基线水平有以下几种方式

1. 人类表现水平

2. 竞品/同类算法表现水平

3. 基于经验猜测目标水平

学习曲线

因为随着加入的训练数据变多,拟合越来越难满足所有数据,所以 J_{train}(\vec{w}, b) 逐步增大,而 J_{cv}(\vec{w}, b) 逐渐减小,但还是会大于 J_{train}(\vec{w}, b)

高偏差

高偏差情况下,J_{train}(\vec{w}, b) 和 J_{cv}(\vec{w}, b) 都高于基线水平,即使增加数据集也不能缓解,所以增加数据集规模没有作用

高方差

高方差情况下,基线水平处于 J_{train}(\vec{w}, b) 和 J_{cv}(\vec{w}, b) 之间,增加数据集大小可以降低 J_{cv}(\vec{w}, b),即可以提高模型性能

如何优化模型性能

经过合适的正则化之后的更大的模型通常表现要比更小的模型更好或者相仿,但是相应地会增加训练和推理的成本

机器学习开发流程

误差分析

通过对交叉验证集中预测错误的数据,抽样出合理数量的数据,对这些误差数据进行归类分析,将注意力集中到高频出现的问题上,以确定下一步要优化的优先级并针对高优优化类别分析改进方案

如何添加训练数据
收集更多数据

增加误差分析中占比比较多的分类的数据,可以有效提高模型性能

数据增强(data augmentation)

主要应用于图像、音频领域,对已有的训练数据做一定的变换(放大、所有、旋转、失真)作为新的同标签训练数据,提高模型性能

数据合成

基本上也只是用于计算机视觉,很少用于其他领域。例如想训练文本识别模型,可以在电脑上使用不同字体、不同颜色、不同对比度生成文本作为训练集

迁移学习
概念

迁移学习是指复用其他已经经过训练的模型参数和结构,然后替换掉输出层,再基于你自己的训练集进行再训练。此时你复用的模型成为预训练(pre training)模型,而再训练过程成为微调(fine tuning)。这使得你可以站在巨人的肩膀上实现你自己的模型功能,感谢这些乐于分享自己训练好的模型的人吧,有机会你也可以尝试回馈社区。

微调也有两种方式:

1. 你自己的数据集比较小,只微调输出层参数

2. 你自己的数据集比较大,可以同时微调隐藏层和输出层的所有参数

示例

比如下图例子,使用其他人训练好的判断图片是否存在猫、狗、骑车、人的模型和参数,替换输出层之后使用数据集训练为识别数字的模型。

什么情况可以进行迁移学习

预训练和微调模型的输入类型必须是相同的。此时每个隐藏层在预训练和微调时可能发挥类似的作用,比如前面的图像识别示例中,可能第一个隐藏层都在检测边,第二个隐藏层在检测角,第三层再检测曲线/形状。

倾斜数据集

示例

罕见病检测中,一种罕见病发病率仅为0.5%,那么即使是一个永远输出y=0的程序,准确率也达到了99.5%,所以这时只用准确率来评判检测模型的性能是不够的

准确率与召回率

两者之间的取舍

使用F1 score(调和平均数 harmonic mean)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/68987.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AR智慧点巡检系统探究和技术方案设计

一、项目背景 随着工业生产规模的不断扩大和设备复杂度的提升&#xff0c;传统的人工点巡检方式效率低下、易出错&#xff0c;难以满足现代化企业对设备运行可靠性和安全性的要求。AR&#xff08;增强现实&#xff09;技术的发展为点巡检工作带来了新的解决方案&#xff0c;通…

AI如何帮助解决生活中的琐碎难题?

引言&#xff1a;AI已经融入我们的日常生活 你有没有遇到过这样的情况——早上匆忙出门却忘了带钥匙&#xff0c;到了公司才想起昨天的会议资料没有打印&#xff0c;或者下班回家还在纠结晚饭吃什么&#xff1f;这些看似微不足道的小事&#xff0c;往往让人疲惫不堪。而如今&a…

用Python绘制一只懒羊羊

目录 一、准备工作 二、Turtle库简介 三、绘制懒羊羊的步骤 1. 导入Turtle库并设置画布 2. 绘制头部 3. 绘制眼睛 4. 绘制嘴巴 5. 绘制身体 6. 绘制四肢 7. 完成绘制 五、运行代码与结果展示 六、总结 在这个趣味盎然的技术实践中,我们将使用Python和Turtle图形…

form表单row中的col排列错位混乱

如图所示 form表单新增时排列整齐 编辑时就混乱 具体原因未知 解决方法&#xff1a;在el-row中加入样式 style"flex-wrap: wrap; display: flex" <el-row style"flex-wrap: wrap; display: flex">

OpenCV:高通滤波之索贝尔、沙尔和拉普拉斯

目录 简述 什么是高通滤波&#xff1f; 高通滤波的概念 应用场景 索贝尔算子 算子公式 实现代码 特点 沙尔算子 算子公式 实现代码 特点 拉普拉斯算子 算子公式 实现代码 特点 高通滤波器的对比与应用场景 相关阅读 OpenCV&#xff1a;图像滤波、卷积与卷积核…

error Parsing error: invalid-first-character-of-tag-name vue/no-parsing-error

标签的第一个字符不符合 HTML 或 Vue 的语法要求 [0] Module Warning (from ./node_modules/eslint-loader/index.js): [0] [0] /Users/dgq/Downloads/cursor/spid-admin/src/views/tools/fake-strategy/components/identify-list.vue [0] 87:78 error Parsing error: in…

在Unity中使用大模型进行离线语音识别

文章目录 1、Vosk下载下载vosk-untiy-asr下载模型在项目中使用语音转文字音频转文字2、whisper下载下载unity项目下载模型在unity中使用1、Vosk 下载 下载vosk-untiy-asr Github链接:https://github.com/alphacep/vosk-unity-asr 进不去Github的可以用网盘 夸克网盘链接:h…

【c语言日寄】Vs调试——新手向

【作者主页】siy2333 【专栏介绍】⌈c语言日寄⌋&#xff1a;这是一个专注于C语言刷题的专栏&#xff0c;精选题目&#xff0c;搭配详细题解、拓展算法。从基础语法到复杂算法&#xff0c;题目涉及的知识点全面覆盖&#xff0c;助力你系统提升。无论你是初学者&#xff0c;还是…

双指针+前缀和习题(一步步讲解)

前言&#xff1a;如果解决下面这几道题有些问题&#xff0c;或者即使看了我画的过程图也不理解的可以去看看我的上一篇文章&#xff0c;有可能会对你有帮助。 一、《数值元素的目标和》---来自AcWing 数组元素的目标和 给定两个升序排序的有序数组 A和 B&#xff0c;以及一个…

单调栈详解

文章目录 单调栈详解一、引言二、单调栈的基本原理1、单调栈的定义2、单调栈的维护 三、单调栈的应用场景四、使用示例1、求解下一个更大元素2、计算柱状图中的最大矩形面积 五、总结 单调栈详解 一、引言 单调栈是一种特殊的栈结构&#xff0c;它在栈的基础上增加了单调性约束…

分布式光纤应变监测是一种高精度、分布式的监测技术

一、土木工程领域 桥梁结构健康监测 主跨应变监测&#xff1a;在大跨度桥梁的主跨部分&#xff0c;如悬索桥的主缆、斜拉桥的斜拉索和主梁&#xff0c;分布式光纤应变传感器可以沿着这些关键结构部件进行铺设。通过实时监测应变情况&#xff0c;能够精确捕捉到车辆荷载、风荷…

《安富莱嵌入式周报》第349期:VSCode正式支持Matlab调试,DIY录音室级麦克风,开源流体吊坠,物联网在军工领域的应用,Unicode字符压缩解压

周报汇总地址&#xff1a;嵌入式周报 - uCOS & uCGUI & emWin & embOS & TouchGFX & ThreadX - 硬汉嵌入式论坛 - Powered by Discuz! 视频版&#xff1a; 《安富莱嵌入式周报》第349期&#xff1a;VSCode正式支持Matlab调试&#xff0c;DIY录音室级麦克风…

Pyside6(PyQT5)中的QTableView与QSqlQueryModel、QSqlTableModel的联合使用

QTableView 是QT的一个强大的表视图部件&#xff0c;可以与模型结合使用以显示和编辑数据。QSqlQueryModel、QSqlTableModel 都是用于与 SQL 数据库交互的模型,将二者与QTableView结合使用可以轻松地展示和编辑数据库的数据。 QSqlQueryModel的简单应用 import sys from PySid…

uniapp+Vue3(<script setup lang=“ts“>)模拟12306城市左右切换动画效果

效果图&#xff1a; 代码&#xff1a; <template><view class"container"><view class"left" :class"{ sliding: isSliding }" animationend"resetSliding">{{ placeA }}</view><view class"center…

VUE elTree 无子级 隐藏展开图标

这4个并没有下级节点&#xff0c;即它并不是叶子节点&#xff0c;就不需求展示前面的三角展开图标! 查阅官方文档如下描述&#xff0c;支持bool和函数回调处理&#xff0c;这里咱们选择更灵活的函数回调实现。 给el-tree结构配置一下props&#xff0c;注意&#xff01; :pr…

Ansys Motor-CAD:IPM 电机实验室 - 扭矩速度曲线

各位电动机迷们&#xff0c;大家好&#xff1a; 在本博客中&#xff0c;我讨论了如何使用 Ansys Motor-CAD 通过 LAB 模块获取扭矩速度曲线。使用每安培最大扭矩电机控制策略&#xff0c;并涵盖恒定扭矩区域和恒定功率、磁通减弱区域。分析了高转子速度如何影响功率输出。 模型…

网络(三) 协议

目录 1. IP协议; 2. 以太网协议; 3. DNS协议, ICMP协议, NAT技术. 1. IP协议: 1.1 介绍: 网际互连协议, 网络层是进行数据真正传输的一层, 进行数据从一个主机传输到另一个主机. 网络层可以将数据主机进行传送, 那么传输层保证数据可靠性, 一起就是TCP/IP协议. 路径选择: 确…

docker ubuntu:20.04构建c++ grpc环境

由c grpc必须源码编译&#xff0c;ubuntu版本不同可能出现的问题也不同&#xff0c;这里分享下我的构建过程。 我是vscode结合docker去安装c虚拟环境&#xff0c;我不想污染本机环境。 vscode的插件Dev Containers Dockerfile如下(如果单纯是ubuntu环境构建&#xff0c;可忽略该…

数据结构:二叉树—面试题(一)

目录 1、相同的树 2、另一棵树的子树 3、翻转二叉树 4、平衡二叉树 5、对称二叉树 6、二叉树遍历 7、二叉树的分层遍历 1、相同的树 习题链接https://leetcode.cn/problems/same-tree/description/https://leetcode.cn/problems/same-tree/description/ 描述&#xff1a…

MySQL训练营-慢查询诊断问题

慢查询相关参数和建议配置 slow_query_log long_query_time 日志开关&#xff0c;是否记慢查询日志以及超过多长时间判定为慢查询。 查看参数设置&#xff1a; SHOW VARIABLES LIKE ‘slow_query_log’;SHOW VARIABLES LIKE ‘long_query_time’; 实践建议&#xff1a; …