深度学习入门笔记(6)—— Logistic Regression

在这里插入图片描述
对比第三节中的 Adaline 和 Logistic Regression,可以发现它们只有两点不同:1、激活函数,Adaline 中的激活函数是恒等函数(线性),而 Logistic Regression 中的激活函数是 Sigmoid 函数(非线性);2、损失函数,Adaline 中的损失函数是均方误差,而 Logistic Regression 中的损失函数则是交叉熵。

在这里插入图片描述
Sigmoid 函数如图所示,其值域为 0 到 1,输入为 0 时取值为 0.5

在这里插入图片描述
h 即 hypothesis,就是我们的模型,由于 h(x) 也是 Sigmoid 激活函数的输出,取值为 0 到 1,所以可以将其视为概率,还是给定输入 x 的条件下输出 y = 1 的后验概率。在二分类的情况下,显然 y = 0 的后验概率就是 1 - h(x)。我们希望的,就是当实际标签 y = 1 时,其后验概率 h(x) 越接近 1 越好;当实际标签 y = 0 时,其后验概率 1 - h(x) 也是越接近 1 越好。即最大化后验概率。

在这里插入图片描述
y 在不同取值下的后验概率,实际上可以写成一条式子,如图所示,a 就是 h(x)。

在这里插入图片描述
我们希望的不止是某个训练样本,而是整个训练集上样本的后验概率(乘积)最大化,想求得当模型参数取什么值时,能达到这个目标,这也称为最大似然估计。

在这里插入图片描述
用一个符号 L(w) 来表示当参数为 w 时,整个训练集上的后验概率乘积,这称为似然损失。

在这里插入图片描述
方便起见,对似然损失取对数,使其变为对数似然损失,就可以将乘法转化为加法。

在这里插入图片描述
由于习惯上是进行梯度下降来最小化某个函数,所以得将最大化对数似然损失,加个负号,变成最小化负对数似然损失。

在这里插入图片描述
简单小结一下,Logistic Regression 和 Adaline 只有激活函数和损失函数不相同,而最大化似然损失 = 最大化对数似然损失 = 最小化负对数似然损失。

在这里插入图片描述
Sigmoid 函数及其导数的公式与图像

在这里插入图片描述
负对数似然损失的图像,可以看到,当实际标签为 y = 1 时,预测值 h (即激活函数的输出)越大(接近 1),损失就越小(接近 0)。

在这里插入图片描述
求取损失关于参数的偏导数(即梯度),使用链式法则,分别求损失(负对数似然损失)关于激活值的导数、激活函数(Sigmoid 函数)关于加权和输入的导数、以及加权和关于参数的导数。

在这里插入图片描述
非常巧妙地,Sigmoid 函数的导数是可以抵消负对数似然函数导数的分母部分的,最后的偏导数(梯度)就十分简单了。

在这里插入图片描述
(b) 部分用的就是上面求梯度的结果,(c) 部分还是用负梯度乘上学习率进行参数的更新。

在这里插入图片描述
到目前为止介绍的都是训练部分,用的是激活函数的输出 + 实际标签来求取梯度,然后更新参数,并没有进行激活函数的输出到预测标签的转换。

在这里插入图片描述
在这里插入图片描述

转换的方法其实也很简单,就是阈值函数。既可以将激活函数的输出是否大于 0.5 作为阈值,也可以将加权和(激活函数的输入)是否大于 0 作为阈值,这是因为 Sigmoid 函数输入 0 时正好取值为 0.5

在这里插入图片描述

最后是对两个术语的解释,首先是 “Logits”,在深度学习中,logits 就是输出层的输入;在统计学和 logistic regression 中, logits 是 log-odds 的简写,也就是对数几率 log⁡p1−p\log {p \over {1 - p}}log1pp(几率就是概率 p 和 1- p 的比),然后用线性回归 wTx{w^T}xwTx 去拟合它,得到 log⁡p1−p=wTx=z\log {p \over {1 - p}} = {w^T}x = zlog1pp=wTx=z,最后可以得到 p=11+e−zp = {1 \over {1 + {e^{ - z}}}}p=1+ez1,即为 logistic sigmoid 函数。

在这里插入图片描述
其次就是交叉熵,负对数似然函数来自统计学,二元交叉熵来自信息论,它们实际上是一样的,多分类中的多元交叉熵公式也是类似。

实现代码在这里。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/307545.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微服务模式下,实现前后端多资源服务调用

MicroServices首先,我先解释下,文章标题的意思:咋看起来特别像是一个标题党????,可能是我没想好怎么表达,其实白话文就是:在微服务场景下,肯定会有很多子服务API,那多个前端项目…

leetcode54. 螺旋矩阵(详解)

一:题目 二:上码 class Solution { public:/**思路:1.1 2 3 45 6 7 89 10 11 1213 14 15 162.我们模拟顺时针的顺序,那么得分为4步 上面得一行 (1,2,3)左面得一行 (4,8,12)下面得一行 (16,15,14)右面得一行 (13,9,5)可以看到我们在取数字得时候,我们是每次只取…

深度学习入门笔记(7)—— Multinomial Logistic Regression / Softmax Regression

首先介绍一个非常著名的多分类数据集 MNIST,也就是 0 到 9 的手写数字数据集。每个图像都是 28 * 28,用于Pytorch 数据读取的格式是 NCHW,即 Number、Channel、Height、Weight。 读取图像之后,就能看到一个只有单通道的&#xff0…

[C#.NET 拾遗补漏]09:数据标注与数据校验

数据标注(Data Annotation)是类或类成员添加上下文信息的一种方式,在 C# 通常用特性(Attribute)类来描述。它的用途主要可以分为下面这三类:验证 Validation:向数据添加验证规则展现 Display&am…

2023届春招实习拉钩一面凉经

面完就当挂了 老想着其实自己其实还能回答的更好 可回不去了 计网的的ioc七层模型各层的作用 为什么是七层模型而不是两层模型 SpringBoot最核心的注解是什么 Spring中IOC原理以及相关注解 说说对Mysql数据库索引的了解 map有哪些实现 分别讲讲? 项目中数据库…

Pytorch中损失函数 NLLLOSS 和 CROSSENTROPYLOSS 的区别

NLLLOSS 是 negative log likelihood loss 负对数似然损失函数,CROSSENTROPYLOSS 是交叉熵损失函数,它们都是用于多分类任务的损失函数,正如我在笔记中提到的,它们实际上是一样的,在 Pytorch 中这两者的区别就只在于接…

收好这张MySQL导图,全是知识点!

感谢阅读,直接上干货!最新整理的MySQL知识点全图,完整系统超3万字。直接跳转文末,下载源文件!开源跨平台的.NET Core越来越热门了,腾讯、网易、顺丰等大厂都在招聘,而且都开始明确要求MySQL了&a…

深度学习入门笔记(8)—— Multilayer Perceptron 多层感知器

所谓多层感知器,其实就是具有一个或多个隐藏层(hidden layer)的全连接前馈神经网络,如图所示,在最重要的求取损失关于权重的偏导数的过程上,跟之前的 Logistic Regression 和 Softmax Regression 一样&…

蓝桥杯-填空题-门牌制作

一&#xff1a;题目 二&#xff1a;代码 #include <iostream> using namespace std; int main() {int nums 2020;int count 0;string str to_string(nums);for(int i 1; i < nums; i) {string str to_string(i);for(auto temp: str) {if(temp 2){count;}}}cout…

.NET Core中间件与依赖注入的一些思考

点击上方蓝字"小黑在哪里"关注我吧1.起源? 为什么会有这篇文章呢? 源于我看了老A的aspnet core 3 框架揭秘[1] 请求管道 篇产生的疑惑?三点疑惑:Singleton服务中注入Scoped服务产生内存泄露?关于中间件的生命周期是Singleton的?怎么避免中间件、Singleton服务中…

深度学习入门笔记(9)—— Regularization to avoid overfitting 用正则化来避免过拟合

在维基百科的词条中&#xff0c;正则化就是让答案变得更简单的&#xff0c;目的是防止过拟合。在分类上可以分为显式正则化&#xff08;对目标函数添加先验、惩罚、约束、成本&#xff09;和隐式正则化&#xff08;所有其他形式的正则化如提前停止、集成学习、Dropout 等&#…

蓝桥杯-填空题-购物单

一&#xff1a;题目 **** 180.90 88折 **** 10.25 65折 **** 56.14 9折 **** 104.65 9折 **** 100.30 88折 **** 297.15 半价 **** 26.75 65折 **** 130.62 半价 **** 240.28 …

C# 中 System.Index 结构体和 Hat 运算符(^)的全新用法

翻译自 John Demetriou 2019年2月17日 的文章 《C# 8 – Introducing Index Struct And A Brand New Usage For The Hat Operator》今天我们要讲的是 Hat 运算符(^)。目前为止&#xff0c;Hat 运算符(^)已经被用作布尔类型的异或运算符&#xff0c;以及字节、整型类型的按位异或…

Lagrange Multipliers 拉格朗日乘数法(含 KKT 条件)

最优化问题通常是指对于给定的某一函数&#xff0c;求其在指定作用域上的全局最小值&#xff0c;一般情况下&#xff0c;最优化问题一般分为三种情况&#xff1a; &#xff08;1&#xff09;无约束条件 对于无约束条件的优化问题中&#xff0c;如果一个函数 f 是凸函数&#…

蓝桥杯-代码-数字三角形

一:题目 二:代码 #include <iostream> #include<vector> using namespace std; int main() {/**思路:1.确定dp数组的定义以及下标的含义dp[i][j] 表示的是一条路径到达下标i和j时&#xff0c;的最大值 2.确定dp数组的状态转移公式我们当前位置的最大值其实是由右上…

ABP VNext从单体切换到微服务

注&#xff1a;此处的微服务只考虑服务部分&#xff0c;不考虑内外层网关、认证等。ABP VNext从单体切换到微服务&#xff0c;提供了相当大的便利性&#xff0c;对于各模块内部不要做任何调整&#xff0c;仅需要调整承载体即可。ABP can help you in that point by offerring a…

dotnet 在 UOS 国产系统上使用 Xamarin Forms 创建 xaml 界面的 GTK 应用

在前面几篇博客告诉大家如何部署 GTK 应用&#xff0c;此时的应用是特别弱的&#xff0c;大概只是到拖控件级。尽管和 WinForms 一样也能写出特别强大的应用&#xff0c;但是为了提升一点开发效率&#xff0c;咱开始使用 xaml 神器写界面。本文告诉大家如何在 UOS 国产系统上&a…

赛码-编程题-打字

一:题目 二&#xff1a;上码 #include<bits/stdc.h> using namespace std;int main() {int n;vector<int> v1;cin >> n;for(int i 0; i < n; i) {string str;int count 0;cin >> str;for (int j 0; j < str.size(); j) {int num int(str[j]…

Python 中的 with 语句用法和 Pytorch 中的 with torch.no_grad() 解析

Python 中的 with 语句适用于对资源进行访问的场合&#xff0c;确保不管使用过程中是否发生异常都会执行必要的“清理”操作&#xff08;异常处理&#xff09;&#xff0c;释放资源&#xff0c;比如文件使用后自动关闭&#xff0f;线程中锁的自动获取和释放等。例如下面是文件读…

遍历 Dictionary,你会几种方式?

一&#xff1a;背景 1. 讲故事昨天在 StackOverflow 上看到一个很有趣的问题&#xff0c;说: 你会几种遍历字典的方式&#xff0c;然后跟帖就是各种奇葩的回答&#xff0c;挺有意思&#xff0c;马上就要国庆了&#xff0c;娱乐娱乐吧&#xff0c;说说这种挺无聊的问题?????…