【pytorch18】Logistic Regression

回忆线性回归

  • for continuous:y = xw+b
  • for probability output:y=σ(xw+b)
    • σ:sigmoid or logistic

线性回归是简单的线性模型,输入是x,网络参数是w和b,输出是连续的y的值

如何把它转化为分类问题?加了sigmoid函数,输出的值不再是一个连续的实数范围,而是一个在[0,1]范围的值,等效于probability,因此可以理解为分类问题

二分类问题

  • interpret network as f : x → p ( y ∣ x ; θ ) f:x\to p(y|x; \theta) f:xp(yx;θ)
  • output∈[0,1]
  • which is exactly what logistic function comes in!

首先之前的线性回归模型,是x到一个y这样的映射,即 f : x → y f:x\rightarrow y f:xy

但是对于logistic regression(逻辑回归是分类问题)而言,是给x求y=1的这样的probability,θ的参数就是等于[w,b]这样的参数,所以输出的值就变成了0和1

两类问题的本质区别

  • For regression:

    • Goal:pred=y
    • Approach:minimize dist(pred,y)
  • For classification:

    • Goal:maximize benchmark,e.g. accuracy
    • Approach1:minimize d i s t ( p θ ( y ∣ x ) , p r ( y ∣ x ) ) \mathrm{dist}(p_\theta(y|x),p_r(y|x)) dist(pθ(yx),pr(yx))
    • Approach1:minimize d i v e r g e n c e ( p θ ( y ∣ x ) , p r ( y ∣ x ) ) divergence(p_{\theta}(y|x),p_{r}(y|x)) divergence(pθ(yx),pr(yx))

对于regression问题,预测值关注的是y,目标是预测的值要与真实值非常接近,方法也是minimize该差距

对于classfication问题,目标是accuracy或F1-score这种指标很高(例如准确率),做法并不需要直接优化accuracy,这一点是classification问题与regression最本质的区别,会用一个general proxy objective(如两个分布的边界或差异,这是一些数学的概念,还可以用cross entropy)

从概念上来说,给出x对y的一个probability,θ参数上给出一个probability和真实给定x得到y的probability,r是real的意思,就是真实的probability,希望这两个分布越近越好

即最终要测试的目标和训练的目标其实是不一样的

为什么训练的目标和测试的目标的目标是不一样的?

也就是说为什么不能直接的maximize accuracy
在这里插入图片描述
直接maximize accuracy会有两个问题,accuracy是预测对的数量 / 总的数量(例如有5个数字,预测对了3个accuracy就是3/5=60%)

第一种情况:
一个二分类问题中模型权重调整对准确率没有影响的情况。让我们逐步分析这个问题:

  1. 阈值决策: 在二分类问题中,模型的输出通常通过一个阈值来转换为类别标签。如果预测概率小于或等于0.5,模型预测为类别0;如果大于0.5,预测为类别1。
  2. 权重调整: 通过调整模型权重𝑤,使得某个样本的预测概率从0.4增加到0.45。尽管预测概率更接近真实标签的概率,但由于没有超过0.5的阈值,最终的类别预测仍然是0。
  3. 准确率不变: 由于预测结果没有改变,即使概率更接近真实值,准确率(accuracy)仍然保持不变。准确率是预测正确的样本数与总样本数的比例,在这个例子中,如果只有3个样本预测正确,准确率就是60%。
  4. 梯度为零: 在使用梯度下降算法优化模型时,如果预测结果没有改变,即模型输出对于权重的微小变化不敏感,那么在权重𝑤附近的梯度可能是零。这意味着在这个点上,权重的进一步调整不会影响预测结果,因此模型不会更新这个权重。
  5. 优化问题: 这个问题揭示了一个优化上的挑战:即使模型的预测概率接近真实分布,但如果不能越过决策阈值,就无法反映在准确率上,从而导致梯度为零,模型学习停滞。

在这里插入图片描述
此时x变了,y没变 ∂ y ∂ x = 0 \frac{\partial y}{\partial x}=0 xy=0

第二种情况:如果预测的是0.4999,这里w只动一点点变成了0.501大于0.5了,但是这个值本来是预测错的,现在反而预测对了,那accuracy就变成了4/5=80%,w可能动了0.0001,accurcacy增加了0.2,这样0.2/0.0001就会出现不连续的情况,就是x动一点点,accuracy可能会发生一个巨大的变化,会出现一个比较大的gradient

1.准确率的不连续性: 在二分类问题中,准确率是衡量模型预测正确性的一种离散指标。当模型的预测概率非常接近决策阈值(如0.5)时,即使是模型权重微小的调整,也可能引起预测结果的突变。

  1. 微小权重变化导致准确率的显著变化: 例如,如果模型对某个样本的初始预测概率为0.4999,权重的微小调整使其变为0.501,超过了0.5的阈值。这导致该样本的预测结果从错误变为正确,从而显著提高了准确率,如从60%(3/5)增加到80%(4/5)。
  2. 准确率的极端变化: 权重的微小变化引起准确率的显著增加,这在数学上可以类比为梯度非常大。在这种情况下,如果将准确率的变化率视为“梯度”,那么这个“梯度”是非常大的,因为准确率的变化(0.2)与权重变化(0.0001)的比值非常高。

所以在优化的时候就会发现要么就是gradient不连续会造成一个梯度爆炸的情况,要么就是training非常不稳定,这也解释了为什么不能使用accuracy来训练,要是用corss entropy来训练

在这里插入图片描述
logistic regression是用于classification问题的,为什么叫regression?

因为你的loss虽然用了softmax或者用了把probability变成了一个0到1的问题,但是如果跟原来的1做一个均方差,把这个作为loss去优化还是有regression的感觉,就是希望probability跟1越近越好,就是regression,把probability看作一个连续的输出值,因此如果使用MSE的话就把它叫做regression,是因为当时没有使用cross entropy

如果loss使用的是cross entropy,就可以理解为classification的问题,会使得 p θ ( y ∣ x ) p_{\theta}(y|x) pθ(yx)~ p r ( y ∣ x ) p_{r}(y|x) pr(yx)

二分类做法
在这里插入图片描述
多分类做法
在这里插入图片描述使用softmax来实现所有分类相加的概率为1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/42131.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024阿里国际春招笔试

第一题 0 解题思路: 数据范围很大,肯定得找规律。 当n1时,0,1,结果为0 当n2时,00,01,10,11,结果为1 当n3时,000,001,010&a…

【算法笔记自学】第 3 章 入门篇(1)——入门模拟

3.1简单模拟 自己写的题解 #include <stdio.h> #include <stdlib.h> int main() {int N;int num0;scanf("%d",&N);while(N!1){if(N%20){NN/2;}else{N(3*N1)/2;}num;}printf("%d",num);system("pause"); // 防止运行后自动退出&…

Linux网络管理

一、linux网络管理 1.获取计算机的网络信息 基本语法&#xff1a; #ifconfig #ip address &#xff08;ip a&#xff09; 解析&#xff1a; ens33&#xff1a;默认网卡 lo&#xff1a;环回网卡&#xff0c;127.0.0.1作为固定ip代表本机 virbr0&#xff1a;虚拟网络接口&…

以腾讯为例,手把手教你搭建产品帮助中心

一个精心设计的产品帮助中心对于提高用户满意度和体验至关重要。腾讯&#xff0c;作为全球领先的互联网企业&#xff0c;通过其多样化的产品线&#xff08;包括微信、QQ、腾讯游戏、腾讯视频等&#xff09;吸引了亿万用户。下面将以腾讯为例&#xff0c;向您展示如何搭建一个高…

《python程序语言设计》2018版第5章第51题利用turtle画18x18的格子

05.51.01version 先从第一一个格子来做 turtle.right(45) turtle.circle(18, steps4) turtle.hideturtle() turtle.done()这个代码很简单的现实出格子的样式。 现在的问题是循环的话。首先角度45度怎么处理 随着45度一次一次迭代。他是应该转4590呢还是4545呢&#xff1f;&…

《QT从基础到进阶·四十三》QPlugin插件多线程问题和只有插件dll没有头文件和lib文件时调用插件中的方法

1、插件和多线程问题&#xff1a; 创建插件对象不能放到多线程执行&#xff0c;不然报错&#xff1a;ASSERT failure in QWidget: "Widgets must be created in the GUlthread. //不能放在多线程执行 QPluginLoader pluginLoader(pluginsDir.absoluteFilePath(fileName))…

pandas中 groupby分组详解 1

引言 在一个使用 pandas 做数据分析的项目过程中&#xff0c;再次深刻理解了一下 pandas 中使用 groupby 进行分组的一些细节问题&#xff0c;以及对想要做的操作如何实现&#xff0c;在此记录&#xff1b; 问题 1&#xff1a;groupby 分组查看分组结果&#xff0c;以及重设分…

直播预告|飞思实验室暑期公益培训7月10日正式开启,报名从速!

01 培训背景 很荣幸地向大家宣布&#xff1a;卓翼飞思实验室将于7月10日正式开启为期两个月的暑期公益培训&#xff01;本次培训为线上直播&#xff0c;由中南大学计算机学院特聘副教授&#xff0c;RflySim平台总研发负责人戴训华副教授主讲。 培训将基于“RflySim—智能无人…

编程上下文Context及其实现原理

编程上下文Context及其实现原理 author:shengfq date:2024-07-06 title:编程上下文Context及其实现原理 category:编程思想1.编程中的上下文Context是指什么? 在编程和软件工程领域&#xff0c;“上下文”&#xff08;Context&#xff09;是一个多义词&#xff0c;其含义可以…

1.Python学习笔记

一、环境配置 1.Python解释器 把程序员用编程语言编写的程序&#xff0c;翻译成计算机可以执行的机器语言 安装&#xff1a; 双击Python3.7.0-选择自定义安装【Customize installation】-勾选配置环境变量 如果没有勾选配置环境变量&#xff0c;输入python就会提示找不到命令…

Idea新增Module报错:sdk ‘1.8‘ type ‘JavaSDK‘ is not registered in ProjectJdkTable

文章目录 一&#xff0c;创建Module报错二&#xff0c;原因分析三&#xff0c;解决方案1&#xff0c;点击上图的加号&#xff0c;把JDK8添加进来即可2&#xff0c;点击左侧[Project]&#xff0c;直接设置SDK为JDK8 四&#xff0c;配置检查与验证 一&#xff0c;创建Module报错 …

创维汽车开展年中总结会:创新创造·勇开拓 智慧经营·攀高峰

2024年7月3日&#xff0c;回顾上半年的工作成果&#xff0c;总结经验教训&#xff0c;明确下半年的发展方向和重点任务&#xff0c;创维汽车于山西省晋中市榆次区山西联合创维体验中心开展年中总结会。 创维集团、创维汽车创始人黄宏生&#xff1b;开沃集团联合创始人、首席执…

【C++干货基地】C++模板深度解析:进阶技巧与高级特性掌握(按需实例化、全特化与偏特化)文末送书

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 引入 哈喽各位铁汁们好啊&#xff0c;我是博主鸽芷咕《C干货基地》是由我的襄阳家乡零食基地有感而发&#xff0c;不知道各位的…

动态路由--RIP配置(思科cisco)

一、简介 RIP协议&#xff08;Routing Information Protocol&#xff0c;路由信息协议&#xff09;是一种基于距离矢量的动态路由选择协议。 在RIP协议中&#xff0c;如果路由器A和网络B直接相连&#xff0c;那么路由器A到网络B的距离被定义为1跳。若从路由器A出发到达网络B需要…

Vben:表格的表头和表格的内容对不齐,以及解决方法

文章目录 一、问题描述二、解决方法 一、问题描述 基于Vue-Vbne-admin框架进行前端开发的时候&#xff0c;调用表格useTable函数实现表格之后&#xff0c;发现表格的表头和表格的内容对不齐。如下图所示。针对这种情况&#xff0c;本文记录了解决方法。 调用的模块如下&#x…

带你一步步搭建Web自动化测试框架

测试框架的设计有两种思路&#xff0c;一种是自底向上&#xff0c;从脚本逐步演变完善成框架&#xff0c;这种适合新手了解框架的演变过程。另一种则是自顶向下&#xff0c;直接设计框架结构和选取各种问题的解决方案&#xff0c;这种适合有较多框架事件经验的人。本章和下一张…

优化LabVIEW代码以提高软件性能

优化LabVIEW代码对于提高软件性能、减少执行时间和资源消耗至关重要。以下是一些具体的策略和方法&#xff0c;可以帮助LabVIEW程序员优化代码&#xff1a; 1. 代码结构和模块化 使用子VI&#xff1a;将重复使用的代码段封装成子VI&#xff0c;提高代码的可读性和可维护性。 避…

使用Vue CLI方式创建Vue3.0应用程序

Vue CLI 是一个基于 Vue.js 进行快速开发的完整系统。新版本的 Vue CLI 的包名由原来的 vue-cli 改成了 vue/cli。 在开发大型项目时&#xff0c;需要考虑项目的组织结构、项目构建和部署等问题。如果手动完成这些配置工作&#xff0c;工作效率会非常低。为此&#xff0c;Vue.…

刷题之买股票的最佳时机(leetcode)

买股票的最佳时机 动态规划入门题。 最简单的模拟式解法&#xff1a; class Solution { public:int maxProfit(vector<int>& prices) {//也可以换一种思路&#xff0c;因为只交易一次&#xff0c;那么找出股票最便宜的时候买入&#xff0c;最贵的时候卖出&#xff…

c与c++的内存管理

给出内存四个分区名字&#xff1a;栈区、堆区、全局区&#xff08;俗话也叫静态变量区&#xff09;、代码区&#xff08;也叫代码段&#xff09;&#xff08;代码段又分很多种&#xff0c;比如常量区&#xff09; 当然也会看到别的定义如&#xff1a; 两者都正确&#xff0c;记…