【机器学习】逻辑回归的原理、应用与扩展

文章目录

    • 一、逻辑回归概述
    • 二、Sigmoid函数与损失函数
      • 2.1 Sigmoid函数
      • 2.2 损失函数
    • 三、多分类逻辑回归与优化方法
      • 3.1 多分类逻辑回归
      • 3.2 优化方法
    • 四、特征离散化

一、逻辑回归概述

逻辑回归是一种常用于分类问题的算法。大家熟悉的线性回归一般形式为 Y = a X + b \mathbf{Y} = \mathbf{aX} + \mathbf{b} Y=aX+b,其输出范围是 [ − ∞ , + ∞ ] [-∞, +∞] [,+]。然而,对于分类问题,我们需要将输出结果映射到一个有限的区间,这样才能实现分类。

这时候,我们可以借助一个非线性变换函数,即 Sigmoid 函数。Sigmoid 函数的定义为:
S ( Y ) = 1 1 + e − Y \mathbf{S(Y)} = \frac{1}{1 + e^{-\mathbf{Y}}} S(Y)=1+eY1
该函数可以将任意实数映射到 [ 0 , 1 ] [0, 1] [0,1] 区间内。我们可以将线性回归模型的输出 Y \mathbf{Y} Y 带入 Sigmoid 函数,得到一个介于 [ 0 , 1 ] [0, 1] [0,1] 之间的值 S \mathbf{S} S,这个值可以解释为一个概率。

在实际应用中,我们通常将 S \mathbf{S} S 视为样本属于正类的概率。如果我们设定一个概率阈值,比如 0.5 0.5 0.5,当 S \mathbf{S} S 大于 0.5 0.5 0.5 时,我们认为样本属于正类;反之,当 S \mathbf{S} S 小于 0.5 0.5 0.5 时,我们认为样本属于负类。通过这种方式,逻辑回归模型就能够对样本进行分类。

总的来说,逻辑回归通过线性回归模型输出结果并应用 Sigmoid 函数,将连续值映射为概率,从而实现对分类问题的处理。这种方法不仅简单有效,而且在二分类问题中具有广泛的应用。

二、Sigmoid函数与损失函数

2.1 Sigmoid函数

Sigmoid 函数是一种常用于分类模型中的激活函数,其定义上一小节有写。通常,分类问题有两种结果:一种是“是”,另一种是“否”。我们可以将 0 0 0 对应于“否”, 1 1 1 对应于“是”。

在这里插入图片描述

既然输出是 [ 0 , 1 ] [0, 1] [0,1] 的连续区间,为什么结果只有 0 0 0 1 1 1?这里我们引入一个阈值(通常设为 0.5 0.5 0.5)。当输出的概率大于 0.5 0.5 0.5 时,我们将其归为正类(即 1 1 1 类);当输出的概率小于 0.5 0.5 0.5 时,我们将其归为负类(即 0 0 0 类)。当然,这个阈值可以根据具体问题的需要自行设定。

接下来,我们将线性模型 a X + b \mathbf{aX + b} aX+b 代入 Sigmoid 函数中,就得到了逻辑回归的一般模型方程:
H ( a , b ) = 1 1 + e − ( a X + b ) \mathbf{H(a, b)} = \frac{1}{1 + e^{-(\mathbf{aX + b})}} H(a,b)=1+e(aX+b)1
其中, H ( a , b ) \mathbf{H(a, b)} H(a,b) 表示样本属于正类的概率。当该概率大于 0.5 0.5 0.5 时,我们将其判定为正类;当该概率小于 0.5 0.5 0.5 时,我们将其判定为负类。这样,逻辑回归通过将线性回归模型的输出映射到 [ 0 , 1 ] [0, 1] [0,1] 区间,从而实现分类的目的。

2.2 损失函数

逻辑回归的损失函数称为对数损失函数(log loss),也被称为对数似然损失函数(log-likelihood loss)。其具体形式如下:
Cost ( h θ ( x ) , y ) = { − log ⁡ ( h θ ( x ) ) if  y = 1 − log ⁡ ( 1 − h θ ( x ) ) if  y = 0 \text{Cost}(\mathbf{h_{\theta}(x)}, y) = \begin{cases} -\log(\mathbf{h_{\theta}(x)}) & \text{if } y = 1 \\ -\log(1 - \mathbf{h_{\theta}(x)}) & \text{if } y = 0 \end{cases} Cost(hθ(x),y)={log(hθ(x))log(1hθ(x))if y=1if y=0
在这个公式中, y = 1 y = 1 y=1 时使用第一个表达式,而 y = 0 y = 0 y=0 时使用第二个表达式。这是因为我们希望当模型预测接近真实值时,损失较小;反之,预测偏离真实值时,损失较大。

引入对数函数的原因在于其独特的性质:当真实值为 1 1 1 而模型预测概率 h \mathbf{h} h 接近 0 0 0 时, − log ⁡ ( h ) -\log(\mathbf{h}) log(h) 会趋向于无穷大,表示极大的惩罚。同样地,当真实值为 0 0 0 而模型预测概率 h \mathbf{h} h 接近 1 1 1 时, − log ⁡ ( 1 − h ) -\log(1 - \mathbf{h}) log(1h) 也会趋向于无穷大。因此,对数函数能够有效地对错误的预测进行严厉的惩罚,而对准确的预测则几乎没有惩罚。

通过使用梯度下降等优化算法,我们可以最小化损失函数,找到使损失函数达到最小值的参数,从而训练出最佳的逻辑回归模型。

三、多分类逻辑回归与优化方法

3.1 多分类逻辑回归

逻辑回归可以通过一种称为“一对多”(one-vs-rest)的策略来处理多分类问题。具体步骤如下:

  1. 首先,将某个类别视为正类,而将其他所有类别视为负类,然后训练一个逻辑回归模型来计算样本属于该类别的概率 p 1 \mathbf{p1} p1
  2. 接下来,将另一个类别(如 class2)视为正类,而将其他所有类别视为负类,训练另一个逻辑回归模型来计算样本属于该类别的概率 p 2 \mathbf{p2} p2
  3. 重复上述过程,对每一个类别都进行类似处理,计算样本属于每个类别的概率 p i \mathbf{p_i} pi

最终,我们将所有类别的概率进行比较,选择概率最大的那个类别作为最终预测结果。

通过这种方法,我们可以将多分类问题转化为多个二分类问题,并通过选择概率最大的类别来完成多分类任务。

3.2 优化方法

逻辑回归的优化方法包括一阶方法和二阶方法:

  • 一阶方法
    • 梯度下降:通过计算损失函数的梯度,并根据梯度更新参数。梯度下降的速度较慢,但简单易用。
    • 随机梯度下降(SGD):每次迭代只使用一个样本更新参数,速度更快,适用于大规模数据。
    • Mini-batch随机梯度下降:对数据进行小批量处理,结合了全量梯度下降和SGD的优点,提高计算效率。
  • 二阶方法
    • 牛顿法:通过二阶泰勒展开来更新参数,收敛速度较快,但计算Hessian矩阵的复杂度较高,且可能无法保证函数值稳定下降。
    • 拟牛顿法:不直接计算Hessian矩阵,而是构造其近似矩阵。常用的拟牛顿法包括DFP法(逼近Hessian的逆)、BFGS法(直接逼近Hessian矩阵)、L-BFGS法(减少存储空间需求)。

四、特征离散化

在逻辑回归中,特征离散化可以带来以下好处:

  1. 引入非线性:将连续特征离散化后,可以捕捉到非线性特征,提高模型的表达能力。
  2. 计算速度快:稀疏向量的内积运算速度较快,计算结果也便于存储和扩展。
  3. 鲁棒性强:离散化后的特征对异常数据具有较强的鲁棒性,减少了异常值对模型的影响。
  4. 特征组合:离散化后可以进行特征交叉,增加模型的复杂度和表达能力。
  5. 模型稳定性:离散化后,模型对特征的微小变化更为稳定,避免了极端值对模型的干扰。
  6. 简化模型:特征离散化有助于简化模型,降低过拟合的风险。

参考:

  • Logistics Regression
  • Sigmoid函数

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/45773.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

初学SpringMVC之 JSON 篇

JSON(JavaScript Object Notation,JS 对象标记)是一种轻量级的数据交换格式 采用完全独立于编程语言的文本格式来存储和表示数据 JSON 键值对是用来保存 JavaScript 对象的一种方式 比如:{"name": "张三"}…

「Pytorch」roLabelImg 图像异常旋转 bug

在进行Yolo-obb 模型训练的时候需要标注旋转框,roLabelImg 是比较推荐的一款旋转框标注工具,既可以标注正常的矩形框,还可以标注旋转框 roLabelImg Github 地址:https://github.com/HumanSignal/labelImg 但是在使用过程中遇到了…

SpringCloud学习

认识微服务 1.单体架构:将业务的所有功能集中在一个项目中开发,打成一个包部署 优点:架构简单 部署成本低 缺点:耦合度高 2.分布式架构:根据业务功能对系统进行拆分,每个业务模块作为独立项目开发&…

k8s record 20240710 监控

不是adaptor 是opetator 案例 监控有了,日志搜集呢? 一、kubelet 的小弟 kubelet — 负责维护容器的生命周期,节点和集群其他部分通信 cAdvisor 集成在 Kubernetes 的 kubelet 中,能够自动发现和监控集群中所有的容器。dockers…

创业者一定要做好时间管理

2024.7.5 最近接了两个项目,给我拖入了战争泥潭,耗费了大量的时间和精力。再加上今天不知道咋回事,有好多客户来咨询,就搞得人很疲惫,脑袋快炸了一样,感觉再这样下去会积怨成疾。现在能深刻的体会到&#x…

YOLOv5白皮书-第Y5周:yolo.py文件解读

本文为365天深度学习训练营 中的学习记录博客 原作者:K同学啊|接辅导、项目定制 本次训练是在前文《YOLOv5白皮书-第Y2周:训练自己的数据集》的基础上进行的。 前言 文件位置:./models/yolo.Py 这个文件是YOLOv5网络模型的搭建文件,如果你想改进YOLOv5&…

抖音短视频矩阵管理系统搭建全攻略:功能详解与实战应用

在短视频时代,抖音已经成为众多企业、网红、个人创作者不可或缺的传播平台。然而,如何高效管理多个抖音账号,实现内容、数据、粉丝的全方位掌控,成为了摆在大家面前的一道难题。本文将为大家深入解析抖音短视频矩阵管理系统的搭建…

Linux内核中的双向链表介绍

参考文章:https://www.cnblogs.com/liangliangge/p/11359196.html 相关结构体和api的介绍 1.1 struct list_head 用来创建双向循环链表的结构 1.2 INIT_LIST_HEAD 双向链表初始化,让一个链表节点首尾相连 1.3 list_add和list_add_tail 给链表增加一个结点 list_add :…

从0开始学习informer

目录 informer特点informer原理attention计算KL散度 backbone网络部分encoder输入输出部分embadding这里就不讲了 和transfomer一样EncoderStack decoder部分接下来就是最关键的结构 关于如何将输入经过注意力得到结果 结束,代码会放到下一篇讲 这里是原理 informer…

基于GIS矿产勘查靶区优选技术

定义: 找矿远景区(ore-finding prospect): 一般将中小比例尺(小于等于1:10万)成矿预测所圈定的找矿有利地段(preferable ore-finding area)成为找矿远景区 找矿靶区(ore-finding t…

车流量统计YOLOV8+DEEPSORT

车流量统计,YOLOV8NANODEEPSORT资源-CSDN文库 车流量统计YOLOV8DEEPSORT,目前支持PYTHON,C开发 PYTHON版本,需要YOLOV8,依赖PYTORCH C版本,只需要OPENCV

MYSQL的面试题

目录 一.数据库的约束类型 一.创建数据库、修改数据库名、修改表名,修改列名、修改某个属性的语法 三.索引的类型、优缺点以及使用场景 四.索引的常见的索引数据结构 五.数据库中常用的锁 六.事务的四大特性 七.什么是脏读?幻读?不可重…

技术周总结 2024.07.08~07.14(算法,Python,Java,Scala,PHP)

文章目录 一、07.13 周六1.0)算法题:字符串中的单词反转1.1) 问题01:可靠性计算中的MTTR MTTF MTBF 分别指什么?他们之间有什么联系?MTTR (Mean Time to Repair)MTTF (Mean Time to Failure)MTBF (Mean Time Between F…

vsCode 格式化代码及安装的插件

背景: 开发过程用的比较顺手的插件,首先看概览,然后分开发场景分别介绍。。。原生、vue2、vue3、react 效果展示: 不分前端开发框架,都在使用的几款插件: 插件官网链接:点击跳转官网 使用他能…

深入解析香橙派 AIpro开发板:功能、性能与应用场景全面测评

文章目录 引言香橙派AIpro开发板介绍到手第一感觉开发板正面开发板背面 性能性能概况性能体验 应用场景移植操作系统香橙派 AIpro开发板支持哪些操作系统?烧写操作系统到SD卡中启动开发板的步骤查看系统提供的事例程序体验——开发的简洁性 视频播放展示ffmpeg简介f…

C++ 语法习题(2)

第三讲 循环语句 1.偶数 编写一个程序&#xff0c;输出 1 到 100之间&#xff08;包括 1 和 100&#xff09;的全部偶数。 输入格式 无输入。 输出格式 输出全部偶数&#xff0c;每个偶数占一行。 输入样例 No input输出样例 2 4 6 ... 100 参考代码: #include <i…

Kafka接收消息

文章目录 Acknowledgment读消息指定分区批量消费消息拦截 // 采用监听得方式接收 Payload标记消息体内容. KafkaListener(topics {"test"},groupId "hello") public void onEvent(Payload String event,Header(value KafkaHeaders.RECEIVED_TOPIC) Stri…

服务重启时容器未自动启动

1、容器重启策略 通过设置容器的重启策略&#xff0c;‌可以决定在容器退出时Docker守护进程是否重启该容器。‌常见的重启策略包括&#xff1a;‌ no&#xff1a;‌不重启容器&#xff0c;‌默认策略。‌always&#xff1a;‌无论容器是如何退出的&#xff0c;‌总是重启容器…

2024 辽宁省大学数学建模竞赛A题 风切变影响及处置 完整思路 代码结果分享(仅供学习)

风切变对航空安全会构成危害。航空人员需了解相关知识&#xff0c;掌握相应技术&#xff0c;从而在遭遇上述天气时最大程度的规避风险&#xff0c;保证飞行安全。 风切变是指在大气中相对比较短的距离内或时间段内产生的风速大小、方向大幅度变化的现象。通常将发生在距离地面…

白话无人驾驶:1风暴来袭

----->更多内容&#xff0c;请移步“鲁班秘笈”&#xff01;&#xff01;<----- 根据最新的消息&#xff0c;在2024世界人工智能大会上&#xff0c;上海发放了首批完全无人驾驶智能网联汽车示范应用许可&#xff0c;即“完全无人载人车牌照”。首批获得许可的企业包括Au…