【机器学习-07】逻辑回归(Logistic Regression)的介绍和python实现

Logistic Regression 虽然被称为回归,但其实际上是分类模型,并常用于二分类。主要用来表示某件事情发生的可能性,因此因变量的范围在 0 和 1 之间。Logistic Regression 因其简单、可并行化、可解释强深受工业界喜爱。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。

Logistic 回归的本质是:假设数据服从正态分布,使用极大似然估计对模型的参数进行估计。

一、Logistic分布

Logistic分布是一种连续概率分布,常用于建模具有有限范围的随机变量。它具有S形状的概率密度函数,可以用于描述一些自然现象和统计模型中的数据分布。

Logistic分布的概率密度函数(PDF)可以表示为:

f ( x ) = e − ( x − μ ) / s s ( 1 + e − ( x − μ ) / s ) 2 f(x) = \frac{e^{-(x-\mu)/s}}{s(1+e^ {-(x-\mu)/s})^2} f(x)=s(1+e(xμ)/s)2e(xμ)/s

其中, x x x 是随机变量的取值, μ \mu μ 是分布的均值, s s s 是分布的尺度参数。均值 μ \mu μ表示分布的中心位置,尺度参数 ss 控制分布的形状。

Logistic分布的累积分布函数(CDF)可以表示为:

F ( x ) = 1 1 + e − ( x − μ ) / s F(x) = \frac{1}{1+e^{-(x-\mu)/s}} F(x)=1+e(xμ)/s1

Logistic分布的特点包括:

对称性:Logistic分布是关于均值 μ \mu μ对称的,即分布在均值两侧呈镜像关系。
S形状:Logistic分布的概率密度函数在均值附近增长迅速,然后逐渐趋于平缓。这使得它在建模概率事件的发生概率时非常有用。
尾部厚重:相比于正态分布,Logistic分布的尾部较厚,即在分布的尾部区域概率下降较慢。
在这里插入图片描述

二、逻辑回归介绍

对于二分类问题,假设我们有一个数据集,其中包含 m m m个样本。每个样本由输入特征向量 x x x和对应的实际类别 y y y组成。我们希望通过逻辑回归模型来预测样本的类别。

假设存在一条直线(或超平面),可以将数据集中的样本完全分开。我们可以用一个线性模型来表示这条直线,其形式如下:

z = θ 0 + θ 1 x 1 + θ 2 x 2 + … + θ n x n z = \theta_0 + \theta_1x_1 + \theta_2x_2 + \ldots + \theta_nx_n z=θ0+θ1x1+θ2x2++θnxn

其中, z z z表示线性模型的输出, θ 0 , θ 1 , … , θ n θ \theta_0, \theta_1, \ldots, \theta_nθ θ0,θ1,,θnθ 表示模型的参数, x 1 , x 2 , … , x n x_1, x_2, \ldots, x_n x1,x2,,xn表示输入特征。

为了将线性模型的输出转化为概率值,我们使用逻辑函数(sigmoid函数)进行转换,得到预测的概率。逻辑函数的形式如下:

h θ ( x ) = 1 1 + e − z h_{\theta}(x) = \frac{1}{1+e^{-z}} hθ(x)=1+ez1

其中, h θ ( x ) h_{\theta}(x) hθ(x)表示逻辑回归模型的预测结果。

为了使得逻辑回归模型能够对样本进行分类,我们需要将预测的概率值映射到类别标签。一般来说,当预测的概率大于等于一个阈值时,我们将样本预测为正类别(例如, h θ ( x ) ≥ 0.5 h_{\theta}(x) \geq 0.5 hθ(x)0.5);当预测的概率小于阈值时,我们将样本预测为负类别。

三 、逻辑回归的代价函数(Cost Function)

逻辑回归的代价函数(Cost Function)用于衡量模型预测结果与实际观测值之间的差异。在逻辑回归中,常用的代价函数是交叉熵损失函数(Cross-Entropy Loss)。

假设我们有一个训练集,其中包含mm个样本,每个样本由输入特征向量xx和对应的实际类别yy组成。逻辑回归的目标是通过最小化代价函数来优化模型的参数。

对于二元分类问题,交叉熵损失函数可以表示为:

J ( θ ) = − 1 m ∑ i = 1 m [ y ( i ) log ⁡ ( h θ ( x ( i ) ) ) + ( 1 − y ( i ) ) log ⁡ ( 1 − h θ ( x ( i ) ) ) ] J(\theta) = -\frac{1}{m}\sum_{i=1}^{m}\left[y^{(i)}\log(h_{\theta}(x^{(i)})) + (1-y^{(i)})\log(1-h_{\theta}(x^{(i)}))\right] J(θ)=m1i=1m[y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))]

其中, J ( θ ) J(\theta) J(θ)表示代价函数, θ \theta θ表示模型的参数, h θ ( x ) h_{\theta}(x) hθ(x)表示逻辑回归模型的预测结果(即sigmoid函数的输出), y ( i ) y^{(i)} y(i)表示第 i i i个样本的实际类别。

代价函数的含义可以解释为:对于每个样本,如果实际类别为1,则第一项 y ( i ) log ⁡ ( h θ ( x ( i ) ) ) y^{(i)}\log(h_{\theta}(x^{(i)})) y(i)log(hθ(x(i)))越大越好;如果实际类别为0,则第二项 ( 1 − y ( i ) ) log ⁡ ( 1 − h θ ( x ( i ) ) ) (1-y^{(i)})\log(1-h_{\theta}(x^{(i)})) (1y(i))log(1hθ(x(i)))越大越好。通过求和和取平均,我们可以得到整个训练集上的平均代价。

逻辑回归的目标是最小化代价函数,通过调整模型的参数 θ \theta θ来实现。常用的方法是梯度下降(Gradient Descent),通过计算代价函数对参数的偏导数,更新参数以减小代价函数的值。

具体的梯度下降更新规则可以表示为:

θ j : = θ j − α ∂ J ( θ ) ∂ θ j \theta_j := \theta_j - \alpha\frac{\partial J(\theta)}{\partial \theta_j} θj:=θjαθjJ(θ)

其中, α \alpha α表示学习率,控制参数更新的步长。

通过反复迭代更新参数,直到达到收敛条件(如达到最大迭代次数或代价函数变化不显著),逻辑回归模型就可以得到最优的参数估计。

四、逻辑回归基于sklearn库的python代码实现

当使用scikit-learn库中的逻辑回归模型进行分类任务时,可以按照以下步骤进行操作:

  • 1 导入所需的库和模块:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
  • 2 加载鸢尾花数据集:
iris = load_iris()
X = iris.data
y = iris.target
  • 3 划分数据集为训练集和测试集:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
  • 4 创建并训练逻辑回归模型:
model = LogisticRegression()
model.fit(X_train, y_train)
  • 5 使用训练好的模型进行预测:
y_pred = model.predict(X_test)
  • 6 评估模型性能:
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

完整的Python代码如下所示:

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target# 划分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建并训练逻辑回归模型
model = LogisticRegression()
model.fit(X_train, y_train)# 使用训练好的模型进行预测
y_pred = model.predict(X_test)# 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

这段代码中,首先使用load_iris()函数加载鸢尾花数据集,然后使用train_test_split()函数将数据集划分为训练集和测试集。接下来,创建一个LogisticRegression对象作为逻辑回归模型,并使用训练集数据进行训练。然后,使用训练好的模型对测试集进行预测,并使用accuracy_score()函数计算分类准确度作为模型性能的评估指标。

五、逻辑回归的优缺点

  • 优点:
  • 实现简单,广泛的应用于工业问题上;
  • 分类时计算量非常小,速度很快,存储资源低;
  • 便利的观测样本概率分数;
  • 对逻辑回归而言,多重共线性并不是问题,它可以结合L2正则化来解决该问题;
  • 计算代价不高,易于理解和实现;
  • 缺点:

-当特征空间很大时,逻辑回归的性能不是很好;
-容易欠拟合,一般准确度不太高
-不能很好地处理大量多类特征或变量;
-只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分;
-对于非线性特征,需要进行转换;

六、总结:

逻辑回归是一种常用的分类算法,适用于二分类问题。它基于线性模型和逻辑函数的组合,将线性模型的输出转化为概率值,并通过设定阈值进行分类预测。逻辑回归模型的训练过程是通过最小化代价函数来优化模型参数,常用的代价函数是交叉熵损失函数。

使用scikit-learn库中的逻辑回归模型进行分类任务的步骤如下:

  • 导入所需的库和模块。
  • 加载数据集。
  • 划分数据集为训练集和测试集。
  • 创建并训练逻辑回归模型。
  • 使用训练好的模型进行预测。
  • 评估模型性能,常用的指标是准确度。

逻辑回归模型具有简单高效、可解释性强和能处理非线性关系等优点。它在许多领域都有广泛的应用,如医学、金融、市场营销等。然而,逻辑回归也存在一些缺点,例如对异常值敏感、处理多分类问题相对困难等。

综上所述,逻辑回归是一种强大的分类算法,通过线性模型和逻辑函数的组合,能够有效地解决二分类问题。在实践中,我们可以使用scikit-learn库中的逻辑回归模型来快速构建和训练模型,并对其性能进行评估。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/761128.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MyBatis配置文件详解

下面是一个典型的 MyBatis 配置文件 <?xml version"1.0" encoding"UTF-8" ?> <!DOCTYPE configuration PUBLIC "-//mybatis.org//DTD Config 3.0//EN" "http://mybatis.org/dtd/mybatis-3-config.dtd"> <configurat…

Acwing.1355 母亲的牛奶(BFS)

题目 农夫约翰有三个容量分别为 A,B,C升的挤奶桶。 最开始桶 A和桶 B都是空的&#xff0c;而桶 C里装满了牛奶。 有时&#xff0c;约翰会将牛奶从一个桶倒到另一个桶中&#xff0c;直到被倒入牛奶的桶满了或者倒出牛奶的桶空了为止。 这一过程中间不能有任何停顿&#xff0…

前端静态开发案例-基于H5C3开发的仿照视频网站的前端静态页面-2 样式表部分和效果展示

原创作者&#xff1a;田超凡&#xff08;程序员田宝宝&#xff09; 版权所有&#xff0c;引用请注明原作者&#xff0c;严禁复制转载 charset "utf-8"; /* 程序员田宝宝原创版权所有&#xff0c;仿冒必究&#xff0c;该界面是仿照某视频网站官网开发的静态页面 */ …

Python 操作sqllite

共有5个字段&#xff0c;实现增、查、改功能 import sqlite3 import threading import functoolsPATH_DATABASE threelang.dbdef synchronized(func):functools.wraps(func)def wrapper(self, *args, **kwargs):with self.lock:return func(self, *args, **kwargs)return wra…

基于Jenkins + Argo 实现多集群的持续交付

作者&#xff1a;周靖峰&#xff0c;青云科技容器顾问&#xff0c;云原生爱好者&#xff0c;目前专注于 DevOps&#xff0c;云原生领域技术涉及 Kubernetes、KubeSphere、Argo。 前文概述 前面我们已经掌握了如何通过 Jenkins Argo CD 的方式实现单集群的持续交付&#xff0c…

埃克拉姆·阿拉姆,MindPortal的CEO和联合创始人 - 采访系列

Ekram Alam 专访&#xff1a;MindPortal 创始人兼首席执行官 引言 Ekram Alam 是 MindPortal 的创始人兼首席执行官&#xff0c;该公司致力于开发非侵入式神经接口&#xff0c;改变人类与人工智能的交互方式。他们的使命是通过让用户仅通过思想与人工智能交互&#xff0c;从而…

c++11笔记 跨平台线程池

1. 左值&#xff1a; 简单的说&#xff0c;可以放在等号左边的变量可以称之为左值&#xff0c;可以对该变量进行取地址运算的是左值,左值在内存中有确切的地址&#xff0c;可以长期存在&#xff0c;拥有具体的名字的。 比如 int a 10; int *p &a;//这里的a就是左值 2.…

java 继承(下)

前面我们已经说明了什么是继承&#xff1f;继承的好处弊端等&#xff0c;不清楚的可参照链接 java 继承&#xff08;上&#xff09;-CSDN博客 本篇文章主要理解 继承中变量&#xff0c;构造方法&#xff0c;成员方法的访问特点。 1、继承中变量的访问特点 1.1 代码实现 不看…

亚马逊认证考试系列 - 知识点 - 安全组简介

AWS安全组是一种虚拟防火墙&#xff0c;用于控制实例进出网络流量。安全组是一个实例级别的防火墙&#xff0c;可以定义哪些流量可以进入或离开特定的EC2实例。 功能&#xff1a;安全组可以用于限制特定类型的流量&#xff0c;如HTTP或SSH&#xff0c;允许特定IP地址范围的流量…

若依添加页面

背景&#xff1a;我想增加的是一个收支管理的页面 views中直接添加income文件夹&#xff0c;里面放着index.vue 网页的菜单中添加这个页面的菜单

基于springboot的留守儿童爱心网站

技术&#xff1a;springbootmysqlvue 一、系统背景 现代社会&#xff0c;由于经济不断发展&#xff0c;旧物捐赠的数量也在不断的增加&#xff0c;人们对留守儿童爱心信息的需求也越来越高。 以往的留守儿童爱心的管理&#xff0c;一般都是纸质文件来管理留守儿童爱心信息&am…

分布式异步任务框架celery

Celery介绍 github地址&#xff1a;GitHub - celery/celery: Distributed Task Queue (development branch) 文档地址&#xff1a;Celery - Distributed Task Queue — Celery 5.3.6 documentation 1.1 Celery是什么 celery时一个灵活且可靠的处理大量消息的分布式系统&…

rust学习(简单handler实现)

用过android的同学对于handler应该都很了解&#xff0c;用起来比较方便。这里用rust设计了一个简单的rust。 1.处理接口 pub trait ProcessMessage {fn handleMessage(&self,msg:Message); } 2.Message结构体 pub struct Message {pub what:u32,pub arg1:i32,pub arg2:…

Java:设计模式

文章目录 参考简介工厂模式简单工厂模式工厂方法模式抽象工厂模式总结 单例模式预加载懒加载线程安全问题 策略模式 参考 知乎 简介 总体来说设计模式分为三类共23种。 创建型模式&#xff0c;共五种&#xff1a;工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模…

Function与Module的差异与应用场景,symbolic() 和 forward() 是什么关系?

Function与Module的差异与应用场景 Function与Module都可以对pytorch进行自定义拓展&#xff0c;使其满足网络的需求&#xff0c;但这两者还是有十分重要的不同&#xff1a; Function一般只定义一个操作&#xff0c;因为其无法保存参数&#xff0c;因此适用于激活函数、pooli…

Unity构建详解(1)——SBP介绍

【前言】 Unity的资源工作流程分为导入、创建、构建、分发、加载。我们说的是其中的构建步骤。 构建是指将项目工程中的资源文件和代码整合程可执行文件的过程&#xff0c;构建的结果是生成可执行文件&#xff0c;在win平台上是exe&#xff0c;在Android平台上是apk&#xff…

基于浏览器localStorage作为数据库完成todolsit项目

一、文章内容 TodoList结构搭建HTML代码 TodoList样式编写Css代码 TodoList行为表现JavaScript代码 二、项目展示 项目介绍 Todolist是一个基于B/S模式开发的待办事项软件&#xff0c;主要功能是离线记录用户的待办事项和已经完成的事情&#xff0c;基于htmlcssjs实现&am…

Superset二次开发之PostgreSQL 存储库介绍

Apache Superset 使用 PostgreSQL 作为其默认的元数据数据库,来存储关于数据源、图表、仪表盘、用户及其权限等信息。下面是列出的一些主要表的功能和作用的简介: 权限和角色 ab_permission: 存储权限,如“可以访问仪表板”、“可以执行SQL查询”等。ab_permission_view: 将…

Mysql——索引下推

MySQL的索引下推&#xff08;Index Condition Pushdown, ICP&#xff09;是一种查询优化技术&#xff0c;它允许MySQL在存储引擎层执行部分WHERE子句中的过滤条件&#xff0c;而非全部在MySQL服务器层执行。这使得在扫描索引过程中就可以剔除不满足条件的记录&#xff0c;从而减…

【C++】---string的模拟

【C】---string的模拟 一、string类实现1.string类的构造函数2.swap&#xff08;&#xff09;函数3.拷贝构造函数4.赋值运算符重载5.析构6.迭代器7.operator[ ]8.size9.c_str&#xff08;&#xff09;10.reserve&#xff08;&#xff09;11.resize&#xff08;&#xff09;12.p…