一文介绍回归和分类的本质区别 !!

文章目录

前言

1、回归和分类的本质

(1)回归(Regression)的本质

(2)分类(Classification)的本质

2、回归和分类的原理

(1)回归(Regression)的原理

(2)分类(Classification)的原理

3、回归和分类的算法

(1)回归(Regression)的算法

(2)分类(Classification)的算法


前言

本文将从回归和分类的本质、回归和分类的原理、回归和分类的算法三个方面,详细介绍回归和分类 (Regression And Classification)。


1、回归和分类的本质

回归和分类是机器学习中两种基本的预测方法,它们的本质区别在于输出变量的类型。回归问题输出的是连续的数值,分类问题输出的是有限的、离散的类别标签。两者都是监督学习的一部分,都依赖于带有标签的训练数据来学习模型。

(1)回归(Regression)的本质

回归的目的是预测数值型的目标值,本质是寻找自变量和因变量之间的关系,以便能够预测新的、未知的数据点的输出值。例如,根据房屋的面积、位置等特征预测其价格(房价预测、股票价价格预测、温度预测等)。

回归的本质

  • 自变量个数:

        一元回归:只涉及一个自变量和一个因变量的回归分析。

        多元回归:涉及两个或更多个自变量和一个因变量的回归分析。

  • 自变量与因变量的关系:

        线性回归:自变量与因变量之间的关系被假定为线性的,即因变量是自变量的线性组合。

        非线性回归:自变量与因变量之间的关系是非线性的,这通常需要通过非线性模型来描述。

  • 因变量个数:

        简单回归:只有一个因变量的回归分析,无论自变量的数量如何。

        多重回归:涉及多个因变量的回归分析。在这种情况下,模型试图同时预测多个因变量的值。

(2)分类(Classification)的本质

分类的目的是预测标签型的目标值,本质是根据输入数据的特征将其划分到预定义的类别中。例如,根据图片的内容判断其所属的类别(猫、狗、花等)(邮件是否为垃圾邮件、疾病诊断的患病与否)。

分类的本质

  • 二分类(Binary Classification):

        表示分类任务中有两个类别。在二分类中,我们通常使用一些常见的算法来进行分类,如逻辑回归、支持向量机等。例如,我们想要识别一些图片是不是猫,这就是一个二分类问题,因为答案只有是或不是两种可能。

  • 多分类(Multi-Class Classification):

        表示分类任务中有多个类别。多分类是假设每个样本都被设置了一个且仅有一个标签:一个水果可以是苹果或者梨,但是同时不可能是两者。在多分类中,我们可以使用一些常见的算法来进行分类,如决策树、随机森林等。例如,对一堆水果图片进行分类,它们可能是橘子、苹果、梨等,这就是一个多分类问题。

  • 多标签分类(Multi-Label Classification):

        给每个样本一系列的目标标签,可以想象成一个数据点的各属性不是相互排斥的。多标签分类的方法分为两种,一种是将问题转化为传统的分类问题,二是调整现有的算法来适应多标签的分类。例如,一个文本可能被同时认为是宗教、政治、金融或者教育相关的话题,这就是一个多标签分类问题,因为一个文本可以同时有多个标签。

2、回归和分类的原理

线性回归 vs 逻辑回归

(1)回归(Regression)的原理

通过建立自变量和因变量之间的数字模型来探究它们之间的关系。

线性回归

线性回归(Linear Regression):求解权重(w)和偏置(b)的主要步骤。

求解权重(w)和偏置(b)

  • 初始化权重和偏置:为权重w和偏置b选择初始值,并准备训练数据x和标签y
  • 定义损失函数:选择一个损失函数(如均方误差)来衡量模型预测与实际值之间的差距。
  • 应用梯度下降算法:使用梯度下降算法迭代更新wb,以最小化损失函数,直到满足停止条件。

梯度下降算法迭代更新 w 和 b

  • 获取并验证最终参数:当算法收敛时,得到wb,并在验证集上检查模型性能。
  • 构建最终模型:使用最终的wb构建线性回归模型,用于新数据预测。

新数据预测

(2)分类(Classification)的原理

根据事物或概念的共同特征将其划分为同一类别,而将具有不同特征的事物或概念划分为不同类别。

逻辑回归

逻辑回归(Logistic Regression):通过sigmoid函数将线性回归结果映射为概率的二分类算法。

  • 特征工程:转换和增强原始特征以更好地表示问题。
  • 模型建立:构建逻辑回归模型,使用sigmoid函数将线性组合映射为概率。
  • 模型训练:通过优化算法(如梯度下降)最小化损失函数来训练模型。
  • 模型评估:使用验证集或测试集评估模型的性能。
  • 预测:应用训练好的模型对新数据进行分类预测。

猫狗识别

3、回归和分类的算法

(1)回归(Regression)的算法

主要用于预测数值型数据。

  1. 线性回归(Linear Regression):这是最基本和常见的回归算法,它假设因变量和自变量之间存在线性关系,并通过最小化预测值和实际值之间的平方差来拟合数据。
  2. 多项式回归(Polynomial Regression):当自变量和因变量之间的关系是线性的,可以使用多项式回归。它通过引入自变量的高次项来拟合数据,从而捕捉非线性关系。
  3. 决策树回归(Decision Tree Regression):决策树回归是一种基于树结构的回归方法,它通过构建决策树来划分数据空间,并在每个叶节点上拟合一个简单的模型(如常数或线性模型)。决策树回归易于理解和解释,能够处理非线性关系,并且对特征选择不敏感。
  4. 随机森林回归(Random Forest Regression):随机森林回归是一种集成学习方法,它通过构建多个决策树并将它们的预测结果组合起来来提高回归性能。随机森林回归能够处理高维数据和非线性关系,并且对噪声和异常值具有一定的鲁棒性。

(2)分类(Classification)的算法

主要用于发现类别规则并预测新数据的类别。

  1. 逻辑回归(Logistic Regression):尽管名字中有“回归”,但实际上逻辑回归是一种分类算法,常用于二分类问题。它通过逻辑函数将线性回归的输出映射到(0,1)之间,得到样本点属于某一类别的概率。在回归问题中,有时也使用逻辑回归来处理因变量是二元的情况,此时可以将问题看作是对概率的回归。
  2. 支持向量机(SVM):支持向量机是一种基于统计学习理论的分类算法。它通过寻找一个超平面来最大化不同类别之间的间隔,从而实现分类。SVM在高维空间和有限样本情况下表现出色,并且对于非线性问题也可以使用核函数进行扩展。
  3. K最近邻(KNN):K最近邻是一种基于实例的学习算法,它根据输入样本的K个最近邻样本的类别来确定输入样本的类别。KNN算法简单且无需训练阶段,但在处理大规模数据集时可能效率较低。
  4. 朴素贝叶斯分类器:朴素贝叶斯是一种基于贝叶斯定理的分类算法,它假设特征之间相互独立(即朴素假设)。尽管这个假设在实际应用中往往不成立,但朴素贝叶斯分类器在许多领域仍然表现出色,尤其是在文本分类和垃圾邮件过滤等方面。

参考:架构师带你玩转AI

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/793853.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端全方位进阶课程已经备好,陪你挑战年薪20w以上!

到目前为止我在视频号上已经顺利完成8场直播了。在此,我也很真诚的感谢小伙伴们对我的支持与厚爱!让我真真感受到了大家对技术的热忱! 这几场直播下来给我最直接的感受就是:累,很累!准确的说不应该是直播累…

Vue3(学自尚硅谷)

一、基础准备工作 (一)过程 环境要求:有node.js环境、npm。执行命令: npm create vuelatest 而后选择: ✔ 请输入项目名称: … me_vue3 ✔ 是否使用 TypeScript 语法? … 否 / 是 ✔ 是否启用…

干货| 这篇电商数据分析案例一定要看!

主流电商商品数据采集API接口 直播带货行业在经历了高端玩家的“春秋争霸”之后,逐渐进入到了一种“网红化”的阶段。人们正在将注意力从原来凤毛麟角的直播巨头逐渐转移到一些小主播身上。但近短时间却出现了网红带货营销额放缓的现象。因此商家必须要调整直播策略…

探索ChatGPT的学术应用:写出优质论文的突破之道

ChatGPT无限次数:点击直达 探索ChatGPT的学术应用:写出优质论文的突破之道 在当今信息爆炸的时代,人们对于文本生成和语言处理的需求越来越迫切。ChatGPT作为一种强大的自然语言处理模型,已经引起了广泛关注,并在实践中展现了其强…

【数据库】数据库的介绍、分类、作用和特点,AI人工智能数据如何存储

欢迎来到《小5讲堂》,大家好,我是全栈小5。 这是《数据库》系列文章,每篇文章将以博主理解的角度展开讲解, 特别是针对知识点的概念进行叙说,大部分文章将会对这些概念进行实际例子验证,以此达到加深对知识…

从 Vue.js 到微信小程序 - 框架语法差异与开发技巧

作为一名有 Vue 开发经验的开发者,如果想快速掌握小程序开发,需要了解 Vue 和小程序在设计上的主要差异,这样可以更好地过渡和适应小程序的开发模式。以下是我总结的几个重点: 页面定义: Vue 中使用 .vue 文件定义页面,包含模板、脚本和样式。小程序中使用三个文件定义页面:WXM…

磁力链接的示例与解释

磁力链接(Magnet URI scheme)是一种特殊类型的统一资源标识符(URI),它包含了通过特定散列函数(如SHA-1)得到的文件内容的散列值,而不是基于位置或名称的引用。这使得磁力链接成为在分…

C++ templates: (4)、引用折叠

引用折叠(Reference collapsing)是C11中引入的一种规则,用于处理函数模板参数的类型和值完全匹配的情况。当一个非const左值引用和一个右值引用绑定到同一块内存时,引用折叠会发生。 引用折叠的规则如下: 如果两个引…

互联网轻量级框架整合之JavaEE基础II

编写本篇代码并实际执行之前请仔细阅读前一篇互联网轻量级框架整合之JavaEE基础I Servlet 在Servlet容器中,Servlet是最基础的组件,也可以把JSP当做Servlet,JSP的存在意义只在于方便编写动态页面,使Java语言能和HTML相互结合&…

数字转型新动力,开源创新赋能数字经济高质量发展

应开放原子开源基金会的邀请,软通动力董事、鸿湖万联董事长黄颖基于对软通动力开源战略的思考,为本次专题撰文——数字转型新动力,开源创新赋能数字经济高质量发展。本文首发于2023年12月12日《中国电子报》“开源发展与开发者”专题第8版。以…

产品推荐 | 中科亿海微推出亿迅®A8000金融FPGA加速卡

01、产品概述 亿迅A8000金融加速卡,是中科亿海微联合金融证券领域的战略合作伙伴北京睿智融科,将可编程逻辑芯片与金融行业深度结合,通过可编程逻辑芯片对交易行情加速解码,实现低至纳秒级的解码引擎,端到端的处理时延…

谷歌(Google)技术面试——在线评估问题(四)

谷歌(Google)面试过程的第一步,你可能会收到一个在线评估链接。 评估有效期为 7 天,包含两个编码问题,需要在一小时内完成。 以下是一些供你练习的在线评估问题。 在本章结尾处,还提供了有关 Google 面试不…

Linux gcc day3

find命令(importance): 语法:find pathname -options find /root -name test.c which命令: which [指令] 只搜索指令,在什么位置下 为什么文件夹带有颜色呢? 科普补充alias命令: ali…

C++:赋值运算符(17)

赋值也就是将后面的值赋值给变量,这里最常用的就是 ,a1那么a就是1,此外还包含以下的赋值运算 等于int a 1; a10 a10加等于int a 1; a1;a2-减等于int a 1; a-1;a0*乘等于int a 2; a*5;a10/除等于int a 10; a/2;a5%模等于int a 10; a%…

kafka集群介绍+部署Filebeat+Kafka+ELK

一、消息队列 1、为什么需要消息队列(MQ) 主要原因是由于在高并发环境下,同步请求来不及处理,请求往往会发生阻塞。比如大量的请求并发访问数据库,导致行锁表锁,最后请求线程会堆积过多,从而触…

题目:求一个3*3矩阵对角线元素之和

题目:求一个3*3矩阵对角线元素之和 There is no nutrition in the blog content. After reading it, you will not only suffer from malnutrition, but also impotence. The blog content is all parallel goods. Those who are worried about being cheated shoul…

Mac电脑清理垃圾软件 Mac电脑清理垃圾的文件在哪 cleanMyMac X 4.8.0激活号码

Mac用户经常会有这样一些烦恼,比如软件之间的管理,应用生成的缓冲文件怎样删除,还有软件的卸载等等... 如何有效清理Mac中的垃圾文件,删除多余的软件成为Mac用户迫切的需求。本文就为大家介绍几款好用的Mac电脑清理垃圾软件&#…

在线考试|基于Springboot的在线考试管理系统设计与实现(源码+数据库+文档)

在线考试管理系统目录 目录 基于Springboot的在线考试管理系统设计与实现 一、前言 二、系统设计 三、系统功能设计 1、前台: 2、后台 管理员功能 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主…

Redis中的Sentinel(二)

Sentinel 初始化Sentinel状态。 在应用了Sentinel的专用代码之后,接下来,服务器会初始化一个sentinel.c/sentinelState结构(简称Sentinel状态),这个结构 保存了服务器中所有和Sentinel功能有关的状态(服务器的一般状态仍然由redis.h/redisServer保存);…

SaaS 电商设计 (十) 记一次 5000kw 商品数据ES迁移 (详细的集群搭建以及线上灰度过程设计)

目录 一.背景二.技术目标三.技术方案3.1 整体流程3.2 ES 切换前:完成整体新集群的搭建.i:拓扑结构设计ii: 如何选择整体的 **ES** 集群配置. 3.3 **ES** 版本切换中3.3.1 多client版本兼容3.3.2 Router的设计 3.4 ES 切换后3.5 开箱即用3.5.1 开箱使用 demo 演示3.5.2 使用过程…