信息检索与数据挖掘 | （十）线性回归与逻辑回归

信息检索与数据挖掘 | （十）线性回归与逻辑回归

news/2025/4/26 12:51:46/文章来源:https://blog.csdn.net/m0_63398413/article/details/135757428

文章目录

📚线性回归算法流程
📚Bias and variance
📚过拟合&欠拟合
📚逻辑回归算法流程

📚线性回归算法流程

y=b+w·x
使用loss function L来评估函数的好坏
从而我们要选择使L最小的模型参数w,b

在这里插入图片描述

使用梯度下降的方法
从而求导得：

📚Bias and variance

error原因——bias（模型偏差）和variance（数据方差）:

数学原理：
- 随机变量x的均值为 $\mu$ ，方差为 $\sigma^2$
- 随机采样N个点，其均值不等于 $\mu$ ，但是期望等于 $\mu$ ，是无偏的 ，均值的方差是 $\sigma^2/N$
- N个点的方差记为 $s^2$ ,方差的期望为 $(N-1)/N·\sigma^2$ ，不等于 $\sigma^2$
- 用bias表示整体距离实际值的距离，用variance表示点的分散程度

在这里插入图片描述

每次采样一个训练集，训练一个模型，采样100次

简单模型：模型直接的variance很小，但是bias可能略大

复杂模型：variance很大，但是bias会小

模型会更拟合数据点，各个模型直接的差别很大，所以简单的模型受采样数据的影响更小

模型分析：
- 我们对每个模型f*取均值，看是否接近真实的模型f，如果差得远，则bias大，接近则bias小
- 大bias小variance可能是欠拟合，而小bias大variance可能是过拟合。
- 如果数据无法很好的拟合训练集，则会有大bias，欠拟合；如果可以很好拟合训练集，但是在测试集上表现不好，会有大的variance，过拟合。
解决方法：
- 对于大bias欠拟合来说，可以重新选择模型，增加输入特征，或者是使用更复杂的模型，或者进行交叉验证
- 对于大variance过拟合来说，可以增加数据集的数量，或者是引入正则项
- 在bias和variance之间存在trade-off，可以选择模型使得total-error最小即可。

📚过拟合&欠拟合

欠拟合：
- 定义：模型无法捕捉数据中的规律和复杂性，表现为训练误差和测试误差都较高。
- 原因：模型的复杂度不够，无法很好地拟合数据。
- 解决方法：提高模型复杂度、增加特征数量、增加模型的学习能力等。
过拟合：
- 定义：模型过度拟合了训练数据的噪声和细节，表现为在训练集上表现良好，在测试集上表现较差。
- 原因：模型复杂度过高，导致模型过度适应训练数据的特征和噪声。
- 解决方法：降低模型复杂度、增加数据量、采用正则化方法（如L1、L2正则化）等。
改进方法：
- 交叉验证：通过交叉验证来选择合适的模型复杂度，同时避免过拟合和欠拟合。
- 特征选择：选取对模型预测有用的特征，在避免过多无用特征的情况下，消除噪声的影响。
- 正则化：通过L1或L2正则化，限制模型参数的大小，防止模型过拟合。
- 增加数据量：增加数据量可以帮助模型更好地捕捉数据的规律，减少模型的过拟合情况。
- 集成学习：使用集成学习方法，如bagging、boosting等，可以在一定程度上减小模型的过拟合风险。

关于交叉验证
- 交叉验证是一种评估模型性能和泛化能力的统计学方法。它通过反复地将数据集划分为训练集和验证集，在训练集上训练，在验证集上测试，来评估模型的性能。
- 常见的交叉验证方法包括k折交叉验证、留一交叉验证等。在k折交叉验证中，数据集被随机分成k个大小相似的互斥子集，每个子集都尽可能保持数据分布的一致性。然后，进行k次模型训练和测试，每次选择一个子集作为验证集，其余的k-1个子集作为训练集，取结果最好的作为最终模型。
- 交叉验证的目的是：
  - 评估模型的性能：通过交叉验证，可以更准确地评估模型的性能，而不会受到单次划分数据带来的偶然性影响。
  - 泛化能力：交叉验证可以更好地评估模型的泛化能力，即模型对未见过的数据的适应能力。
  - 另外，对于数据较少的情况下，交叉验证可以最大限度地利用有限的数据，减小因训练集和测试集的划分不同导致评估性能的差异。在模型选择以及调参时也非常有用，可以帮助选择最优模型并提高模型的性能。

📚逻辑回归算法流程

分类即输入一个样本，判断其类别，损失函数为：
使用sigmoid函数，将概率划分到[0,1]之间：
使用交叉熵损失函数的方法找到最优的w和b，便于求导取-log，乘积变为求和：
然后将f函数全部代回对w求导找最优解,求导后的结果为：
求导之后可知f=1，y=1时，f=0，y=0时cross Entropy最小，从而wx->正无穷，y=1，wx->负无穷，y=0

使用逻辑回归进行多分类的话，sigmoid函数变为：
所有的y求和为1，y表示第i类的概率，是softmax操作，softmax就是把一些输入映射为0-1之间的实数，并且归一化保证和为1。
逻辑回归只能对线性可分的数据有闭式解，对于线性不可分的数据分类能力很差，可以进行特征转化，从原特征映射到新的特征空间，然后在新的特征空间进行分类。

在这里插入图片描述

⭐️补充博客

单变量线性回归
多变量线性回归
逻辑回归
优化算法 | 评估方法

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/643555.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

所有博客导航--总结

所有博客导航--总结

一、Java相关知识点 1.Java 2实用教程-输入输出数据 2.Java 2实用教程-类型转换运算 3.Java 2实用教程-基本数据类型 4.Java 2 实用教程-标识符与关键字 5.java 2 实用教程-数组 1.基本数据类型与数组第一节 2.基本数据类型与数组第二节 6.Java 2实用教程-运算符与表达…

阅读更多...

JAVA 学习面试（六）数据类型与方法

JAVA 学习面试（六）数据类型与方法

数据类型基本数据类型为什么float3.4报错 3.4 默认是浮点double类型的，如果赋值给float是向下转型，会出现精度缺失，，需要强制转换 Switch支持的数据类型？ byte、short、int、char 、 enum 、 String 基本类型与包…

阅读更多...

openssl加解密和签名验签步骤操作记录

openssl加解密和签名验签步骤操作记录

文章目录一、AES加解密操作1.1 EBC模式1.2 CBC模式二、RSA加解密操作三、RSA 加解密和 AES 加解密对比四、RSA签名和验签操作一、AES加解密操作 1.1 EBC模式使用 OpenSSL 进行 AES 的 ECB（电子密码本）模式加解密相对简单。以下是基本步骤&#xff…

阅读更多...

trino-435: trino接入TIDB数据源

trino-435: trino接入TIDB数据源

文章目录一、TIDB介绍二、TIDB源接入流程三、遇到的错误1、数据源注册：2、查询表数据一、TIDB介绍二、TIDB源接入流程三、遇到的错误 1、数据源注册： http://localhost:8080/v1/catalog/register?name=tidb_test {"connector.name":"tidb",&quo…

阅读更多...

SpringBoot整合QQ邮箱发送验证码

SpringBoot整合QQ邮箱发送验证码

一、QQ开启SMTP 打开QQ邮箱，点击设置，进入账号，往下滑后，看见服务状态后，点击管理服务进入管理服务后，打开服务，然后获取授权码二、导入依赖 <dependency>&…

阅读更多...

php低版本（7.4）配置过程中遇到的问题及基本解决手段

php低版本（7.4）配置过程中遇到的问题及基本解决手段

目前php不支持较低版本的安装，如果安装低版本必须借助第三方库shivammathur //将第三方仓库加入brewbrew tap shivammathur/php //安装PHPbrew install shivammathur/php/php7.4 可能出现的问题像这样突然中止然后报错，一般是网络问题，或…

阅读更多...

Random Sprays Retinex 传统的图像增强算法RSR

Random Sprays Retinex 传统的图像增强算法RSR

文章目录前言1、Random Sprays Retinex 概况2、Random Sprays Retinex 具体实现2.1、喷雾的生成2.2、径向密度函数的确定2.3、像素的选择2.4、亮度的计算2.5、参数的调整 3、Random Sprays Retinex 算法效果的表现4、Random Sprays Retinex 现存的问题前言 Random Spray Reti…

阅读更多...

C++面试宝典第24题：袋鼠过河

C++面试宝典第24题：袋鼠过河

题目一只袋鼠要从河这边跳到河对岸，河很宽，但是河中间打了很多桩子。每隔一米就有一个桩子，每个桩子上都有一个弹簧，袋鼠跳到弹簧上就可以跳得更远。每个弹簧力量不同，用一个数字代表它的力量，如果弹簧力量为5，就代表袋鼠下一跳最多能够跳5米；如果为0，就会陷进去无法…

阅读更多...

代码中遇到的问题2

代码中遇到的问题2

目录记录: 好处： 问题一： 解答: 问题二: 解答: 常见类型问题: 记录: string connStr ConfigurationManager.ConnectionStrings["connStr"].ConnectionString; 在代码中写上这段代码，将连接数据库的代码语句放到&#xff…

阅读更多...

旅游MR混合现实情景实训教学系统教学

旅游MR混合现实情景实训教学系统教学

一、MR混合现实情景实训教学系统的优点真实场景模拟：通过MR技术，学生可以在虚拟环境中模拟真实的旅游场景，如酒店、景区、交通工具等，以便更好地理解和掌握相关知识。高度互动性：学生可以在虚拟环境中进行实际操作&a…

阅读更多...

【issue-halcon例程学习】edges_color.hdev

【issue-halcon例程学习】edges_color.hdev

例程功能演示如何使用edges_color，展示只能从彩色图像中提取某些边缘的图像，说明edges_color和edges_image输出之间的差异。代码如下 dev_update_off () read_image (Image, olympic_stadium) get_image_size (Image, Width, Height) dev_close_wind…

阅读更多...

关于在微信小程序中使用taro + react-hook后销毁函数无法执行的问题

关于在微信小程序中使用taro + react-hook后销毁函数无法执行的问题

问题： 在 taro中使用navigageTo() 跳转路由后hook中useEffect 的return函数没有执行没有执行return函数框架版本： tarojs: 3.6 react: 18.0 原因： 使用navigateTo() 跳转路由的话并不会销毁页面和组件，会加入一…

阅读更多...

性能优化-OpenCL运行时API介绍

性能优化-OpenCL运行时API介绍

「发表于知乎专栏《移动端算法优化》」本文首先给出 OpenCL 运行时 API 的整体编程流程图，然后针对每一步介绍使用的运行时 API，讲解 API 参数，并给出编程运行实例。总结运行时 API 使用的注意事项。最后展示基于 OpenCL 的图像转置代码。在…

阅读更多...

L1-093 猜帽子游戏(Java)

L1-093 猜帽子游戏(Java)

宝宝们在一起玩一个猜帽子游戏。每人头上被扣了一顶帽子，有的是黑色的，有的是黄色的。每个人可以看到别人头上的帽子，但是看不到自己的。游戏开始后，每个人可以猜自己头上的帽子是什么颜色，或者可以弃权不猜。如果没有…

阅读更多...

17β-Estradiol high sensitivity ELISA kit

17β-Estradiol high sensitivity ELISA kit

高灵敏ELISA试剂盒，可检测到低至14 pg/ml的17β-雌二醇雌二醇(estradiol) 是由卵巢内卵泡的颗粒细胞分泌的类固醇激素，是主要的雌激素，负责调节女性特征、附属性器官的成熟和月经-排卵周期，促进乳腺导管系统的产生，有…

阅读更多...

JanusGraph图数据库的应用以及知识图谱技术介绍

JanusGraph图数据库的应用以及知识图谱技术介绍

目录 JanusGraph介绍 JanusGraph 的主要优势 JanusGraph的应用： JanusGraph 的行业应用： 架构概览分布式技术应用横向扩展能力程序与janus的交互 Janus与图数据库相关概念结构化存储图结构存储实体关系存储知识存储技术 JanusGraph介…

阅读更多...

软考案例分析题万金油汇总

软考案例分析题万金油汇总

目录二、范围管理存在的问题三、变更管理可能存在的问题四、招标问题五、风险管理可能存在的问题六、采购管理中存在的问题七、配置管理可能出现的问题八、配置管理混乱和配置管理相关案例回答九、项目收尾可能存在的问题十、人力资源管理存在的问题十一、…

阅读更多...

【MySQL】体系结构

【MySQL】体系结构

文章目录体系结构图存储引擎查询建表语句查看当前数据库可支持的存储引擎InnoDB逻辑存储结构架构内存结构磁盘结构体系结构图体系结构说明连接层最上层是一些客户端和链接服务，主要完成一些类似于连接处理、授权认证、及相关的安全方案。服务器也会为安全接入的每个客户端…

阅读更多...

【大数据精讲】全量同步与CDC增量同步方案对比

【大数据精讲】全量同步与CDC增量同步方案对比

目录背景名词解释问题与挑战 FlinkCDC DataX 工作原理调度流程五、DataX 3.0六大核心优势性能优化背景名词解释 CDC CDC又称变更数据捕获（Change Data Capture），开启cdc的源表在插入INSERT、更新UPDATE和删除DELETE活动时…

阅读更多...

08-微服务Seata分布式事务使用

08-微服务Seata分布式事务使用

一、分布式事务简介 1.1 概念事务ACID： A（Atomic）：原子性，构成事务的所有操作，要么都执行完成，要么全部不执行，不可能出现部分成功部分失败的情况。 C（Consistency&…

阅读更多...

最新文章