机器学习-Basic Concept

机器学习(Basic Concept)

videopptblog

Where does the error come from?

在前面我们讨论误差的时候,我们提到了Average Error On Testing Data是最重要的
A more complex model does not lead to better performance on test data

Bias And Variance

Bias And Variance

Bias(偏差)

偏差指的是模型在训练过程中对于真实关系的错误假设或简化程度。当模型具有较高的偏差时,它倾向于对问题进行过于简单的建模,从而忽略数据中的一些复杂特征或模式。这可能导致模型在训练数据上表现较差,并且很可能在测试数据上也表现不佳,即出现欠拟合的现象。通常,高偏差的模型过于刚硬,难以适应数据的变化和复杂性.
偏差:整体预测值与真实值之间的误差,具体表现为预测的整体与正确预测的偏离程度。

Variance(方差)

方差指的是模型在不同训练集上预测结果的变化程度。当模型具有较高的方差时,它对于训练数据中的噪声和随机性非常敏感,从而导致在不同的训练集上表现差异较大。这可能表现为在训练数据上表现很好,但在测试数据上表现较差的现象,即出现过拟合。过拟合意味着模型过于复杂,过于适应训练数据的细节,而无法很好地泛化到新数据。
方差:预测值离期望值的距离,具体表现为数据的分散程度。

Bias And Variance
简介
来源

多项式拟合次数模型复杂度方差偏差过/欠拟合
欠拟合
适度
过拟合

在这里插入图片描述

区别:

  • 偏差关注的是模型对问题的刻画能力,即是否能够捕捉到数据的真实规律,过高的偏差导致欠拟合。
  • 方差关注的是模型对训练数据的敏感性,即是否过度适应了训练数据,导致在新数据上泛化能力差,过高的方差导致过拟合。
  • 偏差和方差都是希望降低的,因为它们都可能导致模型在不同情况下表现不佳。优化模型的目标是在偏差和方差之间找到一个平衡点,从而提高模型的泛化能力。

Picture

Noise(噪声)

噪声指的是数据中的随机性和不可预测性,它来源于许多现实世界的因素,比如测量误差、数据收集的不完美等。噪声是不可避免的,并且可能会对模型的性能产生影响。机器学习的目标是找到真实关系,并尽可能减少噪声的影响。模型的偏差和方差会影响其对噪声的敏感性。

在模型优化过程中,通常通过调整模型的复杂度(例如,增加或减少特征、调整模型的深度和宽度等)来平衡偏差和方差。较复杂的模型可能会降低偏差但增加方差,而简单的模型则相反。同时,采用交叉验证等技术来评估模型的性能,以便更好地理解模型的泛化能力。

在这里插入图片描述

The Balence Between Bia And Variance

Balence

Underfitting

Due To Large Bias
欠拟合是指模型在训练数据上表现不佳,无法很好地捕捉数据中的模式和关系。
一般原因:模型过于简单,数据集中,与真实值误差较大

  • redesign your model:
  • Add more features as input
  • A more complex model

Overfitting

Due To Large Variance
过拟合是指模型在训练数据上表现优秀,但在未见过的新数据上表现不佳。
一般原因:模型过于复杂,整体数据偏差较小,预测值较为分散

  • More data(Very effective,but not always practical)
  • Regularization(Make your function more smooth)

Cross Validation

交叉验证(Cross-validation)是机器学习中一种常用的技术,用于评估模型的性能和泛化能力。它帮助我们检验模型在未见过的数据上的表现,并提供比单一训练集和测试集划分更可靠的性能评估。
基本思想:将数据集进行划分,如何使用这些数据集多次进行模型训练和测试。
步骤:

  1. 数据划分:将整个数据集随机分成K个子集(折叠),每个子集的大小大致相等。
  2. 训练与验证:对于每个折叠,使用K-1个子集作为训练集,剩余的一个子集作为验证集。
  3. 性能指标:用选定的评估指标(如准确率、均方误差等)在验证集上评估模型的性能。
  4. 平均性能:将K次验证得到的性能指标取平均,得到模型的整体性能评估结果。
N-fold Cross Validation

在N折交叉验证中,将数据集划分为N个子集,每个子集只包含一个样本。然后,依次将每个子集作为验证集,其他N-1个子集作为训练集进行模型训练和验证。这样,每个样本都将作为单独的验证集,并且模型将在所有样本上进行N次训练和验证。
步骤:

  1. 将数据集划分为N个子集,每个子集只包含一个样本。
  2. 对于每个子集,将其作为验证集,其他N-1个子集作为训练集。
  3. 在训练集上训练模型,并在验证集上进行性能评估。
  4. 重复步骤2和3,直到所有子集都被用作验证集。
  5. 计算N次验证的性能指标的平均值,得到模型的性能评估结果。

Cross Validation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/20622.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

re学习(26)攻防世界-re-BABYRE(IDA无法分析出函数-代码混淆)

题目链接:https://adworld.xctf.org.cn/challenges/list elf是一种对可执行文件,目标文件和库使用的文件格式,跟window下的PE文件格式类似。载入IDA后如果需要对此文件进行远程调试,需要用linux系统,比如说Ubuntu&…

【机器学习】西瓜书学习心得及课后习题参考答案—第3章线性模型

过了一遍第三章,大致理解了内容,认识了线性回归模型,对数几率回归模型,线性判别分析方法,以及多分类学习,其中有很多数学推理过程以参考他人现有思想为主,没有亲手去推。 术语学习 线性模型 l…

排序八卦炉之冒泡、快排

文章目录 1.冒泡排序1.1代码实现1.2复杂度 2.快速排序2.1人物及思想介绍【源于百度】2.2hoare【霍尔】版本1.初识代码2.代码分析3.思其因果 3.相关博客 1.冒泡排序 1.1代码实现 //插入排序 O(N)~O(N^2) //冒泡排序 O(N)~O(N^2) //当数据有序 二者均为O(N) //当数据接近有序或…

【多模态】ALIGN——使用噪声文本数据进行视觉语言感知预训练

ALIGN: A Large-scale ImaGe and Noisy-text embedding 目录 🍭🍭1.网络介绍 🍭🍭2.大规模噪声图像文本数据集 🐸🐸2.1图像过滤器 🐸🐸2.2文本过滤器 🍭&#x1f3…

Bean的实例化方法

目录 1.工厂模式通常有三种形态: 2.简单工厂 2.1 静态工厂 2.1通过factory-bean实例化 2.3通过FactoryBean接口实例化 3.测试 关于容器的使用 3.1获得spring文件方式 3.2getBean方式 4.关闭容器 1.工厂模式通常有三种: 第一种:简单工…

利用鸿鹄快速构建公司IT设备管理方案

需求描述 相信应该有一部分朋友跟我们一样,公司内部有很多各种各样的系统,比如资产管理、CRM、issue管理等等。这篇文章介绍下,鸿鹄是如何让我们的资产系统,按照我们的需求展示数据的。 我们的资产管理系统,是使用开源…

Go语音介绍

Go语言介绍 Go 即Golang,是Google公司2009年11月正式对外公开的一门编程语言。 Go是静态强类型语言,是区别于解析型语言的编译型语言。 解析型语言——源代码是先翻译为中间代码,然后由解析器对代码进行解释执行。 编译型语言——源代码编…

Vue3描述列表(Descriptions)

😁 整体功能效果与 ant design vue 保持高度一致 😁 包含两种组件:Descriptions 和 DescriptionsItem(必须搭配使用!) 效果如下图:在线预览 APIs Descriptions 参数说明类型默认值必传title…

删除注释(力扣)

删除注释 题目 给一个 C 程序,删除程序中的注释。这个程序source是一个数组,其中source[i]表示第 i 行源码。 这表示每行源码由 ‘\n’ 分隔。 在 C 中有两种注释风格,行内注释和块注释。 字符串// 表示行注释,表示//和其右侧…

冒泡排序【Java算法】

文章目录 1. 概念2. 思路3. 代码实现 1. 概念 比较前后相邻的两个数据,如果前面数据大于后面的数据,就将这两个数据互换。这样对数组的第0个数据到第 N - 1 个数据进行一次遍历后,最大的一个数据就 “沉” 到数组的第 N - 1 个位置。 N N - …

知识区博主转型——兼做知识区和改造区博主!!!!!

想脱单的进来,一起交流如何能脱单!!! 为什么——我太羡慕有对象的人了哭死!!!!!! 你是不是很羡慕别人怎么都有女朋友 别人家的女朋友怎么都那么好&#xff…

FPGA学习—通过数码管实现电子秒表模拟

文章目录 一、数码管简介二、项目分析三、项目源码及分析四、实现效果五、总结 一、数码管简介 请参阅博主以前写过的一篇电子时钟模拟,在此不再赘述。 https://blog.csdn.net/qq_54347584/article/details/130402287 二、项目分析 项目说明:本次项目…

RISCV 5 RISC-V调用规则

RISCV 5 RISC-V调用规则 1 Register Convention1.1 Integer Register Convention1.2 Floating-point Register Convention 2. Procedure Calling Convention2.1 Integer Calling Convention2.2 Hardware Floating-point Calling Convention2.3 ILP32E Calling Convention2.4 Na…

大数据课程F4——HIve的其他操作

文章作者邮箱:yugongshiyesina.cn 地址:广东惠州 ▲ 本章节目的 ⚪ 掌握HIve的join; ⚪ 掌握HIve的查询和排序 ⚪ 掌握HIve的beeline ⚪ 掌握HIve的文件格式 ⚪ 掌握HIve的基本架构 ⚪ 掌握HIve的优化; 一、jo…

想了解好用的翻译pdf的软件吗?

在全球化的时代背景下,跨国贸易越来越普遍,跨语言沟通也越来越频繁。小黄是一家跨国公司的员工,他梦想能在全球各地拓展自己的业务,奈何遇到了一个巨大的挑战:跨语言沟通。在这其中,pdf文件是他经常接收到的…

linux基本功系列之cd命令实战

文章目录 前言一. cd命令的介绍二. 语法格式及常用选项三. 参考案例总结 前言 居然发现了落下了CD命令,也不算落下把,主要是cd命令内容太少,撑不起一篇文章,今天也写一写,就当记个笔记吧 🏠个人主页&#…

ubuntu下,在vscode中使用platformio出现 Can not find working Python 3.6+ Interpreter的问题

有一段时间没有使用platformio了,今天突然使用的时候,发现用不了,报错: Ubuntu PlatformIO: Can not find working Python 3.6 Interpreter. Please install the latest Python 3 and restart VSCode。 上网一查,发现…

【Liux下6818开发板(ARM)】触摸屏

(꒪ꇴ꒪ ),hello我是祐言博客主页:C语言基础,Linux基础,软件配置领域博主🌍快上🚘,一起学习!送给读者的一句鸡汤🤔:集中起来的意志可以击穿顽石!作者水平很有限,如果发现错误&#x…

MacOS上用docker运行mongo及mongo-express

MongoDB简介 MongoDB 是一个基于分布式文件存储的数据库。由 C 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。 MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。 前提 要求…

高校陆续拥抱chatgpt,人工智能会给学术带来什么变化会有什么影响

在当今信息爆炸的时代,人工智能在各行各业都发挥着越来越重要的作用,高校教育领域也不例外。最近,越来越多的高校开始陆续拥抱chatgpt(Chatbot GPT)这一人工智能技术,在学术领域会带来了怎样的变化与影响&a…