1.监督学习(上)

一.线性回归(Linear Regression Model):

输出无限多可能的数字

【示例1】房价预测:

【图一】 

  • 假设您想根据房屋的大小预测房屋的价格,横轴:以平方英尺为单位的房屋大小,纵轴:是以千美元为单位的房屋价格。这里的小十字字中的每一个都是一所房子,其大小和价格是最近出售的。假设你是房地产经理,客户问你某个房子的价格可以出售多少钱,该数据集可能会帮助你估算一个大概价格,测量房子的大小,结果房子是1250平方英尺,这样,你可以在该数据集构建一个线性回归模型,这个模型将数据拟合一条直线,它可能看起来如蓝色的线一般;从而根据这条与数据拟合的直线,可以看到房子1250平方英尺处与最佳拟合线相交,沿着左边的垂直轴追踪得到价格也许在220,000美元。
  • 称之为监督学习,因为首先通过提供具有正确答案的数据来训练模型。因为先获得房屋模型示例(大小以及模型)应为每栋房屋预测的价格。也就是说为数据集中的每个房子都给出了正确答案。
  • 这种线性回归模型是一种特殊类型的监督学习模型,称为线性回归,因为预测数字作为输出,如美元价格;任何预测如220,000或1.5或负数33.2之类的数字的监督学习模型都在解决所谓的回问题
  • 数据可视化图可以是左侧也可以是右侧。右侧的数据表中假如有47行,那么在左图上就有47个十字,每一个X对应表格的一行。

1.概念:

  • 训练集:用于训练模型的数据集;
    • 比如:上图的数据价格和尺寸,请注意,客户的房子不在此数据集中,因为它尚未售出,所以没有人知道价格是多少,要预测客户的房价,首先训练模型以从训练集中学习,然后该模型可以预测客户的房价。
  • 输入变量(或特征):房屋尺寸表示输入的标准符号是小写的x;
    • 例:对于训练集中的第一个房子,x是房子的大小,因此x=2104;
  • 输出变量(目标变量):尝试预测的输出变量的标准符号是小写的y;
    • 例:输出的y=400,也就是房子价格

        数据集中每栋房子一行,在这个训练集中,有47行,每一行代表一个不同的训练示例。m=47表示训练示例总数,(x,y)表示单个训练示例.引用一个具体的训练例子,这会对应【图一】中的右图,

例:(x^(1),y^(1))=(2104,400)指第一个训练模型;

2.工作原理:

  • 监督学习训练集包括输入特征(例如房屋大小)和输出目标(例如房屋价格),输出目标是我们将从中学习的模型的正确答案,要训练模型,需要训练集(包括输入特征和输出目标)提供给的学习算法,然后监督学习算法就会产生一些功能,我们将这个函数写出小写的f:代表函数;历史上,这个函数曾经被称为假设。
  • f的工作是采用新的输入x和输出并进行估计和预测,将其称为y-hat,它的写法类似于顶部带有这个小帽子符号的变量;机器学习中是估计或预测的,f为模型,x为输入/输入特征,模型的输出是预测。所以模型的预测是y的估计值。
  • 模型f在给定大小的情况下,输出作为估算器的价格,即对真实价格的预测。

【注意】只有字母y时,指目标,即训练集中的实际真实值,相反或y-hat是一个估计值,可能不是一个实际的真实值

2.1.公式:

  • 设计算法时,如何表示函数f/计算f的数学公式是什么?
    • 现在让我们坚持f是一条直线,函数可以写成,但现在,只知道w和b是数字,为w和b选择的值将根据输入特征x确定预测y-hat,所以f、w、b、x意味着f是一个以x作为输入的函数,并且根据w和b的值,f将输出预测y-hat的某个值;作为该式子中f(x)而没有明确的将w和b包含在下标中,让我们在图表中绘制训练集,其中输入特征x在水平轴上,输出目标y在垂直轴上;请记住,该算法从这些数据中学习并生成最适合的线,下图在的函数作用使用x的流程函数预测y的值。
  • 为什么我们会选择线性函数,其中线性函数知识直线的术语,而不是非线性函数,如曲线或抛物线?
    • 拟合更复杂的非线性函数,下图黑色的线,但是由于此线性函数相对简单易于使用,让我们使用一条线作为基础,最终将帮助获得更复杂的非线性模型。
  • 线性回归:是具有一个变量,表示只有一个输入变量或特征x,也可称为单变量(Univariate)线性回归。如:房屋大小;
    • 单变量只是说一个变量的一种奇特方式。

3.成本函数/代价函数:

3.1.重要性:

构建一个成本函数,该思想是机器学习中最普遍和最重要的思想之一,用于线性回归和训练世界上许多先进的人工智能模型。

3.2.概念:

为了实现线性回归,第一个关键步骤就是首先定义一个成本函数,成本函数将告诉我们模型的运行情况,以便我们可以尝试让它做的更好。

  • 例:有一个包含输入特征x和输出目标y的训练集,需要拟合这个训练集的模型是这个线性函数。机器学习中,模型的参数是可以在训练期间调整以改进模型的变量。
  • w和b:模型的参数(parameters)或系数或权重。根据w和b选择的值,会得到x的不同函数f,会在图形上生成不同的线:
    • 解析:
      • w=0,b=1.5时,f如最左图所示,这种情况下,x的函数f是0乘以x+1.5,因此f始终是一个常数值;它总是预测y的估计值=1.5;所以y-hat始终等于b,b也称为y的截距,因为这是它与垂直轴或此图上y轴相交的地方;
      • w=0.5,b=0,则图如中间图所示,斜率为0.5,w的值给出了直线的斜率即0.5;
      • w=0.5,b=1,如最右图显示,w斜率为0.5;
  • 假如,有一个像【图二】所示的训练集,对于线性回归,要做的是选择参数w和b的值,以便从函数f获得的直线以某种方式很好的拟合数据。就像蓝色的线一样,当看到这条线在视觉上与数据相符时,你可以认为这意味着f定义的线大致穿过或接近训练示例的某个地方,而其它可能的线则不太接近这些点。
  • 只是为了提醒您,像这里的训练示例由x上标i,y上标i定义,y是目标。对于给定的输入 x^i ,函数f也为 y^i 做出预测值,并且它对y的预测值是 ^i ,对于我们选择的x^i的模型f是w*x^i+b;换句话说,预测t^i是f、wb、x^i;其中对于我们使用的模型,f、x^i等于wx^i+b。现在的问题是如何找到w和b的值,以便对于许多或可能所有训练示例x^i、y^i的预测^i接近真实目标y^i.
  • 要回答这个问题,我们先来看看如何衡量一条直线与训练数据的拟合程度,为此,构建成本函数:采用预测并通过取

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/65131.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端编程图表化助手!Echarts入门

Echarts-一个基于javaScript的开源可视化图表库 在日常编程中,我们经常会用到类似饼图、柱状图等,而在网页中使用原生html和css很难做到类似效果。那么作为前端工程师,我们如何做出来一份好看而且实用的图标呢? 那么接下来&…

C#WPF基础介绍/第一个WPF程序

什么是WPF WPF(Windows Presentation Foundation)是微软公司推出的一种用于创建窗口应用程序的界面框架。它是.NET Framework的一部分,提供了一套先进的用户界面设计工具和功能,可以实现丰富的图形、动画和多媒体效果。 WPF 使用…

FPC在智能眼镜中的应用探索【新立电子】

在智能穿戴设备领域,智能眼镜具有独特的便携性、交互性和功能性等特点,智能眼镜的设计追求轻薄、美观与高度集成化。传统刚性电路板因体积庞大、难以弯曲,无法满足智能眼镜的复杂结构需求,而FPC其轻薄、柔软、可弯曲的特性&#x…

51c大模型~合集96

我自己的原文哦~ https://blog.51cto.com/whaosoft/12930135 #SnapGen 终于等来能塞进手机的文生图模型!十分之一体量,SnapGen实现百分百的效果 本文的共同一作为墨尔本大学的胡冬庭和香港科技大学的陈捷润和黄悉偈,完成于在 Snap 研究院…

知识图谱+大模型:打造全新智慧城市底层架构

在数字化时代,智慧城市的建设正迎来新一轮的变革。本文将探讨如何结合知识图谱和大模型技术,构建智慧城市的全新底层架构,以应对日益增长的数据量和复杂性,提升城市管理的智能化水平。 知识图谱:智慧城市的知识库 知识…

webrtc获取IceCandidate流程

在WebRTC(Web Real-Time Communication)中,ICECandidate是一个关键概念,它用于描述在建立点对点(P2P)连接时可以考虑的潜在通信端点。以下是关于WebRTC中ICECandidate的详细解释: 一、ICECandidate的定义 ICECandidate对象通常包含以下关键属性: foundation:用于唯一…

Unity 实现Canvas显示3D物体

新建一个UI相机,选择渲染层为UI 将主相机的渲染层去掉UI层 、 将Canvas的RenderMode设置为Screen Space - Camera,将RenderCamera设置为UI相机 新建3D物体的UI父物体,并将3D物体的层级设置为UI层 适当的放缩3DObjParent,让3D物体能显示出来…

“鞋履数据库”:运动鞋店产品信息管理系统

2.1 SSM框架介绍 本课题程序开发使用到的框架技术,英文名称缩写是SSM,在JavaWeb开发中使用的流行框架有SSH、SSM、SpringMVC等,作为一个课题程序采用SSH框架也可以,SSM框架也可以,SpringMVC也可以。SSH框架是属于重量级…

[源码解析] 模型并行分布式训练Megatron (2) --- 整体架构

link [源码解析] 模型并行分布式训练Megatron (2) --- 整体架构 目录 [源码解析] 模型并行分布式训练Megatron (2) --- 整体架构 0x00 摘要0x01 启动 1.1 分布式启动1.2 构造基础 1.2.1 获取模型1.2.2 获取数据集1.2.3 步进函数 1.2.3.1 广播数据0x02 Pretrain0x03 初始化 3.1 …

【Go】Go数据类型详解—map

1. 前言 本篇博客将会介绍Go语言当中的另一大核心数据类型——map(映射),当然在介绍这个数据类型之前我们还是要思考引入这个数据类型的原因: ❓ 需求:要求完成对一个班级所有同学的信息管理(包括但不限于…

自动驾驶---Parking端到端架构

​​​​​​1 背景 自动泊车也是智能驾驶低速功能中比较重要的一部分,低速功能其中还包括记忆泊车,代客泊车等。传统的泊车算法通常使用基于规则或者搜索优化的方案来实现。然而,由于算法的复杂设计,这些方法在复杂的泊车场景中效…

USB接口实现CDC(usb转串口功能)

主控:stm32f429 PHY芯片:usb3320 Cubemx System Core-RCC connectivity-USB_OTG_HS Middleware and Software Packs-USB_DEVICE 时钟配置:根据自己使用的MCU工作频率设置 Generate Code Keil5 打开工程 usbd_cdc_if.c这个文件&…

软件测试框架有什么作用?好用的测试框架分享

在当今软件开发中,软件测试框架扮演着至关重要的角色。测试框架是指用于支持自动化测试及测试管理的环境或平台。它提供了一系列的规则、标准和工具,以确保软件产品的质量。框架涵盖了测试的所有层面,包括单元测试、集成测试和系统测试等。更…

2.1.2 select poll epoll reactor

1. select 的使用方法 fd_set rdset; FD_ZERO(&rdset); // 清空 rdset rdset fdset; // 将 fdset 拷贝到 rdset,准备传给 select select(maxFd 1, &rdset, NULL, NULL, NULL);参数说明: maxFd: 被监控的文件描述符中最大的一个。maxFd 1…

vscode安装fortran插件配置

本章教程,主要介绍如何在vscode上安装fortran插件,以便于使用vscode运行fortran编写的程序。 一、安装插件 首先在插件商店安装这个扩展插件 然后再把Code Runner扩展插件装上 二、下载mingw64 通过网盘分享的文件:mingw64 链接: https://pan.baidu.com/s/1fwS-CwC7dgI

企业该如何进行合格文件外发管理

随着信息技术的迅猛发展,企业间的文件交换变得越来越频繁。但是,如何确保文件传输的安全性与效率,成为企业管理者面临的一个重大挑战。镭速(Raysync)文件外发管理方案以其独特的优势,成为众多企业的首选。本…

(Python+selenium)UI自动化测试详解

🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 我们在进行UI自动化测试时,一般采用javaselenium或者pythonselenium的方式。由于python比较简单,上手快,因此建议大家采用pyt…

使用openvino加速部署paddleocr文本检测模型(C++版)

使用openvino加速部署paddleocr文本检测模型(C++版) 引言1,前处理2,后处理3,C++部署代码引言 文本检测在openvino部署端的前后处理与在paddleocr中的不太一样。 1,前处理 在将文本检测的模型转换成onnx格式(输入输出大小都已固定),并部署到openvino后,其预处理后的输…

2021-04-08 VSC++: 降序折半查找。

void 降序折半查找(int* a, int aa, int aaa) {//缘由https://bbs.csdn.net/topics/399166569int aaaa aaa / 2; bool k 0;if (a[0] aa){cout << 0, cout << ends << "查找&#xff1a;" << aa << endl;k 1;return;}else if (a[aa…

MySQL三层B+树能存多少数据

结论 bigint类型的索引&#xff08;8字节&#xff09;&#xff0c;一条数据假设是1KB的话&#xff0c; 三层B树 能存2000万条数据 该题主要考察数据如何在B树中存储的 计算思路 1.计算叶节点的大小 2.计算子节点的个数&#xff0c;由此算出第三层叶子节点的个数&#xff08;n*n…