机器学习 | 回归算法原理——最小二乘法

Hi,大家好,我是半亩花海。很早便想学习并总结一本很喜欢的机器学习图书——立石贤吾的《白话机器学习的数学》,可谓通俗易懂,清晰形象。那就在此分享并作为学习笔记来记录我的学习过程吧!本章的回归算法原理基于《基于广告费预测点击量》项目,欢迎大家交流学习!

目录

一、最小二乘法概述

二、案例分析

1. 设置问题

2. 定义模型

3. 最小二乘法


一、最小二乘法概述

最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和min E(\theta))寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法同梯度下降类似,都是一种求解无约束最优化问题的常用方法,并且也可以用于曲线拟合,来解决回归问题。


二、案例分析

下面根据《基于广告费预测点击量》这一项目展开最小二乘法的介绍和分析。

1. 设置问题

假设存在这样一个前提:投入的广告费越多,广告的点击量就越高,进而带来访问数的增加。这样看这种假设类似于线性关系,但实际上两者之间未必是简单的线性关系

根据广告费和实际点击量的对应关系数据,可以将两个变量用下面的图展示出来,如下图(图中的值是随便选的)。

我们看着这张图可以猜猜,如果花了200日元的广告费,广告的点击量会是多少呢?通过探索估计,大概在500次左右吧。

这就是机器学习。我们所做的事情正是从数据中进行学习,然后给出预测值。接下来我们就要使用机器学习,像我们刚才做的那样尝试进行根据广告费预测点击量的任务

当然,实际要使用机器学习来解决的问题都会更复杂,很多问题无法像这样画出图来。现在我们为了加深理解才用了这样一个简单的例子,后面的例子会越来越难的。

2. 定义模型

那我们如何应用机器学习呢?就刚刚的例子,如下图所示,我们可以把图想象为函数。只要知道通过图中各点的函数的形式就能根据广告费得知点击量了。但是点击量经常变化,这叫作“点击量中含有噪声”,所以函数并不能完美地通过所有的点。

这样看便是我们初中便学过的一次函数,考虑到后面的学习(为了防止当未知数增加时,表达式中大量出现 a、b、c、d…这样的符号),我们常常使用如下的\theta + 数字下标”的形式来表示未知数和推测值,进而定义一次函数的表达式。

y=\theta_0+\theta_1 x

比如,我们先任取两个数作为 \theta_{0}\theta_{1},假设 \theta_{0} =1\theta_{1} =2,那么当广告费为 100 日元时,点击量的计算过程如下:

y = 1 + 2x = 1 + 2 \times 100 = 201

函数 y = 1 + 2x 的部分点信息如下:

但实际上我们再看一下刚才的图会发现,如果广告费为 100 日元,那 么点击量应该大于 400。

这说明我们刚才确定的参数 \theta_{0} =1\theta_{1} =2 完全不正确。 接下来我们就要使用机器学习来求出正确的 \theta_{0} 和 \theta_{1}  的值。

3. 最小二乘法

假设有 n 个训练数据, 那么它们的误差之和可以用下面的表达式 E(\theta) 表示。这个表达式称为目标函数(其中,E(\theta) 的 E 是误差的英语单词 Error 的首字母)。(ps:计算误差般不用绝对值,而用平方。因为之后要对目标函数进行微分,比起绝对值,平方的微分更加简单。)

E(\theta)=\frac{1}{2} \sum_{i=1}^n\left(y^{(i)}-f_\theta\left(x^{(i)}\right)\right)^2

其中,f_\theta(x) 表达式为:

f_\theta(x)=\theta_0+\theta_1 x

其次,x^{(i)}y^{(i)} 中的 i 不是 i 次幂的意思,而是指第 i 个训练数据

再者,误差解释一下,如下图所示,图中的双向虚线箭头表示训练数据的点和 f_\theta(x) 图像的误差。

我们实际来计算一下表达式 f_\theta(x) 中 E(\theta) 的值吧。设 \theta_{0} =1\theta_{1} =2, 然后将刚才列举的 4 个训练数据代入表达式。求出来的误差有点大……

\begin{aligned} E(\theta) & =\frac{1}{2} \sum_{i=1}^4\left(y^{(i)}-f_\theta\left(x^{(i)}\right)\right)^2 \\ & =\frac{1}{2} \times\left((374-117)^2+(385-141)^2+(375-163)^2+(401-169)^2\right) \\ & =\frac{1}{2} \times(66049+59536+44944+53824) \\ & =112176.5 \end{aligned}

上述结果 112 176.5 这个值本身没有什么意义,我们要通过一些方法修改参数 \theta,如之后所学习的神经网络中的调参等方式,使得这个值变得越来越小。这种做法称为最小二乘法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/49404.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智能化数据安全分类分级实践

在当今数字化浪潮的迅猛推进下,企业和组织正遭遇前所未有的数据安全治理挑战。随着海量数据的不断产生、传输、存储和应用,它们面临着来自黑客攻击、内部人员恶意泄露以及数据误操作等多重安全威胁的侵袭。因此,构建一个健全的数据安全治理体…

【快速逆向四/无过程/有源码】浙江工商职业技术学院 统一身份认证

逆向日期:2024.07.23 使用工具:Node.js 加密方法:RSAUtils 文章全程已做去敏处理!!! 【需要做的可联系我】 AES解密处理(直接解密即可)(crypto-js.js 标准算法&#xf…

Unity ShaderLab基础

[原文1] [参考2] 一 基础知识 1. 1 着色器语言分类: 语言说明HLSL基于 OpenGL 的 OpenGL Shading LanguageGLSL基于 DirectX 的 High Level Shading LanguageCGNVIDIA 公司的 C for GraphicShader LabUnity封装了CG,HLSL,GLSL的Unity专用着色器语言,具有跨平台,图形化编程,便…

Modbus转BACnet/IP网关BA100-配硬件说明

在现代自动化系统中,不同设备和系统之间的通信至关重要,Modbus和BACnet/IP协议虽然各有优势,但它们之间的直接通信存在障碍。钡铼Modbus转BACnet/IP网关作为连接这两种协议的桥梁,允许不同系统之间的无缝数据交换。 一、Modbus转…

Ubuntu22.04安装X11vnc方法

一、问题描述 客户想使用Ubuntu图形化功能,需要远程去操作界面 二、安装方法如下 通常情况,ubuntu不允许root用户运行GUI程序。因此,我们创建普通用户进行安装配置X11vnc服务 1.安装x11vnc程序包 sudo apt-get update sudo apt-get install -y x11v…

内网隧道——HTTP隧道

文章目录 一、ReGeorg二、Neo-reGeorg三、Pivotnacci 实验网络拓扑如下: 攻击机kali IP:192.168.111.0 跳板机win7 IP:192.168.111.128,192.168.52.143 靶机win server 2008 IP:192.168.52.138 攻击机与Web服务器彼此之…

pdf压缩在线免费 pdf压缩在线免费网页版 在线pdf压缩在线免费 pdf压缩工具在线免费

在数字化时代,pdf文件已经成为我们工作、学习和生活中的重要组成部分。然而,体积庞大的pdf文件往往给我们的存储空间、传输速度带来不小的压力。本文将为您揭秘几种简单有效的pdf文件压缩方法,让您轻松应对文件体积过大带来的困扰。 方法一、…

PLC通过IGT-SER系列智能网关快速实现WebService接口调用案例

IGT-SER系列智能网关支持PLC设备数据对接到各种系统平台,包括SQL数据库,以及MQTT、HTTP协议的数据服务端;通过其边缘计算功能和脚本生成的工具软件,非常方便快速实现PLC、智能仪表与WebService服务端通信。 本文是通过智能网关读取…

如何切换网络IP地址?IP切换的应用与方法

随着互联网的发展和普及,我们日常生活中的各种操作和通讯越来越依赖互联网。互联网上存在的一些问题和限制使得更换IP地址成为必要的步骤。下面我们将探讨在互联网业务中,需要更换IP地址的原因与方法。 一、IP轮换的应用 解决访问限制:解决访…

Intellij IDEA多模块分组 实现move to group

新版本idea,没有了move to group的功能,导致模块很多的时候不能分组。2018版本有。 这个分组是虚拟的,不会在磁盘中实际存在。 要实现这个功能,只需要改modules.xml即可。 步骤 1. 找到配置文件 .idea目录下的moudules.xml 2.…

新增ClamAV病毒扫描功能、支持Java和Go运行环境,1Panel开源面板v1.10.12版本发布

2024年7月19日,现代化、开源的Linux服务器运维管理面板1Panel正式发布了v1.10.12版本。 在这一版本中,1Panel新增了多项实用功能。社区版方面,1Panel新增ClamAV病毒扫描功能、支持Java和Go运行环境,同时1Panel还新增了文件编辑器…

服务器数据恢复—Isilon存储集群节点误删除的数据恢复案例

Isilon存储结构: Isilon存储使用的是分布式文件系统OneFS。在Isilon存储集群里面每个节点均为单一的OneFS文件系统,所以Isilon存储在进行横向扩展的同时不会影响数据的正常使用。Isilon存储集群所有节点提供相同的功能,节点与节点之间没有主备…

怎样将对象转换为包含键值对的对象数组?然后又将数组转换为对象?

​ const formData {location: Park,address: 123 Main St,latitude: 37.7749,longitude: -122.4194 };​1、怎样把这个对象转化为一个数组? 2、然后又怎样把转化后的数组再转化回来? 3、怎样将这两个方法单独封装成函数? 方法 1: 将对象…

基于FPGA的以太网设计(3)----详解各类xMII接口

1、什么是xMII接口 MII (Media Independent Interface)接口,即介质无关接口或称为媒体独立接口,它是IEEE-802.3定义的以太网行业标准。“介质无关” 表明在不对MAC硬件重新设计或替换的情况下,任何类型的PHY设备都可以正常工作。 MII接口是MAC和PHY之间的通信接口,MAC产生…

微软的Edge浏览器如何设置兼容模式

微软的Edge浏览器如何设置兼容模式? Microsoft Edge 在浏览部分网站的时候,会被标记为不兼容,会有此网站需要Internet Explorer的提示,虽然可以手动点击在 Microsoft Edge 中继续浏览,但是操作起来相对复杂&#xff0c…

基于内容的音乐推荐网站/基于ssm的音乐推荐系统/基于协同过滤推荐的音乐网站/基于vue的音乐平台

获取源码联系方式请查看文末🍅 摘 要 随着信息化时代的到来,系统管理都趋向于智能化、系统化,音乐推荐网站也不例外,但目前国内的有些公司仍然都使用人工管理,公司规模越来越大,同时信息量也越来越庞大&…

耳机、音响UWB传输数据模组,飞睿智能低延迟、高速率超宽带uwb模块技术音频应用

在数字化浪潮席卷全球的今天,无线通信技术日新月异,其中超宽带(Ultra-Wideband,简称UWB)技术以其独特的优势,正逐步成为无线传输领域的新星。本文将深入探讨飞睿智能UWB传输数据模组在音频应用中的创新应用…

Excel的常用函数公式

Excel的常见函数公式 1、SUM函数 sum函数:主要是用于求和。 格式:SUM(数值1…数值n) 例如:求算学生成绩的综合 sum(B3:D3)、表示求张三同学成绩的总分 只算两科成绩的总分: 注意:在函数公式的…

GraphRAG + GPT-4o mini 低成本构建 AI 图谱知识库

更好的效果,更低的价格,听起来是不是像梦呓? 限制 首先,让我们来介绍一个词:RAG。 简单来说,RAG(Retrieval-Augmented Generation,检索增强生成) 的工作原理是将大型文档…