机器学习-线性回归(最大似然估计)

机器学习任务可以分为两类: 一类是样本的特征向量 𝒙 和标签 𝑦 之间存在未知的函数关系𝑦 = h(𝒙),另一类是条件概率𝑝(𝑦|𝒙)服从某个未知分布。最小二乘法是属于第一类,直接建模 𝒙 和标签 𝑦 之间的函数关系。此外,线性回归还可以从建模条件概率 𝑝(𝑦|𝒙) 的角度来进行参数估计。

一、最大似然估计的概念

在统计学和机器学习中,最大似然估计(Maximum Likelihood Estimation,简称 MLE)是一种用于估计模型参数的方法,其核心思想是:在给定观测数据的情况下,选择使得数据出现概率最大的模型参数。

在线性回归中,最大似然估计(MLE)通过假设目标变量服从正态分布,将参数估计问题转化为最大化数据出现的概率。

最大似然估计是一种参数估计方法,其核心思想是选择参数使得观测数据出现的概率最大。也就是说,在给定数据的情况下,找到最有可能生成这些数据的参数值。这需要先假设数据服从某种概率分布,然后构建似然函数,最后通过优化方法找到使似然函数最大化的参数。

二、模型假设 - 构建对数似然函数

这里我们回顾一下高斯分布为:

假设目标变量 y 与特征 x 的关系为:

在线性回归模型中,假设我们有一组观测数据:

其中 x_i​ 是输入特征,y_i 是对应的输出。

在这种假设下,y_i 也服从均值为 w^Tx_i、方差为 σ2 的正态分布。

因此,单个观测值 y_i 的概率密度函数为:

由于观测值之间相互独立,整个数据集的似然函数是各个观测值概率密度函数的乘积:

这里用到的对数函数的性质,由乘积转换为求和:

更具体的形式为:

三、对参数求导并求解

1.对数似然函数关于 w 求偏导数:

2.令上述偏导数等于零,得到:

3.求解最优参数 w: 将上述方程整理为矩阵形式:

其中,X 是包含所有自变量的设计矩阵,y 是包含所有因变量的向量。

解得最优参数 w:

可以看出,最大似然估计的解和最小二乘法的解相同.

通过上述步骤,可以使用最大似然估计方法求解线性回归模型的最优参数 w。

需要注意的是,以上推导假设误差项 ϵ 服从正态分布,这使得似然函数具有上述形式。 在实际应用中,虽然误差项不一定严格服从正态分布,但在样本量足够大的情况下,参数估计的性质仍然良好。

四、第三步中,方程整理为矩阵形式的推导:

定义设计矩阵 X 为:

定义因变量向量 y 为:

定义参数向量 w 为:

则偏导数的矩阵形式为:

五、关于指数函数(exp)的说明:

线性回归模型中,指数函数exp)通常用于逻辑回归等模型中,以确保模型输出符合概率的要求。

在逻辑回归中,模型的输出是一个概率值,表示某个事件发生的可能性。

为了将线性组合的结果(如 w^Tx)转换为概率值,使用了sigmoid函数,其形式为:

通过应用指数函数,sigmoid函数将线性输出转换为0到1之间的概率值。

这使得模型的输出符合概率分布的性质,且增强了大值之间的相对差异,从而使得更大可能性的类别在概率上更具优势。

需要注意的是,线性回归模型本身并不直接使用指数函数。

在逻辑回归等模型中,指数函数的使用是为了确保模型输出符合概率的要求。

在最大似然估计的过程中,使用对数似然函数来简化计算。

通过对数变换,将乘积转化为求和,从而使得优化过程更加方便。

这也是为什么在一些机器学习算法中,会看到对某项加上exp的原因。

一方面,exp函数确保每个因子是正的;另一方面,通过对数变换,累乘关系转化为累加关系,优化过程变得更加简便。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/69299.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据完整性与约束的分类

一、引言 为什么需要约束?为了保证数据的完整性。 (1)数据完整性 数据完整性指的是数据的精确性和可靠性。 为了保证数据的完整性,SQL对表数据进行额外的条件限制,从以下四方面考虑: ①实体完整性&…

autMan奥特曼机器人-对接deepseek教程

一、安装插件ChatGPT 符合openai api协议的大模型均可使用此插件,包括chatgpt-4/chatgpt-3.5-turbo,可自定义服务地址和模型,指令:gpt,要求Python3.7以上,使用官方库https://github.com/openai/openai-pyt…

@[TOC](优先级队列(堆)) 【本节目标】 1. 掌握堆的概念及实现 2. 掌握 PriorityQueue 的使用

优先级队列(堆) 1. 优先级队列1.1 概念 2. 优先级队列的模拟实现2.1 堆的概念2.2 堆的存储方式2.3 堆的创建2.3.1 堆向下调整2.3.2 堆的创建2.3.3 建堆的时间复杂度 2.4 堆的插入与删除2.4.1 堆的插入2.4.2 堆的删除 2.5 用堆模拟实现优先级队列 【本节目…

【Linux网络编程】之守护进程

【Linux网络编程】之守护进程 进程组进程组的概念组长进程 会话会话的概念会话ID 控制终端控制终端的概念控制终端的作用会话、终端、bash三者的关系 前台进程与后台进程概念特点查看当前终端的后台进程前台进程与后台进程的切换 进程组 进程组的概念 当我们使用以下命令查与…

11.PPT:世界动物日【25】

目录 NO12​ NO34 NO56​ NO789视频音频​ NO10/11/12​ NO12 设计→幻灯片大小→ →全屏显示(16:9)确定调整标题占位符置于图片右侧:内容占位符与标题占位符左对齐单击右键“世界动物日1”→复制版式→大小→对齐 幻灯片大小…

Java项目: 基于SpringBoot+mybatis+maven+mysql实现的智能学习平台管理系(含源码+数据库+毕业论文)

一、项目简介 本项目是一套基于SpringBootmybatismavenmysql实现的智能学习平台管理系统 包含:项目源码、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,eclipse或者idea 确保可以运行! 该系统功能完善、…

Odoo免费开源ERP最佳业务实践:主生产计划概论

Odoo主生产计划(Master Production Schedule, MPS)是确定每一个具体产品在每一个具体时间段的生产计划。 文|开源智造Odoo亚太金牌服务 老杨 概述 Odoo是全球排名第一的免费开源ERP系统,以其强大的功能和模块化设计著称,适用于各…

TOTP实现Google Authenticator认证工具获取6位验证码

登录遇到Google认证怎么办? TOTP是什么?(Google Authenticator) TOTP(Time-based One-Time Password)是一种基于时间的一次性密码算法,主要用于双因素身份验证。其核心原理是通过共享密钥和时间同步生成动态密码,具体步骤如下: 共享密钥:服务端与客户端预先共享一个…

@RequestBody与@ResponseBody:Spring数据处理的“翻译官”

在Spring中,RequestBody和ResponseBody注解就像是数据交换的“翻译官”。 1. RequestBody注解:它的作用就像是把客户端发来的“外语”翻译成Java对象。当我们发送一个HTTP请求到服务器时,请求体里通常包含了一些数据,这些数据可能…

网络爬虫学习:借助DeepSeek完善爬虫软件,增加停止任务功能

一、引言 我从24年11月份开始学习网络爬虫应用开发,经过2个来月的努力,终于完成了开发一款网络爬虫软件的学习目标。这几天对本次学习及应用开发进行一下回顾总结。前面已经发布了两篇日志: 网络爬虫学习:应用selenium从搜*狐搜…

LM Studio 部署本地大语言模型

一、下载安装 1.搜索:lm studio LM Studio - Discover, download, and run local LLMs 2.下载 3.安装 4.更改成中文 二、下载模型(软件内下载) 1.选择使用代理,否则无法下载 2.更改模型下载目录 默认下载位置 C:\Users\用户名\.lmstudio\models 3.搜…

基于知乎平台的“开源AI智能名片2 + 1链动模式S2B2C商城小程序”引流策略研究

摘要:本文聚焦于如何借助知乎平台的高权重及优质用户特性,对“开源AI智能名片2 1链动模式S2B2C商城小程序”进行有效引流。通过深入分析知乎平台的用户特点、引流规则,并结合具体的引流方法,旨在为相关项目在知乎平台实现高效用户…

Oracle CDB自动处理表空间不足脚本

之前我曾经发过一个自动处理表空间的脚本,可以通过定时任务自动处理表空间不足的问题;但是之前那个脚本没有涵盖CDB模式下的PDB,这里将脚本做了一下更新,可以处理CDB模式下多PDB的表空间问题。 传统模式的脚本请参考这个链接 Or…

在 Navicat 17 中扩展 PostgreSQL 数据类型 | 创建自定义域

定义域 以适当的格式存储数据可以确保数据完整性,防止错误,优化性能,并通过实施验证规则和支持高效数据管理来维护系统间的一致性。基于这些原因,顶级关系数据库(如PostgreSQL)提供了多种数据类型。此外&a…

Postgresql的三种备份方式_postgresql备份

这种方式可以在数据库正在使用的时候进行完整一致的备份,并不阻塞其它用户对数据库的访问。它会产生一个脚本文件,里面包含备份开始时,已创建的各种数据库对象的SQL语句和每个表中的数据。可以使用数据库提供的工具pg_dumpall和pg_dump来进行…

[Collection与数据结构] B树与B+树

🌸个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 🏵️热门专栏: 🧊 Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 🍕 Collection与…

【基于SprintBoot+Mybatis+Mysql】电脑商城项目之修改密码和个人资料

🧸安清h:个人主页 🎥个人专栏:【Spring篇】【计算机网络】【Mybatis篇】 🚦作者简介:一个有趣爱睡觉的intp,期待和更多人分享自己所学知识的真诚大学生。 目录 🎃1.修改密码 -持久…

蓝桥杯小白打卡第二天

789. 数的范围 题目描述 给定一个按照升序排列的长度为 n n n 的整数数组,以及 q q q 个查询。 对于每个查询,返回一个元素 k k k 的起始位置和终止位置(位置从 0 0 0 开始计数)。 如果数组中不存在该元素,则返…

【Elasticsearch】terms聚合误差问题

Elasticsearch中的聚合查询在某些情况下确实可能存在误差,尤其是在处理分布式数据和大量唯一值时。这种误差主要来源于以下几个方面: 1.分片数据的局部性 Elasticsearch的索引通常被分成多个分片,每个分片独立地计算聚合结果。由于数据在分…

电脑可以自己换显卡吗?怎么操作

电脑是否可以自己换显卡主要取决于电脑的类型(台式机或笔记本)以及电脑的硬件配置。以下是对这一问题的详细解答及操作步骤: 一、判断电脑是否支持更换显卡 台式机:大多数台式电脑都支持更换显卡。只要主板上有PCIe插槽&#xff…