深入理解交叉熵损失 CrossEntropyLoss - 最大似然估计

深入理解交叉熵损失 CrossEntropyLoss - 最大似然估计

flyfish

下面有详细的例子和公式的说明。

最大似然估计的概念

最大似然估计是一种统计方法,用来估计模型参数,使得在这些参数下观测到的数据出现的概率(即似然)最大。

具体步骤

  1. 定义似然函数
  • 给定一个参数化的概率模型 P ( X ∣ θ ) P(X|\theta) P(Xθ),其中 θ \theta θ 是模型的参数, X X X 是观测数据。
  • 似然函数 L ( θ ∣ X ) L(\theta|X) L(θX) 表示在参数 θ \theta θ 下,观测数据 X X X 出现的概率。
  1. 计算似然函数
  • 对于独立同分布的数据集 { x 1 , x 2 , … , x n } \{x_1, x_2, \ldots, x_n\} {x1,x2,,xn},似然函数是各数据点概率的乘积:
    L ( θ ∣ X ) = P ( X ∣ θ ) = ∏ i = 1 n P ( x i ∣ θ ) L(\theta | X) = P(X|\theta) = \prod_{i=1}^{n} P(x_i|\theta) L(θX)=P(Xθ)=i=1nP(xiθ)
  1. 取对数得到对数似然函数
  • 为了简化计算,通常取似然函数的对数,即对数似然函数:
    log ⁡ L ( θ ∣ X ) = ∑ i = 1 n log ⁡ P ( x i ∣ θ ) \log L(\theta | X) = \sum_{i=1}^{n} \log P(x_i|\theta) logL(θX)=i=1nlogP(xiθ)
  1. 最大化对数似然函数
  • 找到使对数似然函数最大的参数 θ \theta θ
    θ ^ = arg ⁡ max ⁡ θ log ⁡ L ( θ ∣ X ) \hat{\theta} = \arg\max_{\theta} \log L(\theta | X) θ^=argmaxθlogL(θX)

似然函数的定义

假设我们有一个概率模型 P ( X ∣ θ ) P(X|\theta) P(Xθ),其中 θ \theta θ 是模型的参数, X X X 是观测数据。似然函数 L ( θ ∣ X ) L(\theta | X) L(θX) 表示在参数 θ \theta θ 下,观测数据 X X X 出现的概率。

对于独立同分布的数据

如果我们有独立同分布的数据集 { x 1 , x 2 , … , x n } \{x_1, x_2, \ldots, x_n\} {x1,x2,,xn},似然函数是各数据点概率的乘积:

L ( θ ∣ X ) = P ( X ∣ θ ) = ∏ i = 1 n P ( x i ∣ θ ) L(\theta | X) = P(X|\theta) = \prod_{i=1}^{n} P(x_i|\theta) L(θX)=P(Xθ)=i=1nP(xiθ)

公式拆解
  • L ( θ ∣ X ) L(\theta | X) L(θX):似然函数,表示参数 θ \theta θ 给定的情况下,观测数据 X X X 出现的概率。
  • θ \theta θ:模型参数,我们希望估计的未知量。
  • X X X:观测数据的集合。
  • { x 1 , x 2 , … , x n } \{x_1, x_2, \ldots, x_n\} {x1,x2,,xn}:独立同分布的观测数据点。
  • P ( X ∣ θ ) P(X|\theta) P(Xθ):观测数据 X X X 在参数 θ \theta θ 下的联合概率。
  • ∏ i = 1 n \prod_{i=1}^{n} i=1n:从 1 到 n n n 的乘积符号,表示对所有数据点的概率进行乘积。
  • P ( x i ∣ θ ) P(x_i|\theta) P(xiθ):单个数据点 x i x_i xi 在参数 θ \theta θ 下的概率。

对数似然函数

为了简化计算,通常我们对似然函数取对数,得到对数似然函数:

log ⁡ L ( θ ∣ X ) = ∑ i = 1 n log ⁡ P ( x i ∣ θ ) \log L(\theta | X) = \sum_{i=1}^{n} \log P(x_i|\theta) logL(θX)=i=1nlogP(xiθ)

公式拆解
  • log ⁡ L ( θ ∣ X ) \log L(\theta | X) logL(θX):对数似然函数。
  • ∑ i = 1 n \sum_{i=1}^{n} i=1n:从 1 到 n n n 的求和符号,表示对所有数据点的对数概率求和。
  • log ⁡ P ( x i ∣ θ ) \log P(x_i|\theta) logP(xiθ):单个数据点 x i x_i xi 在参数 θ \theta θ 下的对数概率。

举例说明:投掷硬币

假设我们投掷硬币10次,结果是6次正面朝上,我们希望估计硬币正面朝上的概率 p p p

定义似然函数

对于二项分布,似然函数为:

L ( p ∣ X ) = ( 10 6 ) p 6 ( 1 − p ) 4 L(p | X) = \binom{10}{6} p^6 (1-p)^4 L(pX)=(610)p6(1p)4

公式拆解
  • L ( p ∣ X ) L(p | X) L(pX):似然函数,表示在正面概率为 p p p 的情况下,观测到6次正面和4次反面的概率。
  • ( 10 6 ) \binom{10}{6} (610):组合数,表示从10次投掷中选择6次正面的组合数。
  • p 6 p^6 p6:正面出现6次的概率。
  • ( 1 − p ) 4 (1-p)^4 (1p)4:反面出现4次的概率。
对数似然函数

对似然函数取对数:

log ⁡ L ( p ∣ X ) = log ⁡ ( ( 10 6 ) ) + 6 log ⁡ ( p ) + 4 log ⁡ ( 1 − p ) \log L(p | X) = \log \left( \binom{10}{6} \right) + 6 \log(p) + 4 \log(1-p) logL(pX)=log((610))+6log(p)+4log(1p)

最大化对数似然函数

通过求导数并设为0,可以找到使对数似然函数最大的参数 p p p

d d p log ⁡ L ( p ∣ X ) = 6 p − 4 1 − p = 0 \frac{d}{dp} \log L(p | X) = \frac{6}{p} - \frac{4}{1-p} = 0 dpdlogL(pX)=p61p4=0

解这个方程得到:

6 p = 4 1 − p \frac{6}{p} = \frac{4}{1-p} p6=1p4
6 ( 1 − p ) = 4 p 6(1-p) = 4p 6(1p)=4p
6 − 6 p = 4 p 6 - 6p = 4p 66p=4p
6 = 10 p 6 = 10p 6=10p
p = 6 10 = 0.6 p = \frac{6}{10} = 0.6 p=106=0.6

代码

import numpy as np
from scipy.optimize import minimize# 定义对数似然函数,加入小偏移量避免除零错误
def log_likelihood(p, data, epsilon=1e-10):n = len(data)k = np.sum(data)p = np.clip(p, epsilon, 1 - epsilon)  # 确保 p 在 (epsilon, 1 - epsilon) 之间return -(k * np.log(p) + (n - k) * np.log(1 - p))# 模拟数据:10次投掷,6次正面朝上
data = [1] * 6 + [0] * 4# 最大化对数似然函数
result = minimize(log_likelihood, x0=[0.5], args=(data), bounds=[(0, 1)])
p_hat = result.x[0]
print(f'Estimated probability of heads: {p_hat}')
Estimated probability of heads: 0.5999999961321424

最大化对数似然函数与最小化负对数似然函数在本质上是一样的。它们都是为了找到模型参数,使得观测数据在模型下的概率最大化。让我们详细解释一下这个关系。

对数似然函数

首先,我们有似然函数 L ( θ ∣ X ) L(\theta | X) L(θX),表示在参数 θ \theta θ 下,观测数据 X X X 出现的概率。为了简化计算,通常我们对似然函数取对数,得到对数似然函数:

log ⁡ L ( θ ∣ X ) \log L(\theta | X) logL(θX)

最大化对数似然函数就是找到参数 θ \theta θ,使得 log ⁡ L ( θ ∣ X ) \log L(\theta | X) logL(θX) 最大化:

θ ^ = arg ⁡ max ⁡ θ log ⁡ L ( θ ∣ X ) \hat{\theta} = \arg\max_{\theta} \log L(\theta | X) θ^=argθmaxlogL(θX)

负对数似然函数

负对数似然函数是对数似然函数取负号:

− log ⁡ L ( θ ∣ X ) -\log L(\theta | X) logL(θX)

最小化负对数似然函数就是找到参数 θ \theta θ,使得 − log ⁡ L ( θ ∣ X ) -\log L(\theta | X) logL(θX) 最小化:

θ ^ = arg ⁡ min ⁡ θ − log ⁡ L ( θ ∣ X ) \hat{\theta} = \arg\min_{\theta} -\log L(\theta | X) θ^=argθminlogL(θX)

等价关系

最大化对数似然函数和最小化负对数似然函数在数学上是等价的。因为一个数的负数和这个数的大小关系相反,所以在求极值时:

arg ⁡ max ⁡ θ log ⁡ L ( θ ∣ X ) = arg ⁡ min ⁡ θ − log ⁡ L ( θ ∣ X ) \arg\max_{\theta} \log L(\theta | X) = \arg\min_{\theta} -\log L(\theta | X) argmaxθlogL(θX)=argminθlogL(θX)

例子:投掷硬币

假设我们有10次投掷硬币的结果,6次正面朝上,我们希望估计正面朝上的概率 p p p

  1. 对数似然函数
    log ⁡ L ( p ∣ X ) = log ⁡ ( ( 10 6 ) ) + 6 log ⁡ ( p ) + 4 log ⁡ ( 1 − p ) \log L(p | X) = \log \left( \binom{10}{6} \right) + 6 \log(p) + 4 \log(1-p) logL(pX)=log((610))+6log(p)+4log(1p)

  2. 最大化对数似然函数

p ^ = arg ⁡ max ⁡ p [ log ⁡ ( ( 10 6 ) ) + 6 log ⁡ ( p ) + 4 log ⁡ ( 1 − p ) ] \hat{p} = \arg\max_{p} \left[ \log \left( \binom{10}{6} \right) + 6 \log(p) + 4 \log(1-p) \right] p^=argpmax[log((610))+6log(p)+4log(1p)]

  1. 负对数似然函数
    − log ⁡ L ( p ∣ X ) = − log ⁡ ( ( 10 6 ) ) − 6 log ⁡ ( p ) − 4 log ⁡ ( 1 − p ) -\log L(p | X) = -\log \left( \binom{10}{6} \right) - 6 \log(p) - 4 \log(1-p) logL(pX)=log((610))6log(p)4log(1p)
  2. 最小化负对数似然函数

p ^ = arg ⁡ min ⁡ p [ − log ⁡ ( ( 10 6 ) ) − 6 log ⁡ ( p ) − 4 log ⁡ ( 1 − p ) ] \hat{p} = \arg\min_{p} \left[ -\log \left( \binom{10}{6} \right) - 6 \log(p) - 4 \log(1-p) \right] p^=argpmin[log((610))6log(p)4log(1p)]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/25016.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL-7、连接的原理

前言 前面介绍了MySQL执行查询语句其中访问方法,包括const、ref、ref_or_null、range、index、all、index_merge(索引合并)。索引合并又分三种情况,Intersection(交集)索引合并、Union(并集)索引合并、Sort-Union索引合并。 &…

JavaWeb2-Vue

Vue 前端框架,免除原生JS中的DOM操作简化书写 (以前学过又忘了,现在才知道原来vue是前端的) 基于MVVM思想(model-view -viewModel)实现数据双向绑定 model是数据模型 view负责数据展示 即DOM 中间这个负责…

工具方法 - 如何设定自己成为什么样的人

设定自己应该成为一个什么样的人是一个个人成长和自我发现的过程。以下是一些步骤和建议,可能会对你有帮助: 1. 自我反思 了解自己: 花时间思考你的兴趣、价值观、优点和缺点。问问自己: 我喜欢做什么?我擅长什么&a…

堆排序讲解

前言 在讲堆的删除时,我们发现一步一步删除堆顶的数据,排列起来呈现出排序的规律,所以本节小编将带领大家进一步理解堆排序。 1.堆排序概念 那么什么是堆排序? 堆排序(Heap Sort)是一种基于堆数据结构的排…

GPT-4o的崛起:人工智能新纪元的开端

如何评价GPT-4o? GPT-4o的崛起:人工智能新纪元的开端 随着人工智能技术的飞速发展,GPT-4o的发布再次引起了广泛关注。作为OpenAI推出的最新一代语言模型,GPT-4o不仅在技术能力上取得了重大突破,还在应用场景和用户体验上带来了…

网络学了点socket,写个聊天室,还得改进

目录 第一版: common 服务端: 客户端 第一版问题总结: 第二版 服务端: 客户端: 改进: Windows客户端 一些小问题 还可以进行的改进 这篇文章我就先不讲网络基础的东西了,我讲讲在我进行制作我这个拉跨聊天室中遇到的问题,并写了三版代码. 第一版: common #pragm…

SpringBoot-集成TOTP

TOTP验证码提供了一种高效且安全的身份验证方法。它不仅减少了依赖短信或其他通信方式带来的成本和延时,还通过不断变换的密码增加了破解的难度。未来,随着技术的进步和对安全性要求的提高,TOTP及其衍生技术将继续发展并被更广泛地应用。TOTP…

在CSS中,可以使用`float`属性来设置元素浮动

在CSS中,可以使用float属性来设置元素浮动。float属性有三个值:left、right和none。 float: left;:将元素浮动到左侧。float: right;:将元素浮动到右侧。float: none;:取消元素的浮动(默认值)。…

代码随想录算法训练营第三十一天| 455. 分发饼干、376. 摆动序列、53. 最大子数组和

[LeetCode] 455. 分发饼干 [LeetCode] 455. 分发饼干 文章解释 [LeetCode] 455. 分发饼干 视频解释 题目: 假设你是一位很棒的家长,想要给你的孩子们一些小饼干。但是,每个孩子最多只能给一块饼干。 对每个孩子 i,都有一个胃口值 g[i]&#x…

多模态模型是什么意思(国内外的AI多模态有哪些)

在人工智能和机器学习的领域,我们经常会遇到一些专业术语,这些术语可能会让初学者感到困惑。其中,"多模态模型"就是这样一个概念。 什么是AI多模态。它是什么意思呢? 那么,多模态模型是什么意思呢&#xff1…

【Python】数据处理:SQLite操作

使用 Python 与 SQLite 进行交互非常方便。SQLite 是一个轻量级的关系数据库,Python 标准库中包含一个名为 sqlite3 的模块,可以直接使用。 import sqlite3数据库连接和管理 连接到 SQLite 数据库。如果数据库文件不存在,则创建一个新数据库…

大数据如何更好地助力乡村振兴战略的实施?

大数据可以在乡村振兴战略的实施中发挥重要的作用。以下是一些大数据如何更好地助力乡村振兴战略实施的方法: 优化资源配置:通过大数据分析,可以了解到乡村的资源分布和利用情况,帮助政府和相关机构更好地进行资源调配和规划&…

Web前端Git安装:一步步引导你走进版本控制的奇妙世界

Web前端Git安装:一步步引导你走进版本控制的奇妙世界 在Web前端开发的广阔天地中,Git作为一款强大的版本控制工具,扮演着举足轻重的角色。本文将引导你逐步完成Git的安装过程,并深入探讨其在前端开发中的重要作用。我们将从四个方…

SystemVerilog Interface Class的妙用

前言 Interface Class是在SystemVerilog 2012版本中引入的,但目前在验证中几乎很少采用,大多数验证工程师要么不知道它,要么没有看到使用它的任何好处,这使得Interface Class成为一个未被充分使用和不被重视的特性。本文将举两个…

docker镜像深入理解

大家好,本篇文章和大家聊下docker相关的话题~~ 工作中经常有关于docker镜像的问题,让人百思不解 docker镜像加载到系统中到哪里去了?docker load 加载镜像的流程是怎样的?为什么容器修改内容后,删除容器后再次开启容…

阿里云 MQTT 服务器搭建与测试(上传和下发数据finish)

一、 MQTT 概念 MQTT(Message Queuing Telemetry Transport,消息队列遥测传输协议),是一种基于发布/订阅(publish/subscribe)模式的"轻量级"通讯协议,该协议构建于 TCP/IP协议上,由 IBM 在 1999 年发布。MQTT 最大优点在于,可以以极少的代码和有限的带宽,…

c++之旅第十弹——IO流

大家好啊,这里是c之旅第十弹,跟随我的步伐来开始这一篇的学习吧! 如果有知识性错误,欢迎各位指正!!一起加油!! 创作不易,希望大家多多支持哦! 一.流的概念&…

kNN算法-概述

所谓kNN算法就是K-nearest neigbor algorithm。这是似乎是最简单的监督机器学习算法。在训练阶段,kNN算法存储了标签训练样本数据。简单地说,就是调用训练方法时传递给它的标签训练样本会被它存储起来。 kNN算法也叫lazy learning algorithm懒惰学习算法…

计算机网络 期末复习(谢希仁版本)第8章

元文件就是一种非常小的文件,它描述或指明其他文件的一些重要信息。这里的元文件保存了有关这个音频/视频文件的信息。 10. 流式:TCP;流式实况:UDP。

Huawei 大型 WLAN 组网 AC 间漫游

AC1配置命令 <AC6005>display current-configuration # vlan batch 100 # interface Vlanif100description to_S3_CAPWAPip address 10.0.100.254 255.255.255.0 # interface GigabitEthernet0/0/1port link-type trunkport trunk allow-pass vlan 100# ip route-stati…